Python自动识别合同文本中的敏感信息并生成脱敏文件的脚本流程【教程】

舞夢輝影

发布时间：2025-12-13 21:27:25

477人浏览过

来源于php中文网

原创

python合同敏感信息识别与脱敏可基于正则+关键词匹配实现：精准定位身份证号、手机号、银行卡号等，按规则掩码处理（如身份证前6后4保留），结合jieba分词匹配姓名公司名，支持txt/docx/pdf多格式读取与结构化输出。

python自动识别合同文本中的敏感信息并生成脱敏文件的脚本流程【教程】

用Python自动识别合同文本中的敏感信息并生成脱敏文件，核心在于：精准定位敏感词（如身份证号、手机号、银行账号、公司名称、签约方姓名等），按规则替换或掩码处理，并保留原文结构输出新文件。不依赖复杂模型，正则+关键词匹配+基础NLP即可落地。

一、明确要识别的敏感信息类型和规则

先梳理合同中常见的敏感字段，每类定义清晰的识别方式和脱敏格式：

身份证号：15位或18位数字（含X/x），用正则 r'\b\d{15}|\d{17}[\dXx]\b' 匹配，脱敏为前6位+“****”+后4位
手机号：11位连续数字，开头为1，用 r'1[3-9]\d{9}' 匹配，脱敏为前3位+“****”+后4位
银行卡号：16–19位连续数字，常带空格或短横线，先清洗再匹配 r'\b\d{16,19}\b'，脱敏为前6位+“****”+后4位
姓名/公司名：需自建关键词表（如“甲方：XXX有限公司”），用字符串包含或jieba分词+词典匹配，脱敏为“甲方：某公司”或“张三”→“某先生”
金额、日期、地址：按需控制，例如金额大于100万标为“【大额金额】”，日期统一转为“【签约日期】”

二、读取与预处理合同文本

支持txt、docx（需python-docx）、pdf（需PyPDF2或pdfplumber）三种常见格式。推荐从txt起步，稳定易调试：

txt文件直接 open(..., encoding='utf-8') 读取
docx用 Document('xxx.docx').paragraphs 提取段落，拼接为字符串
pdf优先用 pdfplumber（对表格/换行更友好），避免PyPDF2乱码；提取后做简单清洗：去多余空格、合并软回车
统一转为UTF-8字符串，记录原始段落位置（便于后续还原格式）

三、逐类匹配 + 安全替换（避免误伤）

关键原则：从长到短匹配、避开URL/代码块、保留原始标点。推荐用 re.sub() 配合回调函数，按优先级顺序处理：

纳米漫剧流水线

360推出的国内首个工业级AI漫剧生产平台

下载

立即学习“Python免费学习笔记（深入）”；

先处理身份证、银行卡等强规则字段（长度固定、格式唯一）
再处理手机号、邮箱（注意邮箱@前后不能断开）
最后处理人名/公司名：用 for name in sensitive_names: 循环替换，加边界符 r'(? 防止“北京”匹配到“北京市”里重复脱敏
每次替换记录日志：原内容 → 脱敏后 → 所在行号，方便审计

四、生成脱敏文件并验证效果

输出保持原格式可读性，不是简单覆盖，而是生成新文件（如contract_v1_anonymized.txt）：

纯文本：直接写入，每行末尾保留换行符
docx：新建文档，遍历原文段落，对每段调用脱敏函数后写入新段落
pdf不直接改源文件（技术限制），输出脱敏文本+标注报告（含所有替换项列表）
必做校验：打开脱敏后文件，搜索“身份证”“账号”等关键词，确认无残留；抽样检查是否出现“138****1234”被错切成“138****12”+“34”

基本上就这些。脚本不复杂但容易忽略上下文保护和格式还原——比如合同里的“附件一：XXX营业执照复印件（加盖公章）”，其中“XXX”要脱敏，“加盖公章”不能动。把规则列清楚、测试用例多跑几份真实合同，就能稳稳上线。

Python怎么重置索引_reset_index()用法与去除旧索引参数

Python后端怎么接前端Vue_前后端分离API联调与跨域配置

Python如何做异常统一处理_全局异常设计

Python爬虫怎么登录_POST提交表单数据与处理重定向验证码登录逻辑

Python循环优化技巧_减少重复计算

相关专题

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

760

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

221

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1566

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

649

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

1228

2024.03.22

php中定义字符串的方式

php中定义字符串的方式：单引号；双引号；heredoc语法等等。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

1184

2024.04.29

go语言字符串相关教程

本专题整合了go语言字符串相关教程，阅读专题下面的文章了解更多详细内容。

192

2025.07.29

c++字符串相关教程

本专题整合了c++字符串相关教程，阅读专题下面的文章了解更多详细内容。

131

2025.08.07

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

热门下载

网站特效

网站源码

网站素材

前端模板