python文本去重需先明确定义“重复”类型:行级、句子/段落级、哈希级或语义级;对应采用set/dict.fromkeys、标准化预处理、xxhash流式计算或tf-idf/sentence-bert等策略,同时注意编码、索引与上下文。

Python文本去重的核心在于明确“重复”的定义:是整行重复、句子重复、段落重复,还是语义层面的近似重复?不同场景需匹配不同策略,没有万能方案,但有清晰路径。
基于行级精确匹配的快速去重
适用于日志清洗、配置文件处理、CSV数据预处理等场景。利用集合(set)天然去重特性,保持原始顺序可用dict.fromkeys()或辅助列表记录。
- 简单去重(不保序):
list(set(lines)) - 保序去重(推荐):
list(dict.fromkeys(lines)) - 忽略首尾空格和大小写:
list(dict.fromkeys(line.strip().lower() for line in lines))
基于句子/段落的规范化去重
当文本含标点、换行、多余空格时,直接比对易失效。需先做轻量标准化:
- 统一空白符:用
re.sub(r'\s+', ' ', text).strip()压缩所有空白为单空格 - 忽略标点差异(可选):移除或替换常见标点,如
re.sub(r'[^\w\s]', '', text) - 小写归一化:
text.lower()(英文适用;中文慎用,通常无需) - 再用
dict.fromkeys()或哈希字典缓存处理后的键值
基于哈希的高效批量去重(适合大文本)
内存受限或需处理百万级句子时,避免全量加载。可用分块+哈希(如MD5、xxhash)实现流式去重:
方科网络ERP图文店II版为仿代码站独立研发的网络版ERP销售程序。本本版本为方科网络ERP图文店版的简化版,去除了部分不同用的功能,使得系统更加精炼实用。考虑到图文店的特殊情况,本系统并未制作出入库功能,而是将销售作为重头,使用本系统,可以有效解决大型图文店员工多,换班数量多,订单混杂不清的情况。下单、取件、结算分别记录操作人员,真正做到订单全程跟踪!无限用户级别,不同的用户级别可以设置不同的价
立即学习“Python免费学习笔记(深入)”;
- 对每条句子计算哈希值(如
xxhash.xxh3_64(sentence.encode()).intdigest()),比字符串存储更省内存 - 用
set缓存已见哈希值,边读边判重 - 注意哈希碰撞概率极低,但关键业务建议加一层内容二次校验(仅对哈希相同项)
语义近似去重(非精确,需权衡精度与开销)
当“意思一样但表述不同”也算重复(如用户评论、新闻摘要),需引入NLP方法:
- 短文本可用TF-IDF + 余弦相似度(
sklearn.feature_extraction.text.TfidfVectorizer+cosine_similarity),设定阈值(如0.85)合并 - 中长文本推荐Sentence-BERT(
sentence-transformers库),生成句向量后用FAISS加速相似检索 - 注意:语义去重计算成本高,务必先抽样验证效果,再决定是否全量运行
不复杂但容易忽略:去重前务必确认编码格式(尤其是含中文的文件)、是否保留原始索引、以及重复判定是否需考虑上下文(如对话中的“是”和“不是”不能仅看字面)。选对粒度,比选对工具更重要。









