0

0

Python文本去重方案_高效去重实现

舞姬之光

舞姬之光

发布时间:2026-03-09 16:29:11

|

249人浏览过

|

来源于php中文网

原创

python文本去重需先明确定义“重复”类型:行级、句子/段落级、哈希级或语义级;对应采用set/dict.fromkeys、标准化预处理、xxhash流式计算或tf-idf/sentence-bert等策略,同时注意编码、索引与上下文。

python文本去重方案_高效去重实现

Python文本去重的核心在于明确“重复”的定义:是整行重复、句子重复、段落重复,还是语义层面的近似重复?不同场景需匹配不同策略,没有万能方案,但有清晰路径。

基于行级精确匹配的快速去重

适用于日志清洗、配置文件处理、CSV数据预处理等场景。利用集合(set)天然去重特性,保持原始顺序可用dict.fromkeys()或辅助列表记录。

  • 简单去重(不保序):list(set(lines))
  • 保序去重(推荐):list(dict.fromkeys(lines))
  • 忽略首尾空格和大小写:list(dict.fromkeys(line.strip().lower() for line in lines))

基于句子/段落的规范化去重

当文本含标点、换行、多余空格时,直接比对易失效。需先做轻量标准化:

  • 统一空白符:用re.sub(r'\s+', ' ', text).strip()压缩所有空白为单空格
  • 忽略标点差异(可选):移除或替换常见标点,如re.sub(r'[^\w\s]', '', text)
  • 小写归一化:text.lower()(英文适用;中文慎用,通常无需)
  • 再用dict.fromkeys()或哈希字典缓存处理后的键值

基于哈希的高效批量去重(适合大文本)

内存受限或需处理百万级句子时,避免全量加载。可用分块+哈希(如MD5、xxhash)实现流式去重:

方科网络ERP图文店
方科网络ERP图文店

方科网络ERP图文店II版为仿代码站独立研发的网络版ERP销售程序。本本版本为方科网络ERP图文店版的简化版,去除了部分不同用的功能,使得系统更加精炼实用。考虑到图文店的特殊情况,本系统并未制作出入库功能,而是将销售作为重头,使用本系统,可以有效解决大型图文店员工多,换班数量多,订单混杂不清的情况。下单、取件、结算分别记录操作人员,真正做到订单全程跟踪!无限用户级别,不同的用户级别可以设置不同的价

下载

立即学习Python免费学习笔记(深入)”;

  • 对每条句子计算哈希值(如xxhash.xxh3_64(sentence.encode()).intdigest()),比字符串存储更省内存
  • set缓存已见哈希值,边读边判重
  • 注意哈希碰撞概率极低,但关键业务建议加一层内容二次校验(仅对哈希相同项)

语义近似去重(非精确,需权衡精度与开销)

当“意思一样但表述不同”也算重复(如用户评论、新闻摘要),需引入NLP方法:

  • 短文本可用TF-IDF + 余弦相似度(sklearn.feature_extraction.text.TfidfVectorizer + cosine_similarity),设定阈值(如0.85)合并
  • 中长文本推荐Sentence-BERT(sentence-transformers库),生成句向量后用FAISS加速相似检索
  • 注意:语义去重计算成本高,务必先抽样验证效果,再决定是否全量运行

不复杂但容易忽略:去重前务必确认编码格式(尤其是含中文的文件)、是否保留原始索引、以及重复判定是否需考虑上下文(如对话中的“是”和“不是”不能仅看字面)。选对粒度,比选对工具更重要。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

739

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

220

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1564

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

649

2023.11.24

java读取文件转成字符串的方法
java读取文件转成字符串的方法

Java8引入了新的文件I/O API,使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java,可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中,你需要将文件路径替换为你的实际文件路径,并且可能需要处理可能的IOException异常。想了解更多java的相关内容,可以阅读本专题下面的文章。

1188

2024.03.22

php中定义字符串的方式
php中定义字符串的方式

php中定义字符串的方式:单引号;双引号;heredoc语法等等。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

1184

2024.04.29

go语言字符串相关教程
go语言字符串相关教程

本专题整合了go语言字符串相关教程,阅读专题下面的文章了解更多详细内容。

191

2025.07.29

c++字符串相关教程
c++字符串相关教程

本专题整合了c++字符串相关教程,阅读专题下面的文章了解更多详细内容。

111

2025.08.07

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

59

2026.03.06

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 4.9万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号