C++如何进行字符串的模糊去重（相似度阈值）？（聚类预处理）

穿越時空

发布时间：2026-03-02 15:26:50

985人浏览过

来源于php中文网

原创

模糊去重需用编辑距离归一化相似度聚类，避免o(n²)暴力比较；应分桶、贪心簇心、长度保护、标准化预处理，并按业务规则过滤关键差异。

c++如何进行字符串的模糊去重（相似度阈值）？（聚类预处理）

用 `std::string` 做模糊去重，别直接比 `==`

字符串“模糊去重”本质是聚类：把编辑距离小、语义相近的串归为一类，每类留一个代表。C++ 标准库不提供相似度函数，必须自己选算法并控制阈值。硬用 std::set 或 std::unordered_set 只能做精确去重，对 “用户中心” 和 “用户中心页” 这类完全无效。

常见错误是先写个 levenshtein 函数，再两两比较——O(n²) 复杂度，1000 个字符串就跑几秒，实际项目里根本不能忍。

优先用 similarity = 1 - (edit_distance / max_len) 归一化，比纯编辑距离更适配阈值判断
阈值建议从 0.8 起调；0.9 太严（同义词可能被拆开），0.7 太松（“登录” 和 “灯录” 也可能被合并）
长度差超过阈值一半的串可提前跳过，比如 abs(a.size() - b.size()) > 0.5 * max(a.size(), b.size())，省掉大量无谓计算

用 `std::vector` + 简单聚类代替暴力两两比较

不建图、不调用 DBSCAN 这类重量级库，用“首串当簇心”的贪心策略足够应付预处理场景。时间复杂度降到 O(n·m)，m 是平均串长，实测 5000 条日志字段能在 200ms 内完成。

关键不是追求最优聚类结果，而是让后续 NLP 或规则匹配少喂脏数据。

立即学习“C++免费学习笔记（深入）”；

Favird No-Code Tools

无代码工具的聚合器

下载

把原始 std::vector<:string></:string> 按长度分桶，同桶内才比较，避免“abc”和“authentication”这种无意义计算
每轮选未访问的首个字符串作 cluster_center，遍历剩余串，满足 similarity >= threshold 就标记为已访问，不加入结果
结果只保留每个簇的 cluster_center，顺序和原输入一致，方便 debug 对齐

`levenshtein` 实现要防栈溢出和越界

网上抄的递归版 levenshtein 在长串（>50 字符）下极易爆栈或超时；循环版若没限制行列大小，遇到中文混合数字的长 URL 会分配巨量内存。

真实业务中字符串常含 URL、错误码、JSON 片段，长度不可控，必须加保护。

入口加长度检查：if (a.size() > 200 || b.size() > 200) return std::max(a.size(), b.size());
用一维数组滚动计算，空间从 O(m·n) 降到 O(min(m, n))，注意索引偏移和初始化
中文字符按 UTF-8 字节算（不是 wchar_t），否则 "你好".size() 返回 6，但编辑距离应基于字（需先转 std::u32string 或用 ICU）——多数日志去重场景直接按字节处理即可，一致性比“正确性”更重要

阈值行为受编码和空格影响极大

看起来一样的字符串，"user_id" 和 "user_id "（末尾空格）、"user_id" 和 "user_id\u200b"（零宽空格）在 levenshtein 下距离为 1，但人眼几乎无法区分。这类噪声不清洗，阈值再准也没用。

聚类前必须做轻量标准化，否则相似度计算全在拟合噪声。

统一 trim：用 std::string::find_first_not_of 和 find_last_not_of 去首尾空白
替换连续空白为单空格，防止 "a b" 和 "a b" 被判远
小写转换（std::tolower 配 locale）——但注意不要对 Base64、Hex 码等做此操作，得按字段类型分流处理

真正难的不是算相似度，是搞清哪些差异该忽略、哪些差异必须保留。比如 HTTP 接口路径里的 /user/123 和 /user/456 编辑距离小，但业务上绝不能去重——得靠前缀规则或正则白名单兜底。

C++怎么用信号量 C++并发编程条件变量用法【深度】

C++怎么使用内联函数_C++性能优化教程【提速】

C++如何使用std::enable_if条件编译模板？（SFINAE进阶）

C++怎么生成UUID_C++唯一标识教程【通用】

C++怎么用map C++中map和unordered_map区别【对比】

相关标签:

c++ json String if 字符串递归 wchar_t 循环接口栈算法 nlp http

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：C++如何实现带自动心跳检测的RPC连接管理池？（分布式后端开发）下一篇：暂无

作者最新文章

Composer下载太慢怎么办 Composer开启多线程下载【技巧】

2026-03-01 14:37

c++如何使用std::bind_c++参数绑定与函数回调【示例】

2026-03-01 14:45

QQ浏览器网页官方入口 QQ浏览器电脑登录页面地址

2026-03-01 14:48

C++怎么使用虚函数 C++虚函数表工作原理【底层】

2026-03-01 14:50

360浏览器怎么截图 360浏览器自带截图功能怎么用【技巧】

2026-03-01 14:50

MAC怎么调节亮度快捷键_MAC F1/F2无效解决方法【修复】

2026-03-01 14:53

C++ short int最小值是多少 C++ short类型下限【范围】

2026-03-01 14:54

MAC怎么截图长网页 MAC如何截取滚动长图【截图】

2026-03-01 14:55

C++如何利用std::jthread结合Lambda实现安全的后台轮询任务？（多线程技巧）

2026-03-01 14:57

C++怎么使用多态_C++虚函数与继承详解【运行】

2026-03-01 14:58

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

450

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

546

2023.08.23

jquery怎么操作json

操作的方法有：1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”；3、“$.each(obj, callback)”；4、“$.ajax()”。更多jquery怎么操作json的详细内容，可以访问本专题下面的文章。

326

2023.10.13

go语言处理json数据方法

本专题整合了go语言中处理json数据方法，阅读专题下面的文章了解更多详细内容。

2025.09.10

string转int

在编程中，我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算，或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

910

2023.08.02

if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词，用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章，供大家免费阅读。

839

2023.08.22

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

658

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

219

2023.09.04

Golang 测试体系与代码质量保障：工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链（如go test）、单元测试、集成测试及端到端测试实践，结合代码覆盖率分析、静态代码扫描（如go vet）和动态分析工具，建立全链路质量监控机制。通过自动化测试框架、持续集成（CI）流水线配置及代码审查规范，实现测试用例管理、缺陷追踪与质量门禁控制，确保代码健壮性与可维护性，为高可靠性工程系统提供质量保障。

2026.02.28

热门下载

网站特效

网站源码

网站素材

前端模板