0

0

C++怎么实现编辑距离_C++字符串相似度计算【DP】

裘德小鎮的故事

裘德小鎮的故事

发布时间:2026-03-07 14:37:04

|

392人浏览过

|

来源于php中文网

原创

编辑距离函数需将dp数组行列各扩1,第0行/列初始化为0到s2.length()和0到s1.length(),递推时i、j从1开始,访问s1[i-1]和s2[j-1];避免递归因栈溢出和哈希开销。

c++怎么实现编辑距离_c++字符串相似度计算【dp】

编辑距离函数怎么写才不越界

直接用二维数组实现 edit_distance 时,最常崩在访问 dp[i-1][j-1]dp[i][j-1] 越界——尤其当字符串为空或长度为 1。别硬套公式,先扩一格:让 dp 行数 = s1.length() + 1,列数 = s2.length() + 1,第 0 行/列对应空串到目标串的插入/删除代价。

常见错误现象:std::out_of_range 或静默脏数据;更隐蔽的是把循环从 i = 0 开始,却没初始化第 0 行/列。

  • 初始化:第 0 行填 0, 1, 2, ..., s2.length()(空串变 s2 全靠插入);第 0 列同理
  • 递推时 ij 从 1 开始,对应比较 s1[i-1]s2[j-1],避免下标错位
  • 如果用 vector<vector>></vector>,别忘了预分配尺寸,否则 push_back 带来额外开销且易出错

为什么不用递归+记忆化而选迭代DP

纯递归写 edit_distance 看似简洁,但 C++ 没尾递归优化,深度稍大(比如长度 > 50)就栈溢出;加 map<pair>, int></pair> 记忆化又引入哈希开销和指针间接访问,实测比二维数组慢 3–5 倍。

使用场景:在线服务做模糊匹配、拼写纠错、Git diff 启发式预处理——这些都要求毫秒级响应,且输入长度可控(通常

立即学习C++免费学习笔记(深入)”;

Reecho睿声
Reecho睿声

Reecho AI:超拟真语音合成与瞬时语音克隆平台

下载
  • 迭代 DP 时间复杂度稳定 O(m*n),空间可优化到 O(min(m,n))(滚动数组),但初学建议先写清二维版
  • 若真要省空间,只保留两行:prev_rowcurr_row,注意更新顺序和临时变量存 diag
  • 别为了“省空间”提前用 short 存距离——编辑距离可能超 32767,int 更安全

Levenshtein 距离和实际字符串相似度不是一回事

edit_distance 返回的是最小操作数,不是 [0,1] 区间内的相似度。直接拿它当相似度用会出问题:两个长串编辑距离是 5,看着小,但相对长度可能只有 1% 差异;两个短串距离是 2,却可能已面目全非。

参数差异:有人除以 max(len1, len2),有人除以 len1 + len2,还有人用 1 - distance / (double)max(...)。没有标准答案,取决于业务。

  • 搜索场景常用 1.0 - distance / (double)max(s1.size(), s2.size()),对长度敏感
  • 去重场景倾向 distance ,避免长串误判
  • 别在循环里反复调用 s1.size()s2.size(),C++11 后它们是 O(1),但存成 const size_t n = s1.size() 更清晰

字符粒度陷阱:UTF-8 字符串不能直接用 string[i]

std::string 存中文、emoji 时,s1[i] 取到的是 UTF-8 字节而非字符,导致 edit_distance 在字节层面算错——比如一个汉字占 3 字节,会被当成 3 个“字符”处理,距离暴涨。

使用场景:用户昵称、地址、日志关键词匹配等含多语言文本的系统。

  • 真正要比较的是 Unicode 码点,得先用 ICU、utf8cpp 或手写解码把 std::string 转成 std::vector<char32_t></char32_t> 再跑 DP
  • 如果只是英文+数字为主,且明确约定输入为 ASCII,那直接用 string 没问题,但必须在接口注释里写死 “ASCII-only”
  • 别用 std::wstring 试图绕过——Windows 下是 UTF-16,Linux 下常是 UCS-4,跨平台反而更乱

最麻烦的不是算法本身,而是你得先确认输入到底是不是你想的“字符”。没做编码清洗就上编辑距离,结果再准也没意义。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

718

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

219

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1561

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

649

2023.11.24

java读取文件转成字符串的方法
java读取文件转成字符串的方法

Java8引入了新的文件I/O API,使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java,可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中,你需要将文件路径替换为你的实际文件路径,并且可能需要处理可能的IOException异常。想了解更多java的相关内容,可以阅读本专题下面的文章。

1168

2024.03.22

php中定义字符串的方式
php中定义字符串的方式

php中定义字符串的方式:单引号;双引号;heredoc语法等等。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

1142

2024.04.29

go语言字符串相关教程
go语言字符串相关教程

本专题整合了go语言字符串相关教程,阅读专题下面的文章了解更多详细内容。

188

2025.07.29

c++字符串相关教程
c++字符串相关教程

本专题整合了c++字符串相关教程,阅读专题下面的文章了解更多详细内容。

111

2025.08.07

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

23

2026.03.06

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
C# 教程
C# 教程

共94课时 | 10.8万人学习

C 教程
C 教程

共75课时 | 5.2万人学习

C++教程
C++教程

共115课时 | 20.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号