如何在Golang中计算字符串的Levenshtein距离 Go语言文本相似度算法

P粉602998670

发布时间：2026-03-18 19:33:01

854人浏览过

来源于php中文网

原创

Go标准库无Levenshtein函数，需手写或引入第三方包；必须用utf8.RuneCountInString获取字符长度，遍历时用range获取rune，避免字节级错误。

如何在golang中计算字符串的levenshtein距离 go语言文本相似度算法

Levenshtein距离在Go里没有标准库函数

Go标准库不提供 levenshtein 或类似名称的函数，别浪费时间翻 strings 或 unicode 包。你需要自己实现，或引入轻量第三方包——但多数场景下，手写更可控、无依赖、也更容易调试。

常见错误是直接抄 Python 版本逻辑，忽略 Go 的字符串底层是 UTF-8 字节数组，而 Levenshtein 比较的是「字符」（rune）而非字节。若字符串含中文、emoji，用 len(s) 当长度会出错。

始终用 utf8.RuneCountInString(s) 获取字符长度，不是 len(s)
构建二维数组时，维度基于 rune 数量，不是字节长度
遍历时用 for i, r := range s 获取 rune 位置和值，别用 []byte(s)[i]

最简可用的Go实现（支持中文和emoji）

下面这个版本没做空间优化，但逻辑直白、可读性强，适合嵌入工具脚本或内部服务：

func levenshtein(s, t string) int {
	rS := []rune(s)
	rT := []rune(t)
	m, n := len(rS), len(rT)
	dp := make([][]int, m+1)
	for i := range dp {
		dp[i] = make([]int, n+1)
	}
	for i := 0; i <= m; i++ {
		dp[i][0] = i
	}
	for j := 0; j <= n; j++ {
		dp[0][j] = j
	}
	for i := 1; i <= m; i++ {
		for j := 1; j <= n; j++ {
			if rS[i-1] == rT[j-1] {
				dp[i][j] = dp[i-1][j-1]
			} else {
				dp[i][j] = min(dp[i-1][j], dp[i][j-1], dp[i-1][j-1]) + 1
			}
		}
	}
	return dp[m][n]
}

func min(a, b, c int) int {
	if a <= b && a <= c {
		return a
	}
	if b <= a && b <= c {
		return b
	}
	return c
}

注意：这个实现时间复杂度 O(m×n)，空间也是 O(m×n)。如果处理超长文本（如 >500 字符），要考虑用滚动数组优化；但日常比较人名、商品标题、日志关键词，完全够用。

立即学习“go语言免费学习笔记（深入）”；

甲骨文AI协同平台

专门用于甲骨文研究的革命性平台

下载

对比不同实现的性能与兼容性差异

你可能搜到 github.com/agnivade/levenshtein 这类包，它默认按字节算（levenshtein.ComputeDistance），对 ASCII 安全，但遇到中文会把一个汉字拆成 3 字节，导致距离虚高。它也提供 ComputeDistanceForRunes，但名字太长、容易漏看。

标准库无依赖 → 自实现最稳，尤其要跑在嵌入式或 FaaS 环境时
第三方包如 levenshtein 的 ComputeDistanceForRunes 可用，但得显式调用，且返回 int64，和多数 Go 代码习惯不符
别用 strings 的任何函数预处理（比如 strings.ToLower）再传给 Levenshtein —— 应该先转 rune，再统一大小写，否则 emoji 或带修饰符的字符（如 ?‍?）会出问题

实际使用时最容易被忽略的边界情况

不是算法写错，而是调用姿势不对。这些坑在单元测试里常被绕过，上线后才暴露：

空字符串：levenshtein("", "a") 必须返回 1，检查你的初始化逻辑是否覆盖 dp[0][j] 和 dp[i][0]
相同字符串：levenshtein("hello", "hello") 必须为 0，确认比较 rune 而非 byte
首尾空格：业务上是否需要 strings.TrimSpace？Levenshtein 本身不处理，得由你决定前置清洗策略
大小写敏感：Go 默认区分大小写，若需忽略，应在 rune 切片生成后统一用 unicode.ToLower 转换，而不是对原始字符串调 strings.ToLower

字符级计算这件事，看着简单，但一牵扯到 Unicode 就容易滑向“看似能跑，实则不准”。多拿几个含中文、emoji、连字（如 ﬁ）的样例测一遍，比读十遍算法推导有用。

如何在Golang中利用Bun框架操作PostgreSQL Go语言轻量级ORM选择

如何在Golang中读取配置文件的键值对 Go语言ini或yaml解析方案

如何解决 Go Gin 服务在 AWS EC2 上无法被公网访问的问题

如何在Golang中生成gRPC的Mock代码 Go语言Gomock接口测试

Golang怎么解决channel死锁_Golang如何排查all goroutines are asleep死锁【避坑】

相关专题

Golang 入门学习路线：从零基础到上手开发

Golang 入门路线涵盖从零到上手的核心路径：首先打牢基础语法与切片等底层机制；随后攻克 Go 的灵魂——接口设计与 Goroutine 并发模型；接着通过 Gin 框架与 GORM 深入 Web 开发实战；最后在微服务与云原生工具开发中进阶，旨在培养具备高性能并发处理能力的后端工程师。

2026.02.24

Golang 疑难杂症解决指南：常见问题排查与优化

《Golang 疑难杂症解决指南》聚焦开发过程中常见却棘手的问题，从并发模型、内存管理、性能瓶颈到工程化实践逐步拆解。通过真实案例与调试思路，帮助开发者定位问题根因，建立系统化排查方法。不只给出答案，更强调分析路径与工具使用，让你在复杂 Go 项目中具备持续解决问题的能力。

2026.02.24

Golang 运行与部署实战：从本地到云端

《Golang 运行与部署实战》围绕 Go 应用从开发完成到稳定上线的完整流程展开，系统讲解编译构建、环境配置、日志与配置管理、容器化部署以及常见运维问题处理。结合真实项目场景，拆解自动化构建与持续部署思路，帮助开发者建立可靠的发布流程，提升服务稳定性与可维护性。

225

2026.02.24

Golang 面试题精选：高频问题与解答

Golang 面试题精选》系统整理企业常见 Go 技术面试问题，覆盖语言基础、并发模型、内存与调度机制、网络编程、工程实践与性能优化等核心知识点。每道题不仅给出答案，还拆解背后的设计原理与考察思路，帮助读者建立完整知识结构，在面试与实际开发中都能更从容应对复杂问题。

2026.02.24

Golang 性能优化专题：提升应用效率

《Golang 性能优化专题》聚焦 Go 应用在高并发与大规模服务中的性能问题，从 profiling、内存分配、Goroutine 调度、GC 机制到 I/O 与锁竞争逐层分析。结合真实案例讲解定位瓶颈的方法与优化策略，帮助开发者建立系统化性能调优思维，在保证代码可维护性的同时显著提升服务吞吐与稳定性。

2026.02.24

Golang 生态工具与框架：扩展开发能力

《Golang 生态工具与框架》系统梳理 Go 语言在实际工程中的主流工具链与框架选型思路，涵盖 Web 框架、RPC 通信、依赖管理、测试工具、代码生成与项目结构设计等内容。通过真实项目场景解析不同工具的适用边界与组合方式，帮助开发者构建高效、可维护的 Go 工程体系，并提升团队协作与交付效率。

2026.02.24

Golang 并发编程专题：掌握多核时代的核心技能

《Golang 并发编程专题：掌握多核时代的核心技能》系统讲解 Go 在并发领域的设计哲学与实践方法，深入剖析 goroutine、channel、调度模型与并发安全机制，结合真实场景与性能思维，帮助开发者构建高吞吐、低延迟、可扩展的并发程序，全面提升多核时代的工程能力。

2026.02.26

Golang Web 开发路线：构建高效后端服务

《Golang Web 开发路线：构建高效后端服务》围绕 Go 在后端领域的工程实践，系统讲解 Web 框架选型、路由设计、中间件机制、数据库访问与接口规范，结合高并发与可维护性思维，逐步构建稳定、高性能、易扩展的后端服务体系，帮助开发者形成完整的 Go Web 架构能力。

2026.02.26

Python WebSocket实时通信与异步服务开发实践

本专题聚焦 Python 在实时通信场景中的开发实践，系统讲解 WebSocket 协议原理、长连接管理、消息推送机制以及异步服务架构设计。内容包括客户端与服务端通信实现、连接稳定性优化、消息队列集成及高并发处理策略。通过完整案例，帮助开发者构建高效稳定的实时通信系统，适用于聊天应用、实时数据推送等场景。

2026.03.18

热门下载

网站特效

网站源码

网站素材

前端模板