0

0

C++如何实现基于前缀树的快速字符串过滤?(搜索引擎算法)

尼克

尼克

发布时间:2026-03-06 10:28:03

|

958人浏览过

|

来源于php中文网

原创

前缀树节点应避免std::map/std::unordered_map,改用std::array(ascii场景)或std::vector+二分(unicode),仅存is_end标志、不存完整字符串、插入前预去重、构建后只读无锁查询。

c++如何实现基于前缀树的快速字符串过滤?(搜索引擎算法)

前缀树节点怎么设计才不爆内存

直接用 std::map<char trienode></char> 存子节点,看似清晰,但每个节点都带红黑树开销,在海量短关键词(比如 100 万+ 的 URL 片段、IP 前缀)下,内存暴涨 3–5 倍。更糟的是,std::unordered_map 虽平均 O(1),但哈希表扩容抖动会卡住构建线程。

实际做法是:用 std::array<trienode></trienode> 做固定大小跳转表——只对 ASCII 字符有效,但搜索引擎过滤场景里,关键词基本是字母、数字、点、斜杠,完全够用;内存连续、无指针间接寻址、CPU cache 友好。如果真要支持 Unicode,改用 std::vector<:pair trienode>></:pair> + 二分查找,别硬上哈希。

  • 避免在节点里存完整字符串,只靠路径隐含前缀语义
  • is_end 标志位必须有,否则无法区分 “cat” 和 “category” 这类包含关系
  • 别给每个节点加引用计数——构建完就只读,运行时高并发查,原子操作反而拖慢

插入时要不要去重和排序

答案是:插入前必须去重,但不用排序。前缀树本身不依赖词序,但重复插入相同关键词会导致冗余节点,浪费内存且影响缓存命中率。而排序(比如按长度或字典序)纯属多余——构建阶段没有查询压力,排序反而增加 O(n log n) 开销;真正影响性能的是查询路径局部性,不是插入顺序。

实操建议:

立即学习C++免费学习笔记(深入)”;

九歌
九歌

九歌--人工智能诗歌写作系统

下载
  • std::unordered_set<:string></:string> 在加载阶段预去重,比边插边查快得多
  • 如果关键词来自配置文件,用脚本先 sort | uniq 处理好再喂给 C++ 程序
  • 别在 insert() 函数里做去重判断——那会把单次插入从 O(L) 拉到 O(L×n),L 是字符串长度,n 是已插入数量

匹配模式:是找前缀、子串,还是精确命中

搜索引擎过滤常见三种需求:屏蔽“http://bad.com”(精确)、拦截所有“/admin/”开头路径(前缀)、检测“cryptojacking”是否出现在长文本中(子串)。前缀树天然适合前缀和精确匹配;子串得配合 Aho-Corasick,别硬改 Trie。

关键取舍点:

  • 精确匹配:走到末尾后检查 node->is_end == true,别漏这个判断
  • 前缀匹配:只要能走到某节点(不管 is_end),就算匹配成功,比如过滤“/api/”时,“/api/users”、“/api/v2/health” 都该拦
  • 别在 Trie 上做模糊匹配(如编辑距离),那属于另一层问题,加了只会让核心路径变慢、逻辑失控

多线程查 Trie 为什么不用锁

因为构建完成后,Trie 是只读的:节点指针不变、is_end 不变、整个结构拓扑不变。只要确保所有线程看到的 root 指针是发布安全的(比如用 std::atomic_load 读取,或用 std::shared_ptr 构造完再 publish),后续所有遍历都是无状态、无共享写操作的纯函数式访问。

容易踩的坑:

  • 在构建过程中就让其他线程开始查——哪怕用了 mutex,也可能查到半截树(部分分支还没连上)
  • std::string_view 当参数传进 search() 却没保证其生命周期长于查询过程,导致野指针
  • std::shared_ptr 包裹每个节点——没必要,增加原子计数开销,且破坏 cache 局部性

真正要注意的,是构建完成那一刻的发布同步,不是查的时候。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
sort排序函数用法
sort排序函数用法

sort排序函数的用法:1、对列表进行排序,默认情况下,sort函数按升序排序,因此最终输出的结果是按从小到大的顺序排列的;2、对元组进行排序,默认情况下,sort函数按元素的大小进行排序,因此最终输出的结果是按从小到大的顺序排列的;3、对字典进行排序,由于字典是无序的,因此排序后的结果仍然是原来的字典,使用一个lambda表达式作为key参数的值,用于指定排序的依据。

409

2023.09.04

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

718

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

219

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1561

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

647

2023.11.24

java读取文件转成字符串的方法
java读取文件转成字符串的方法

Java8引入了新的文件I/O API,使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java,可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中,你需要将文件路径替换为你的实际文件路径,并且可能需要处理可能的IOException异常。想了解更多java的相关内容,可以阅读本专题下面的文章。

1148

2024.03.22

php中定义字符串的方式
php中定义字符串的方式

php中定义字符串的方式:单引号;双引号;heredoc语法等等。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

1122

2024.04.29

go语言字符串相关教程
go语言字符串相关教程

本专题整合了go语言字符串相关教程,阅读专题下面的文章了解更多详细内容。

188

2025.07.29

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

19

2026.03.05

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
C# 教程
C# 教程

共94课时 | 10.8万人学习

C 教程
C 教程

共75课时 | 5.2万人学习

C++教程
C++教程

共115课时 | 20.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号