0

0

C++怎么实现布隆过滤器_C++大数据结构教程【节省】

冰火之心

冰火之心

发布时间:2026-03-04 14:32:03

|

814人浏览过

|

来源于php中文网

原创

c++标准库无布隆过滤器,需自行实现;核心为位数组、多个独立哈希函数及统一插入/查询逻辑,推荐用std::vector手动位操作、murmurhash3/xxhash,k取3~7,m设为2的幂以优化性能。

c++怎么实现布隆过滤器_c++大数据结构教程【节省】

布隆过滤器在 C++ 里必须自己写,标准库没有 bloom_filter

标准 C++ 库至今没提供布隆过滤器实现,std::setabsl::flat_hash_set 都不能替代——它们存的是完整 key,而布隆过滤器只存哈希指纹,内存省一个数量级。如果你正为海量 URL 去重、爬虫判重或实时风控做预检,又卡在内存上,那得自己搭。

核心就三块:位数组 + 多个独立哈希函数 + 插入/查询逻辑。别用 std::vector<bool></bool> 当位数组——它不是真正的 byte 数组,operator[] 返回 proxy 对象,多线程下可能出竞态;改用 std::vector<uint8_t></uint8_t> 手动 bit 操作更稳。

  • 哈希函数建议用 MurmurHash3xxHash 的 64 位变体,再对位数组长度取模,避免低质量哈希(比如 std::hash 对字符串连续 key 可能聚集)
  • 误判率由位数组长度 m 和哈希函数个数 k 决定,公式是 (1 - exp(-k * n / m))^k,其中 n 是预期插入元素数;通常取 k = 0.7 * m / n 最优
  • 别把 k 设太大(比如 >10),哈希计算开销会明显拖慢吞吐,实测 k=3~7 在多数场景已够用

插入和查询必须用同一套哈希逻辑,否则直接失效

这是最常踩的坑:插入时用 std::hash<:string></:string>,查询时换成了 boost::hash,或者哈希后没统一做 % m,结果查不到明明插过的 key,还以为数据丢了。

正确做法是把哈希封装成一个可复用的成员函数,比如 std::array<size_t k> hash_all(const std::string& key) const</size_t>,内部用同一个种子、同一种算法生成 K 个哈希值,并全部对 m 取模(注意:m 得是 2 的幂,否则取模慢;推荐用 m = 1 ,然后用位与 <code>& (m-1) 替代取模)。

立即学习C++免费学习笔记(深入)”;

火山方舟
火山方舟

火山引擎一站式大模型服务平台,已接入满血版DeepSeek

下载
  • 所有哈希值必须映射到位数组合法索引内,越界访问会导致未定义行为,Debug 版可用 assert(idx 拦住
  • 插入时只置位,不检查原值;查询时只要有一个 bit 是 0,就确定不存在——这点不能反着来
  • 别在查询时顺手“修复”缺失的 bit(比如自动补插),布隆过滤器不允许假阴性,一修就破戒

多线程环境下 std::atomic 不够用,得加锁

std::vector<uint8_t></uint8_t> 本身不支持原子 bit 操作,std::atomic<uint8_t></uint8_t> 只能整字节读写,而布隆过滤器要改单个 bit。强行用 fetch_or 改字节会误翻其他 key 的 bit,导致误判率飙升。

稳妥方案是用 std::shared_mutex(C++17)或 pthread_rwlock_t 控制读写:插入必须写锁,查询可以并发读锁。如果写入极少(比如初始化后只读)、查询极多,这个开销可接受;若写入频繁,就得考虑分片——把大位数组拆成 N 段,每段配独立锁,哈希时先 key % N 定片,降低锁争用。

  • 别用 std::mutex 包整个操作——读多写少时太伤并发度
  • 分片数 N 别设太小(64),实测 16~32 片在 16 核机器上平衡较好
  • 分片后,每个分片的位数组长度要按总容量 / N 重新算,误判率公式里的 m 是单片长度,不是总长

删除操作不存在,别硬加 remove()

标准布隆过滤器不支持删除。网上有些“计数型布隆过滤器”(Counting Bloom Filter)用 uint8_t 计数代替 bit,但会吃更多内存(至少 4 倍),且计数溢出、减过头都会污染结果。除非你明确需要删除,且能承受内存翻倍+误判率上升,否则别碰。

真实业务中,与其折腾删除,不如换思路:定期重建过滤器(比如按小时滚动),或用二级结构兜底——布隆说“可能存在”,再查一次 std::unordered_set 确认;这样既保持布隆的内存优势,又规避了不可删的硬伤。

  • 硬加 remove() 并清零对应 bit,等于把其他共享该 bit 的 key 也“删掉”了,后续查它们全返回 false
  • 如果业务真强依赖删除,直接换 roaring bitmapCRoaring,它们支持高效增删,且压缩比仍优于普通 set
  • 哪怕只是想“逻辑删除”,也别改布隆本体——在外部维护一个 std::unordered_set<:string></:string> 存黑名单,查完布隆再过一遍黑名单

布隆过滤器的边界很清晰:它是个概率型存在性检查工具,不是通用集合。越想让它干更多事,越容易掉进内存、线程、一致性连环坑里。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

930

2023.08.02

c语言const用法
c语言const用法

const是关键字,可以用于声明常量、函数参数中的const修饰符、const修饰函数返回值、const修饰指针。详细介绍:1、声明常量,const关键字可用于声明常量,常量的值在程序运行期间不可修改,常量可以是基本数据类型,如整数、浮点数、字符等,也可是自定义的数据类型;2、函数参数中的const修饰符,const关键字可用于函数的参数中,表示该参数在函数内部不可修改等等。

557

2023.09.20

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

698

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

219

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1561

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

645

2023.11.24

java读取文件转成字符串的方法
java读取文件转成字符串的方法

Java8引入了新的文件I/O API,使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java,可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中,你需要将文件路径替换为你的实际文件路径,并且可能需要处理可能的IOException异常。想了解更多java的相关内容,可以阅读本专题下面的文章。

1128

2024.03.22

php中定义字符串的方式
php中定义字符串的方式

php中定义字符串的方式:单引号;双引号;heredoc语法等等。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

1102

2024.04.29

PHP高性能API设计与Laravel服务架构实践
PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开,重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景,深入分析性能瓶颈定位与优化思路,帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

4

2026.03.04

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
CSS3 教程
CSS3 教程

共18课时 | 6.5万人学习

PostgreSQL 教程
PostgreSQL 教程

共48课时 | 10.1万人学习

Django 教程
Django 教程

共28课时 | 4.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号