0

0

如何在Golang中实现一个布隆过滤器 Go语言海量数据去重

P粉602998670

P粉602998670

发布时间:2026-03-15 19:20:01

|

344人浏览过

|

来源于php中文网

原创

布隆过滤器比 map[string]struct{} 更省内存,适合千万级实时去重;它用固定位数组和多哈希实现约1%空间占用,允许误判但不漏判,仅支持存在性判断且不可删除;需按最大元素数和容忍误判率初始化,配合Redis等二次校验,并注意并发安全。

如何在golang中实现一个布隆过滤器 go语言海量数据去重

为什么不用 map[string]struct{} 而要上布隆过滤器

当数据量超过千万级,尤其是做实时去重(比如爬虫 URL 去重、风控请求 ID 过滤),map[string]struct{} 的内存开销会迅速失控——每个 key 至少占几十字节,1 亿个字符串轻松吃掉几 GB 内存。布隆过滤器用固定大小的位数组 + 多个哈希函数,把空间压缩到 1% 以内,代价是允许极小概率误判(false positive),但**绝不会漏判(false negative)**。

关键点:它只适合「存在性判断」,不能查具体值,也不能删除(标准实现)。如果你需要精确计数或反查,别硬套。

用 github.com/yourbasic/bloom 实现最小可行版本

第三方库比手撸更稳,github.com/yourbasic/bloom 是目前最轻量、无依赖、API 清晰的选择。它默认用 3 个哈希函数,支持自定义误差率和预估容量。

常见错误现象:bloom.New(1000000, 0.01) 看似设了 100 万容量和 1% 误差,但实际插入超量后误判率会指数上升;必须按**预期最大元素数**初始化,不能拍脑袋填。

立即学习go语言免费学习笔记(深入)”;

  • 初始化时,n 填你未来最多塞多少个唯一项(不是当前数量)
  • p 填可接受的误判率(如 0.001 表示千分之一),越小位数组越大
  • 插入前无需检查是否已存在——布隆过滤器本身不提供 Contains 后再 Add 的原子操作,业务层自己控制
filter := bloom.New(10_000_000, 0.001) // 预估 1000 万个 URL,容忍 0.1% 误判
filter.Add([]byte("https://example.com/path"))
if filter.Test([]byte("https://example.com/path")) {
    // 可能存在(注意:只是可能,需二次确认)
}

误判后怎么安全地二次验证

布隆过滤器返回 true 只表示「很可能存在」,必须接一层真实存储校验,否则会丢数据。典型组合是:bloom filter → Redis SET / local map / DB 查询

Fotor
Fotor

Fotor 在线照片编辑器

下载

容易踩的坑:filter.Test(key) 返回 false 就直接放行,这没问题;但返回 true 时如果跳过后续校验,就会把本不存在的 key 当成已存在而丢弃——这是误判导致的漏处理,不是布隆本身的错,而是逻辑没兜住。

  • 永远把 Test() 结果当作「需要进一步确认」的信号,不是最终结论
  • 校验存储建议用带 TTL 的 Redis SETNX,避免并发写入冲突
  • 不要在 Test()true 时直接写入布隆过滤器——它不负责去重,只负责快速拦截

性能和并发要注意的硬限制

github.com/yourbasic/bloomAddTest 方法**不是并发安全的**。多个 goroutine 同时调用会引发 panic 或数据损坏。

解决方案只有两个:加 sync.RWMutex,或者用 sync.Pool 每次分配独立 filter(适合短生命周期场景)。别信“读多写少就不用锁”——位数组的多个哈希位置写入是分散且非原子的,RWMutex 也得上写锁。

  • 高并发下,单 filter + mutex 会成为瓶颈,此时考虑分片(shard):按 key 哈希取模分到 N 个 filter,各自加锁
  • 别用 unsafe 或原子操作手动优化位翻转——该库底层已用 uint64 批量操作,再折腾收益极低还易出错
  • GC 友好:filter 本身只含 []byte,没有指针,不会拖慢 GC

真正难的是预估容量和误差率的平衡,填错一个参数,要么内存暴增,要么误判高到不可用——这没法靠测试发现,得靠上线前压测和线上采样统计。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
golang如何定义变量
golang如何定义变量

golang定义变量的方法:1、声明变量并赋予初始值“var age int =值”;2、声明变量但不赋初始值“var age int”;3、使用短变量声明“age :=值”等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

211

2024.02.23

golang有哪些数据转换方法
golang有哪些数据转换方法

golang数据转换方法:1、类型转换操作符;2、类型断言;3、字符串和数字之间的转换;4、JSON序列化和反序列化;5、使用标准库进行数据转换;6、使用第三方库进行数据转换;7、自定义数据转换函数。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

247

2024.02.23

golang常用库有哪些
golang常用库有哪些

golang常用库有:1、标准库;2、字符串处理库;3、网络库;4、加密库;5、压缩库;6、xml和json解析库;7、日期和时间库;8、数据库操作库;9、文件操作库;10、图像处理库。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

356

2024.02.23

golang和python的区别是什么
golang和python的区别是什么

golang和python的区别是:1、golang是一种编译型语言,而python是一种解释型语言;2、golang天生支持并发编程,而python对并发与并行的支持相对较弱等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

214

2024.03.05

golang是免费的吗
golang是免费的吗

golang是免费的。golang是google开发的一种静态强类型、编译型、并发型,并具有垃圾回收功能的开源编程语言,采用bsd开源协议。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

410

2024.05.21

golang结构体相关大全
golang结构体相关大全

本专题整合了golang结构体相关大全,想了解更多内容,请阅读专题下面的文章。

510

2025.06.09

golang相关判断方法
golang相关判断方法

本专题整合了golang相关判断方法,想了解更详细的相关内容,请阅读下面的文章。

201

2025.06.10

golang数组使用方法
golang数组使用方法

本专题整合了golang数组用法,想了解更多的相关内容,请阅读专题下面的文章。

1519

2025.06.17

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

69

2026.03.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Go 教程
Go 教程

共32课时 | 6.3万人学习

Go语言实战之 GraphQL
Go语言实战之 GraphQL

共10课时 | 0.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号