0

0

Java里的java.util.BitSet实现位图算法_海量数据过滤场景

P粉602998670

P粉602998670

发布时间:2026-03-08 14:25:02

|

469人浏览过

|

来源于php中文网

原创

bitset 不适合海量数据过滤,因其底层为 long[] 数组,不支持负数、无法稀疏存储、最大索引受限且易 oom;适用于小范围连续非负整数场景,如小时、状态码等。

java里的java.util.bitset实现位图算法_海量数据过滤场景

BitSet 为什么不适合直接用在海量数据过滤场景

Java 的 BitSet 底层是 long[] 数组,每个 bit 对应一个非负整数索引。它不支持负数、不能稀疏存储、最大索引受限于内存(约 Long.MAX_VALUE * 64,但实际远达不到——因为分配超大数组会 OOM)。你遇到的“过滤失败”或“内存爆掉”,大概率不是算法逻辑错,而是误把它当成了可伸缩的布隆过滤器或 RoaringBitmap 替代品。

常见错误现象:
- 对 10 亿级别 ID 做 set(id),JVM 直接抛 OutOfMemoryError: Requested array size exceeds VM limit
- 用 BitSet.length() 误以为是“已设置位数”,其实返回的是最高位索引+1,中间大量 0 也会被计入容量
- 多线程并发调用 set() / get(),没加锁导致结果不可靠(BitSet 非线程安全)

什么时候能用 BitSet?明确的适用边界

适合场景非常窄:数据范围已知、连续、且上限可控(比如用户行为日志中「当天活跃小时」0–23、「HTTP 状态码」100–599、「枚举状态位」≤ 1024 种)。它快,是因为位运算零拷贝,不是因为它“能存海量”。

实操建议:
- 先算内存:n 个 bit ≈ n / 8 字节。1 亿 bit ≈ 12MB;10 亿 bit ≈ 125MB;但若最大 ID 是 10 亿,即使只设了 1000 个位,BitSet 仍要分配 ~125MB 数组
- 别依赖 size():它返回的是内部 long[] 长度 × 64,和实际业务数据量无关
- 小范围才考虑复用:比如用 BitSet.clear() + BitSet.or() 做轻量级集合交并,比新建 ArrayList 快,但仅限几千~几万元素

替代方案选型:RoaringBitmap 是当前最现实的选择

如果你的真实需求是「对上亿 ID 做快速去重、交集、差集,并控制内存在百 MB 级」,RoaringBitmap 几乎是标准解。它把数据分块(chunk),每块用 bitmap 或 list 存储,稀疏时省内存,密集时保持位图效率。

关键差异点:
- 支持 long 类型 ID(需转为非负,比如 id ^ 0x8000000000000000L
- RoaringBitmap.add() 不会触发大数组分配,插入 1000 万随机 ID 内存通常 - 原生支持序列化、内存映射、与 Spark/Flink 集成
- 注意:它不是 JDK 自带,需引入 org.roaringbitmap:RoaringBitmap 依赖

简单对比示例:
BitSet bs = new BitSet(); bs.set(1_000_000_000); // OOM 风险高
RoaringBitmap rb = new RoaringBitmap(); rb.add(1_000_000_000); // 安全

Boba.video
Boba.video

AI动漫视频生成器

下载

立即学习Java免费学习笔记(深入)”;

如果硬要用 BitSet,必须绕开的三个坑

不是不能用,是得主动规避设计缺陷:

无序列表:
- 绝不直接用原始 ID 当索引:先做哈希压缩(如 Math.abs(id.hashCode()) % N),N 控制在 100 万以内,再配合布隆过滤器二次校验,否则就是给自己埋 OOM 雷
- 不要用 BitSet.stream() 遍历大集合:它会从 0 扫到 length(),哪怕只有最后 1 个 bit 被设,也要遍历几亿次
- 跨 JVM 或持久化时别存 raw BitSet:它的序列化格式不稳定,JDK 版本升级可能读失败;改用 toByteArray() + 自定义 header,或直接换 RoaringBitmap

真正难的不是写对代码,是判断“这个场景到底适不适合用位图”。BitSet 的名字太有迷惑性,它本质是个紧凑的布尔数组,不是大数据工具。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
length函数用法
length函数用法

length函数用于返回指定字符串的字符数或字节数。可以用于计算字符串的长度,以便在查询和处理字符串数据时进行操作和判断。 需要注意的是length函数计算的是字符串的字符数,而不是字节数。对于多字节字符集,一个字符可能由多个字节组成。因此,length函数在计算字符串长度时会将多字节字符作为一个字符来计算。更多关于length函数的用法,大家可以阅读本专题下面的文章。

953

2023.09.19

线程和进程的区别
线程和进程的区别

线程和进程的区别:线程是进程的一部分,用于实现并发和并行操作,而线程共享进程的资源,通信更方便快捷,切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

763

2023.08.10

Python 多线程与异步编程实战
Python 多线程与异步编程实战

本专题系统讲解 Python 多线程与异步编程的核心概念与实战技巧,包括 threading 模块基础、线程同步机制、GIL 原理、asyncio 异步任务管理、协程与事件循环、任务调度与异常处理。通过实战示例,帮助学习者掌握 如何构建高性能、多任务并发的 Python 应用。

376

2025.12.24

java多线程相关教程合集
java多线程相关教程合集

本专题整合了java多线程相关教程,阅读专题下面的文章了解更多详细内容。

27

2026.01.21

C++多线程相关合集
C++多线程相关合集

本专题整合了C++多线程相关教程,阅读专题下面的的文章了解更多详细内容。

28

2026.01.21

C# 多线程与异步编程
C# 多线程与异步编程

本专题深入讲解 C# 中多线程与异步编程的核心概念与实战技巧,包括线程池管理、Task 类的使用、async/await 异步编程模式、并发控制与线程同步、死锁与竞态条件的解决方案。通过实际项目,帮助开发者掌握 如何在 C# 中构建高并发、低延迟的异步系统,提升应用性能和响应速度。

103

2026.02.06

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

491

2023.08.14

常用的数据库软件
常用的数据库软件

常用的数据库软件有MySQL、Oracle、SQL Server、PostgreSQL、MongoDB、Redis、Cassandra、Hadoop、Spark和Amazon DynamoDB。更多关于数据库软件的内容详情请看本专题下面的文章。php中文网欢迎大家前来学习。

1004

2023.11.02

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

59

2026.03.06

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Kotlin 教程
Kotlin 教程

共23课时 | 4.2万人学习

C# 教程
C# 教程

共94课时 | 10.9万人学习

Java 教程
Java 教程

共578课时 | 78.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号