Java里的java.util.BitSet实现位图算法_海量数据过滤场景

P粉602998670

发布时间：2026-03-08 14:25:02

469人浏览过

来源于php中文网

原创

bitset 不适合海量数据过滤，因其底层为 long[] 数组，不支持负数、无法稀疏存储、最大索引受限且易 oom；适用于小范围连续非负整数场景，如小时、状态码等。

java里的java.util.bitset实现位图算法_海量数据过滤场景

BitSet 为什么不适合直接用在海量数据过滤场景

Java 的 BitSet 底层是 long[] 数组，每个 bit 对应一个非负整数索引。它不支持负数、不能稀疏存储、最大索引受限于内存（约 Long.MAX_VALUE * 64，但实际远达不到——因为分配超大数组会 OOM）。你遇到的“过滤失败”或“内存爆掉”，大概率不是算法逻辑错，而是误把它当成了可伸缩的布隆过滤器或 RoaringBitmap 替代品。

常见错误现象：
- 对 10 亿级别 ID 做 set(id)，JVM 直接抛 OutOfMemoryError: Requested array size exceeds VM limit
- 用 BitSet.length() 误以为是“已设置位数”，其实返回的是最高位索引+1，中间大量 0 也会被计入容量
- 多线程并发调用 set() / get()，没加锁导致结果不可靠（BitSet 非线程安全）

什么时候能用 BitSet？明确的适用边界

适合场景非常窄：数据范围已知、连续、且上限可控（比如用户行为日志中「当天活跃小时」0–23、「HTTP 状态码」100–599、「枚举状态位」≤ 1024 种）。它快，是因为位运算零拷贝，不是因为它“能存海量”。

实操建议：
- 先算内存：n 个 bit ≈ n / 8 字节。1 亿 bit ≈ 12MB；10 亿 bit ≈ 125MB；但若最大 ID 是 10 亿，即使只设了 1000 个位，BitSet 仍要分配 ~125MB 数组
- 别依赖 size()：它返回的是内部 long[] 长度 × 64，和实际业务数据量无关
- 小范围才考虑复用：比如用 BitSet.clear() + BitSet.or() 做轻量级集合交并，比新建 ArrayList 快，但仅限几千~几万元素

替代方案选型：RoaringBitmap 是当前最现实的选择

如果你的真实需求是「对上亿 ID 做快速去重、交集、差集，并控制内存在百 MB 级」，RoaringBitmap 几乎是标准解。它把数据分块（chunk），每块用 bitmap 或 list 存储，稀疏时省内存，密集时保持位图效率。

关键差异点：
- 支持 long 类型 ID（需转为非负，比如 id ^ 0x8000000000000000L）
- RoaringBitmap.add() 不会触发大数组分配，插入 1000 万随机 ID 内存通常 - 原生支持序列化、内存映射、与 Spark/Flink 集成
- 注意：它不是 JDK 自带，需引入 org.roaringbitmap:RoaringBitmap 依赖

简单对比示例：
BitSet bs = new BitSet(); bs.set(1_000_000_000); // OOM 风险高
RoaringBitmap rb = new RoaringBitmap(); rb.add(1_000_000_000); // 安全

Boba.video

AI动漫视频生成器

下载

立即学习“Java免费学习笔记（深入）”；

如果硬要用 BitSet，必须绕开的三个坑

不是不能用，是得主动规避设计缺陷：

无序列表：
- 绝不直接用原始 ID 当索引：先做哈希压缩（如 Math.abs(id.hashCode()) % N），N 控制在 100 万以内，再配合布隆过滤器二次校验，否则就是给自己埋 OOM 雷
- 不要用 BitSet.stream() 遍历大集合：它会从 0 扫到 length()，哪怕只有最后 1 个 bit 被设，也要遍历几亿次
- 跨 JVM 或持久化时别存 raw BitSet：它的序列化格式不稳定，JDK 版本升级可能读失败；改用 toByteArray() + 自定义 header，或直接换 RoaringBitmap

真正难的不是写对代码，是判断“这个场景到底适不适合用位图”。BitSet 的名字太有迷惑性，它本质是个紧凑的布尔数组，不是大数据工具。

Java里的String.repeat(n)怎么实现重复字符_Java 11字符串增强

什么是Java中的var关键字_局部变量类型推断的适用场景与限制

如何利用Java开发一个基础的个人博客管理后台_CRUD功能实现

如何利用Java的Console类进行密码输入_控制台安全交互方案

Java中如何通过new关键字创建对象_Java对象实例化解析

java速学教程(入门到精通)

java怎么学习？java怎么入门？java在哪学？java怎么学才快？不用担心，这里为大家提供了java速学教程(入门到精通)，有需要的小伙伴保存下载就能学习啦！

下载

相关标签:

java jvm Array math Length 线程多线程并发算法 spark flink http

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：在Java里如何用ArrayList实现一个简单的购物车_Java集合操作基础实战下一篇：Java集合中如何处理null值_不同容器对null的兼容性表

作者最新文章

如何在Golang中为对象设置Finalizer析构函数 Go语言runtime.SetFinalizer

2026-03-09 10:02

CSS如何控制强制换行显示_利用word-break或overflow-wrap样式

2026-03-09 10:02

如何在Golang中动态判断变量类型 Go语言reflect.TypeOf使用详解

2026-03-09 10:03

Win10怎么关闭UAC弹窗_用户账户控制设置最低

2026-03-09 10:08

如何在Golang中配置GOPROXY绕过公司防火墙 Go语言私有代理设置

2026-03-09 10:09

如何在Golang中测试HTTP服务的超时处理 Go语言httptest模拟延迟

2026-03-09 10:09

mysql如何设置最大连接数限制_mysql系统资源调优

2026-03-09 10:11

Win10怎么禁用鼠标在窗口边缘的自动排列_Windows10多任务设置

2026-03-09 10:12

mysql如何利用函数索引优化特定查询_mysql 8.0 Functional Index

2026-03-09 10:12

mysql如何处理Lock wait timeout exceeded锁等待超时_mysql行锁定位

2026-03-09 10:14

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

length函数用法

length函数用于返回指定字符串的字符数或字节数。可以用于计算字符串的长度，以便在查询和处理字符串数据时进行操作和判断。需要注意的是length函数计算的是字符串的字符数，而不是字节数。对于多字节字符集，一个字符可能由多个字节组成。因此，length函数在计算字符串长度时会将多字节字符作为一个字符来计算。更多关于length函数的用法，大家可以阅读本专题下面的文章。

953

2023.09.19

线程和进程的区别

线程和进程的区别：线程是进程的一部分，用于实现并发和并行操作，而线程共享进程的资源，通信更方便快捷，切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

763

2023.08.10

Python 多线程与异步编程实战

本专题系统讲解 Python 多线程与异步编程的核心概念与实战技巧，包括 threading 模块基础、线程同步机制、GIL 原理、asyncio 异步任务管理、协程与事件循环、任务调度与异常处理。通过实战示例，帮助学习者掌握如何构建高性能、多任务并发的 Python 应用。

376

2025.12.24

java多线程相关教程合集

本专题整合了java多线程相关教程，阅读专题下面的文章了解更多详细内容。

2026.01.21

C++多线程相关合集

本专题整合了C++多线程相关教程，阅读专题下面的的文章了解更多详细内容。

2026.01.21

C# 多线程与异步编程

本专题深入讲解 C# 中多线程与异步编程的核心概念与实战技巧，包括线程池管理、Task 类的使用、async/await 异步编程模式、并发控制与线程同步、死锁与竞态条件的解决方案。通过实际项目，帮助开发者掌握如何在 C# 中构建高并发、低延迟的异步系统，提升应用性能和响应速度。

103

2026.02.06

页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章，大家可以免费体验。

491

2023.08.14

常用的数据库软件

常用的数据库软件有MySQL、Oracle、SQL Server、PostgreSQL、MongoDB、Redis、Cassandra、Hadoop、Spark和Amazon DynamoDB。更多关于数据库软件的内容详情请看本专题下面的文章。php中文网欢迎大家前来学习。

1004

2023.11.02

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

热门下载

网站特效

网站源码

网站素材

前端模板