如何在并发环境下使用BitSet进行高效的数据去重与排序操作

P粉602998670

发布时间：2026-02-18 12:05:02

352人浏览过

来源于php中文网

原创

bitset 在并发场景下不安全，需用分段 bitset + longadder 实现无锁去重；分段大小宜选 65536，通过 segment = value >>> 16 定位段，再对低位操作；排序输出时按段调用 nextsetbit(0) 即可天然有序。

如何在并发环境下使用bitset进行高效的数据去重与排序操作

BitSet 在并发场景下不能直接用

Java 的 BitSet 本身不是线程安全的。多线程同时调用 set()、get() 或 cardinality() 会触发数据错乱，比如位被漏设、计数不准，甚至抛出 ArrayIndexOutOfBoundsException（内部数组扩容时竞态导致引用未及时更新）。

常见错误现象：BitSet 显示已设置某位，但另一线程读不到；或 stream().mapToObj() 遍历时跳过某些值；高并发下 size() 返回负数（内部 wordsInUse 字段撕裂）。

别给 BitSet 加 synchronized 块封装——锁粒度太粗，吞吐暴跌，且无法解决迭代与修改的复合操作问题
别用 Collections.synchronizedSet(new HashSet()) 模拟位图——内存和时间开销完全失去 BitSet 的优势
如果只是去重+排序，且数据范围固定（如 0–1000000），优先考虑无锁替代方案

用 LongAdder + 分段 BitSet 实现无锁去重

核心思路是把大范围拆成多个小 BitSet（例如每段 65536 位），每个段配一个 LongAdder 记录该段已置位数量。线程根据数值哈希到对应段，只对该段加锁（或用 CAS 更新其 words 数组）。

实操建议：

分段大小选 2^16（65536）较均衡：太小则锁竞争多，太大则单段内 CAS 失败率高
用 AtomicReferenceArray<bitset></bitset> 存储各段，避免初始化竞争；首次访问某段时用 compareAndSet(null, new BitSet())
写入时先算段索引：int segment = (int) (value >>> 16)，再对 segments[segment] 调用 set(value & 0xFFFF)
排序输出时按段遍历，每段内用 nextSetBit(0) 迭代，拼接结果——天然有序，无需额外排序

ConcurrentHashMap 不如 AtomicLongArray

有人想用 ConcurrentHashMap 存 key 做去重，但这是典型误用：key 是整数且范围可控时，ConcurrentHashMap 的哈希、节点创建、链表转红黑树等开销远超位操作；更关键的是它不提供顺序遍历能力，后续还得收集 key 再排序。

知了追踪

AI智能信息助手，智能追踪你的兴趣资讯

下载

对比方案：

AtomicLongArray（每个 long 当 64 位）更适合：支持 CAS 更新单个 long，配合位运算（getAndBitwiseOr(idx, 1L ）实现无锁 set；但需自己处理跨 long 的边界和统计
java.util.concurrent.atomic.Striped<bitset></bitset>（来自 Guava）可简化分段逻辑，但注意其默认条带数是 4，小数据量下反而增加哈希开销
若 JDK ≥ 21，可试 VirtualThread + 单个 BitSet 加 synchronized——仅当 QPS

去重后排序的本质是遍历顺序，不是算法

BitSet 本身不“排序”，它的 nextSetBit(start) 是从左到右扫描，返回最小满足条件的索引。所以只要原始数据映射到 bit 位置的方式是单调的（如 value 直接作 index），遍历结果自然升序。

容易踩的坑：

负数不能直接塞进 BitSet——必须偏移：如数据范围 [-1000, 9000]，统一加 1000 变成 [0, 10000]，否则 set(-1) 抛 IndexOutOfBoundsException
稀疏数据（如只用了 0–100 和 999999）用 BitSet 浪费内存；此时改用 ConcurrentSkipListSet 更省，且自带排序
如果业务允许误差，BloomFilter（如 guava BloomFilter<integer></integer>）能以极低内存完成去重判断，但无法枚举全部去重结果

真正麻烦的从来不是“怎么排”，而是“怎么在不锁死的情况下让每位都准确落到该落的位置”。位图的并发本质是空间换原子性，不是加锁就能绕过去的。

相关标签:

NULL 封装 int 线程多线程并发

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：在Java中如何安装数据库并连接Java应用_Java数据库环境搭建说明下一篇：Java中的异常处理优化：使用Enum管理异常消息与国际化翻译

作者最新文章

Golang反射在工作流引擎中的应用_动态节点执行

2026-02-16 14:38

如何在Golang中安全地删除整个目录及其内容

2026-02-16 14:38

Go语言如何在CI中管理模块_Golang自动化依赖管理

2026-02-16 14:41

Go开发环境中的Build Tags使用_条件编译控制代码构建

2026-02-16 14:42

Golang初级项目：简单的命令行时钟_实现动态刷新显示

2026-02-16 14:44

Golang中nil函数变量的调用行为_引发Panic

2026-02-16 14:44

Golang服务如何接入Prometheus_指标采集实现方式

2026-02-16 14:45

使用Golang Encoding/Gob高效序列化_Go专用的二进制传输协议

2026-02-16 14:48

Golang如何避免滥用反射_Golang代码可维护性分析

2026-02-16 14:51

如何在CI流水线中集成Go测试_GitHub Actions配置指南

2026-02-16 14:52

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

c语言中null和NULL的区别

c语言中null和NULL的区别是：null是C语言中的一个宏定义，通常用来表示一个空指针，可以用于初始化指针变量，或者在条件语句中判断指针是否为空；NULL是C语言中的一个预定义常量，通常用来表示一个空值，用于表示一个空的指针、空的指针数组或者空的结构体指针。

244

2023.09.22

java中null的用法

在Java中，null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量，包括类、接口、数组、字符串等。想了解更多null的相关内容，可以阅读本专题下面的文章。

766

2024.03.01

string转int

在编程中，我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算，或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

770

2023.08.02

int占多少字节

int占4个字节，意味着一个int变量可以存储范围在-2,147,483,648到2,147,483,647之间的整数值，在某些情况下也可能是2个字节或8个字节，int是一种常用的数据类型，用于表示整数，需要根据具体情况选择合适的数据类型，以确保程序的正确性和性能。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

573

2024.08.29