LongAdder 比 AtomicLong 快在高竞争下不卡住:它通过分段累加降低冲突,而 AtomicLong 的 CAS 自旋在多线程争抢时耗 CPU;但低竞争时因分发开销反而略慢。

LongAdder 比 AtomicLong 快在哪?先看竞争场景
关键不在“快”,而在“高竞争下不卡住”。AtomicLong 用 CAS 自旋更新,一旦多个线程反复抢同一个值,失败重试会吃掉大量 CPU;LongAdder 把累加拆到多个 Cell 上,线程各自找空闲槽位写,冲突概率大幅下降。但低竞争时它反而略慢——多了分发、定位、合并的开销。
怎么测出真实差异?别只跑 for 循环
常见错误是用单线程或固定线程数 + 短时间循环,结果看不出差别。必须模拟真实争抢:启动 8–16 个线程,每个线程执行 100 万次 increment(),用 System.nanoTime() 测总耗时。注意关闭 JVM 预热干扰(先预跑几轮再计时),并重复 5 次取中位数。
- 测试前调用
ForkJoinPool.commonPool().awaitQuiescence(1, TimeUnit.SECONDS)清理可能残留的异步任务 - 避免在
main线程里直接 new Thread(),改用ExecutorService统一管理生命周期 - 别用
System.currentTimeMillis(),精度不够,误差可达 10ms+
为什么有时 LongAdder 结果不准?检查 sum() 调用时机
LongAdder.sum() 不是原子快照,而是遍历所有 Cell 并累加当前值,过程中其他线程仍可修改。如果边累加边调用 sum(),结果可能漏掉部分增量。典型误用场景:在统计线程还在运行时,就从监控线程频繁调用 sum() 获取中间值。
- 生产环境若需准确实时值,应控制统计周期(例如每秒调用一次
sum(),且累加线程该秒内暂停写入) - 更稳妥的做法是让累加线程自己定期把
sumThenReset()结果推到外部队列,避免读写竞争 -
sum()返回的是 long,但内部 Cell 数组长度受 CPU 核心数影响,极端高并发下扩容有延迟,刚扩容完的 slot 可能为空
选 AtomicLong 还是 LongAdder?看你的写读比和一致性要求
不是“越新越好”。如果业务是单线程高频更新(如定时器计数器)、或必须强一致读(如金融对账),AtomicLong 更合适;而日志行数统计、API 调用量聚合、限流器窗口计数这类“写多读少+允许微小延迟”的场景,LongAdder 才真正发挥价值。JDK 9 后 Striped64 底层优化了 false sharing,但老版本(如 JDK 8u202 之前)要注意 Cell 未填充 padding 导致缓存行伪共享,此时性能提升可能打折扣。
立即学习“Java免费学习笔记(深入)”;
最容易被忽略的一点:LongAdder 没有 compareAndSet(),没法做条件更新。真需要“等于某值才加”,只能回退到 AtomicLong 或自己封装逻辑。











