memory_order_seq_cst是默认但非最优选择,提供全局全序一致性但性能开销大;实际中应依需降级为acquire、release、acq_rel或relaxed,并注意跨平台屏障成本与synchronizes-with配对要求。

memory_order_seq_cst 是默认但不总是最优选择
绝大多数 std::atomic 操作(如 load()、store()、fetch_add())在不显式指定顺序时,使用 memory_order_seq_cst。它提供最强的顺序保证:全局单一修改顺序 + 全序一致性,等价于在所有线程间插入全内存屏障(full barrier)。但代价是性能开销大——尤其在 ARM/AArch64 或 RISC-V 上,会生成 dmb ish 或 fence rw,rw 等强同步指令。
实际开发中,若仅需防止重排(而非全局顺序),可降级使用更弱的顺序:
-
memory_order_acquire用于读操作:禁止该读之后的所有内存访问被重排到它前面 -
memory_order_release用于写操作:禁止该写之前的所有内存访问被重排到它后面 -
memory_order_acq_rel用于读-改-写操作(如fetch_or):兼具 acquire 和 release 语义
例如,实现自旋锁的 unlock:
void unlock() {
flag.store(false, std::memory_order_release); // 只需 release,确保临界区写入对其他线程可见
}
acquire-release 配对才能保证跨线程数据可见性
单靠 memory_order_acquire 或 memory_order_release 本身无法传递数据;必须成对出现在不同线程的同一原子变量上,才构成“synchronizes-with”关系。这是 C++ 内存模型中数据依赖传递的核心机制。
立即学习“C++免费学习笔记(深入)”;
典型错误是误以为只要用了 acquire 就能“看到所有之前的写”——其实只保证能看到该原子变量被 release 写入前的那些副作用。
- 线程 A 执行:
data = 42; flag.store(true, std::memory_order_release); - 线程 B 执行:
if (flag.load(std::memory_order_acquire)) { use(data); } - 此时
use(data)一定能看到data == 42,因为 A 的 store 与 B 的 load 构成 synchronizes-with - 但如果 B 改用
memory_order_relaxed,则data的值完全可能未刷新
relaxed 模式下编译器和 CPU 都可能重排,但 atomic 本身仍保原子性
memory_order_relaxed 仅保证该操作是原子的,不施加任何顺序约束。编译器可能将它与其他内存访问任意重排,CPU 也可能乱序执行(取决于架构)。常见误用场景包括计数器、引用计数、状态标志位等无依赖场景。
例如,一个无锁队列中的 tail 指针递增:
auto old_tail = tail.load(std::memory_order_relaxed); auto new_tail = old_tail->next; tail.store(new_tail, std::memory_order_relaxed);
这里用 relaxed 是合理的——只要后续有 acquire-load 或其他同步点来保障节点内容可见性即可。但若漏掉这个同步点,就可能读到未初始化的内存。
注意:relaxed 不等于“不安全”,而是“不提供顺序担保”。它常被用于性能敏感路径,但要求程序员自己推理依赖链。
x86/x64 上 acquire/release 几乎免费,ARM 上却要真实屏障指令
x86/x64 的内存模型天然接近 seq_cst,所以 acquire 和 release 在大多数情况下不生成额外屏障指令(仅抑制编译器重排)。但 ARMv7/ARMv8 默认是弱序模型,acquire 必须编译为 dmb ishld,release 为 dmb ishst,acq_rel 则为 dmb ish —— 这些都是开销明确的 CPU 指令。
这意味着:
- 跨平台代码中,不能假设 acquire/release “没成本”
- 在 ARM 上频繁使用
acq_rel(如自旋锁的test_and_set)会显著拖慢性能 - 若逻辑允许,用
relaxed + explicit fence替代acq_rel有时更高效(例如只在关键路径插一次std::atomic_thread_fence(std::memory_order_acq_rel))
真正容易被忽略的是:fence 指令的作用范围是整个线程上下文,而原子操作的顺序参数只约束该操作本身及其与其它原子操作的关系——二者语义层次不同,混用时极易出错。










