std::memory_order_relaxed是最弱内存序,仅保证原子性与修改顺序一致性,允许编译器和CPU任意重排序其前后指令(数据依赖除外),不建立线程间happens-before关系。

std::memory_order_relaxed 是什么,它到底允许多大程度的重排序?
std::memory_order_relaxed 是 C++ 内存模型中最弱的内存序,它只保证原子操作本身的**原子性**和**修改顺序一致性(modification order)**,不施加任何同步或顺序约束。换句话说:编译器和 CPU 都可以自由地对它前后的读写指令做重排序,只要不改变单线程内的数据依赖关系。
常见错误现象是:以为 flag.store(true, std::memory_order_relaxed) 之后,其它线程看到 flag == true 就一定能读到之前写入的 data —— 实际上完全不能保证。因为 store 和前面的普通写之间没有顺序约束。
- 适用场景:计数器(如引用计数)、标记位(仅用于通知“某事已发生”,但不携带其它数据)、性能敏感且无依赖的统计逻辑
- 不能用于构建锁、信号量、发布-订阅协议中的“可见性”保障
- 在 x86 上,
relaxedstore/load 通常编译为普通 mov 指令;ARM/AArch64 则可能需要明确的ldar/stlr(但 relaxed 会降级为普通 ld/st)
为什么用 relaxed 还会看到“意外”的值?—— 看似正确的代码为何失效
典型陷阱代码:
std::atomicready{false}; int data = 0; // 线程 A data = 42; ready.store(true, std::memory_order_relaxed); // ❌ 错误:data 写入可能被重排到 store 之后
// 线程 B while (!ready.load(std::memory_order_relaxed)) { / spin / } std::cout << data; // 可能输出 0 或未定义值
问题不在 ready 本身,而在于 relaxed 不建立 data = 42 和 ready.store 之间的 happens-before 关系。编译器可能把 data = 42 移到 store 后面;CPU 也可能让其它核先看到 store,后看到 data 的写入(尤其在非 x86 架构上)。
立即学习“C++免费学习笔记(深入)”;
- 即使你在 x86 上测试通过,换到 ARM 或 RISC-V 就可能复现问题
-
relaxedload 无法作为 acquire 操作,不能防止后续读写被提前 - 调试时加日志或断点会干扰重排序,掩盖问题 —— 不代表它不存在
relaxed 和其他 memory_order 的关键区别在哪?
核心差异不在原子操作“自己是否完成”,而在它**是否参与构建线程间的同步关系**。只有带 acquire/release 或 seq_cst 语义的操作,才能让一个线程的写对另一个线程的读产生可预测的可见性边界。
-
relaxed:无同步,无顺序约束,仅保原子性 -
acquire(load):禁止该 load 后的读写被重排到它前面;配合 release store 构成同步点 -
release(store):禁止该 store 前的读写被重排到它后面 -
seq_cst:全局单一修改顺序,最慢但最符合直觉(默认 atomic 操作就是它)
例如,把上面例子中两个 relaxed 换成 release / acquire 就能正确发布 data:
// 线程 A data = 42; ready.store(true, std::memory_order_release); // ✅// 线程 B while (!ready.load(std::memory_order_acquire)) { / spin / } // ✅ std::cout << data; // 此时 data == 42 有保证
什么时候真的可以用 relaxed?别为了“快”而乱用
真正适合 std::memory_order_relaxed 的地方非常有限,必须满足两个条件:1)不依赖其它内存位置的值;2)不用于线程间通信的“信令”目的。否则极易引入偶发、难复现的竞态。
- 安全示例:原子计数器自增
counter.fetch_add(1, std::memory_order_relaxed),且仅用于统计,不触发任何分支逻辑 - 危险示例:用
relaxedload 判断状态并决定是否调用某个函数 —— 这本质是 acquire 场景 - 性能收益常被高估:在多数现代 x86 代码中,
relaxed和acquire/release的指令开销差异极小;真正的瓶颈往往在缓存一致性协议(如 MESI)而非内存序指令本身
最容易被忽略的一点:relaxed 不提供“顺序传播”。即使你用 relaxed 更新了十个原子变量,其它线程看到它们的更新顺序也完全不确定 —— 它们之间没有顺序约束,彼此也不构成同步点。这比“读不到新值”更隐蔽,也更难调试。











