固定块内存池最常用,通过预分配大内存并用原子操作管理空闲链表实现线程安全;多级池支持多种尺寸;TLS缓存降低竞争;需补充构造/析构、对齐、统计及STL适配。

用 C++ 实现一个轻量、高效、线程安全的内存池,核心是避免频繁调用 new/delete 或 malloc/free,通过预分配大块内存 + 自管理空闲链表来加速小对象分配。不依赖第三方库,适合高频创建/销毁固定大小对象的场景(如游戏实体、网络包、日志节点等)。
一、固定块内存池(Fixed-Size Pool)——最常用、最易控
适用于对象大小统一(如 64 字节消息头、128 字节缓冲区)。原理:一次性 malloc 一大块连续内存,切分为等长“槽位”,用单向链表串联所有空闲槽,分配即取表头,回收即插回表头。
- 用
char*指针管理原始内存,避免构造/析构干扰(仅分配,不调用 ctor/dtor) - 空闲链表节点复用槽位本身:每个空闲槽的前 8 字节(x64)存下一个空闲槽地址
- 分配时原子读-改-写(
std::atomic)保证多线程安全,无需锁 - 示例关键片段:
class FixedPool {
char* _memory;
std::atomic _free_list{nullptr};
size_t _block_size;
size_t _capacity;
public:
FixedPool(size_t block_sz, size_t n_blocks)
: _block_size{block_sz}, _capacity{n_blocks} {
_memory = static_cast>(malloc(_block_size n_blocks));
// 构建空闲链表:从高地址往低地址连(避免 cache 颠簸)
char ptr = _memory + _block_size n_blocks;
for (size_t i = 0; i < n_blocks; ++i) {
ptr -= _block_size;
*reinterpret_cast(ptr) = _free_list.load();
_free_list.store(ptr);
}
}
void* allocate() {
char* node = _free_list.load();
while (node && !_free_list.compare_exchange_weak(node, *reinterpret_cast(node))) {}
return node;
}
void deallocate(void* p) {
if (!p) return;
char* node = static_cast(p);
char* expected;
do {
expected = _free_list.load();
*reinterpret_cast(node) = expected;
} while (!_free_list.compare_exchange_weak(expected, node));
} };
二、多级池(Multi-Slab Pool)——支持多种尺寸,兼顾灵活性与性能
当需分配不同大小对象(如 32B/64B/128B/256B)时,可为每种尺寸维护一个独立 fixed pool,统一封装为 MultiSlabPool。按 size 向上取整到最近的“档位”,查表分发。
立即学习“C++免费学习笔记(深入)”;
- 档位设计建议:32, 64, 128, 256, 512, 1024, 2048(覆盖常见小对象)
- 分配时先做 size 判断(if-else 链 or constexpr map),避免虚函数或 map 查找开销
- 每个子池独立管理,互不影响;总内存用量可控,无外部碎片(但有内部碎片)
- 不实现自动扩容,超限可 fallback 到 malloc(或抛异常,视业务而定)
三、线程局部缓存(Thread-Local Cache)——进一步减少竞争
在多线程高频分配场景下,即使用了原子操作,compare_exchange 仍可能因 cache line bouncing 造成性能瓶颈。引入 TLS 缓存层:每个线程私有小栈(如 16 个指针),满时批量归还给全局池,缺时批量申请。
- 用
thread_local std::vector或自定义定长栈(更省内存) - 分配优先查 TLS 栈,空再向全局池要;回收优先压入 TLS 栈,满再批量交还
- 显著降低原子操作频率,实测在 8 线程下比纯全局池吞吐提升 3–5×
- 注意:TLS 栈需在 thread exit 时清空归还,避免内存泄漏(可用
thread_local析构函数或 at_thread_exit)
四、关键增强点(项目落地必备)
真实项目中还需补全这些能力,才能替代 new/delete:
-
构造/析构支持:提供
construct和(args...) destroy,用 placement new / explicit dtor 调用(ptr) -
对齐控制:分配时按
alignof(T)对齐,可在 block 头预留 padding,或用std::aligned_alloc(C++17)申请底层内存 - 统计与调试:记录已分配数、峰值、碎片率;启用宏开关,支持分配堆栈捕获(__builtin_return_address)
-
STL 容器适配:实现
std::allocator接口,让std::vector等无缝使用>
基本上就这些。不复杂但容易忽略的是:别过早优化——先 profile 确认内存分配真是瓶颈;固定池够用就别上多级;线程缓存带来收益也增加复杂度,评估线程数和分配频次再决定。项目初期用 fixed pool + TLS 就能解决 80% 场景。










