Linux hugepages 的 1G vs 2M 页面与数据库内存绑定

冷漠man

发布时间：2026-02-16 15:19:03

709人浏览过

来源于php中文网

原创

优先选2mb大页，因postgresql等传统数据库默认仅支持2mb；1gb需cpu、内核及数据库版本（如oracle 19c+、mysql 8.0.30+、pg 15+）三重支持，并须显式配置与预留。

linux hugepages 的 1g vs 2m 页面与数据库内存绑定

hugepages 用 1G 还是 2M？看内核版本和数据库进程模型

Linux hugetlbpage 支持两种主流大小：2MB（x86_64 默认）和 1GB（需 CPU 和内核支持）。不是越大越好，得看数据库怎么申请内存。

PostgreSQL、Oracle 等传统数据库多用 mmap() + MAP_HUGETLB 绑定大页，它们通常只认 2MB 页面——哪怕你开了 1GB hugepages，cat /proc/meminfo | grep HugePages 显示有空闲，pg_ctl start 仍可能报 Cannot allocate memory。因为内核在 mm/hugetlb.c 里默认只把 2MB 页加入 hstate[0]，而多数 DB 的启动逻辑没显式指定 hstate index。

检查是否真支持 1GB：运行 grep pdpe1gb /proc/cpuinfo（有输出才支持），再确认内核编译了 CONFIG_HUGETLB_PAGE_SIZE_1GB=y
Oracle 19c+、MySQL 8.0.30+（配合 large_pages=ON）可显式请求 1GB 页，但必须提前用 echo 10 > /proc/sys/vm/nr_hugepages_1GB 预留，不能靠 nr_hugepages 统一分配
PostgreSQL 15 以前完全不识别 1GB 页；15+ 需设 huge_page_size = '1GB' 且启动用户有 CAP_IPC_LOCK，否则 fallback 到 2MB 或直接失败

绑定数据库内存时，/proc/sys/vm/hugetlb_shm_group 必须设对

很多 DB（如 PostgreSQL）用共享内存段（shmget()）承载 shared_buffers，而 hugepages 绑定共享内存依赖 hugetlb_shm_group。不设或设错组 ID，shmget() 就会静默退回到普通页，DB 日志里连 warning 都没有。

查数据库进程的 gid：ps -o pid,gid,comm -C postgres，取 gid 值（比如 1001）
写入：echo 1001 > /proc/sys/vm/hugetlb_shm_group（重启后失效，建议加到 /etc/sysctl.conf： vm.hugetlb_shm_group = 1001）
错误现象：DB 启动成功，cat /proc/meminfo | grep HugePages_Free 不减，但 cat /proc/<pid>/smaps | grep -i huge</pid> 显示 0 kB AnonHugePages —— 说明根本没用上

numactl --membind 和 hugepages 冲突会导致 OOM

在 NUMA 架构服务器上，有人想“双重保险”：既用 numactl --membind=0 限定 CPU node，又开 hugepages。结果 DB 启动卡住，dmesg 出现 Out of memory: Kill process xxx (postgres) score xxx or sacrifice child。

Pixlr Remove BG

几秒钟删除图片背景

下载

原因在于：hugepages 是全局预分配资源，而 --membind 会强制所有内存分配（包括 hugepages backing memory）局限在指定 node。如果该 node 的空闲内存不足以容纳全部 hugepages（比如你预留了 100 个 2MB 页，但 node 0 只剩 150MB 可用），内核就无法完成 page fault，最终触发 OOM killer。

验证方法：numastat -p <pid></pid> 看 Node 0 MemUsed 是否远超 HugePages_Total * 2MB
安全做法：要么不用 --membind，改用 numactl --cpunodebind=0 --membind=0 启动 DB（确保 CPU 和内存同 node），要么关掉 hugepages 改用透明大页（transparent_hugepage=always）
注意：PostgreSQL 的 shared_buffers 分配发生在 postmaster 进程，所以必须对 postmaster 本身用 numactl，不是对 pgbench 等客户端

MySQL 的 innodb_buffer_pool_size 超过 hugepages 总量会静默降级

MySQL 8.0 开启 large_pages=ON 后，InnoDB 会尝试用 hugepages 分配 buffer pool。但如果 innodb_buffer_pool_size 设为 24G，而系统只预留了 10G hugepages（即 5120 个 2MB 页），它不会报错，而是自动切回普通页——此时 SHOW ENGINE INNODB STATUS 里 “Buffer pool size” 仍是 24G，但 cat /proc/meminfo | grep HugePages_Free 完全不变。

确认是否生效：查 MySQL 错误日志，成功绑定会打印 InnoDB: Using huge pages；没这行就是降级了
计算公式：所需 hugepages 数 = ceil(innodb_buffer_pool_size / 2MB)，再额外加 10% 缓冲（InnoDB 内部元数据也吃 hugepages）
危险操作：动态调大 innodb_buffer_pool_size 时，若 hugepages 不足，MySQL 会先释放旧 buffer pool（触发刷盘），再申请新内存——期间可能因普通页分配失败直接 crash

真正麻烦的是：这些机制都藏在内核和数据库启动路径深处，出问题时既不报错也不提示，只能靠 /proc 和日志交叉比对。别信“开了 hugepages 就一定用了”。

Linux shell 调试技巧与错误处理

Linux chmod、chown、chgrp 使用技巧

Linux 网络服务部署实战教程

Linux tc mirred 的流量镜像与容器网络诊断实践

Linux ethtool -k / -K 的 offload 特性关闭对高延迟场景的影响

相关专题

mysql修改数据表名

MySQL修改数据表：1、首先查看数据库中所有的表，代码为：‘SHOW TABLES；’；2、修改表名，代码为：‘ALTER TABLE 旧表名 RENAME [TO] 新表名；’。php中文网还提供MySQL的相关下载、相关课程等内容，供大家免费下载使用。

678

2023.06.20

MySQL创建存储过程

存储程序可以分为存储过程和函数，MySQL中创建存储过程和函数使用的语句分别为CREATE PROCEDURE和CREATE FUNCTION。使用CALL语句调用存储过程智能用输出变量返回值。函数可以从语句外调用(通过引用函数名)，也能返回标量值。存储过程也可以调用其他存储过程。php中文网还提供MySQL创建存储过程的相关下载、相关课程等内容，供大家免费下载使用。

371

2023.06.21

mongodb和mysql的区别

mongodb和mysql的区别：1、数据模型；2、查询语言；3、扩展性和性能；4、可靠性。本专题为大家提供mongodb和mysql的区别的相关的文章、下载、课程内容，供大家免费下载体验。

284

2023.07.18

mysql密码忘了怎么查看

MySQL是一个关系型数据库管理系统，由瑞典MySQL AB 公司开发，属于 Oracle 旗下产品。MySQL 是最流行的关系型数据库管理系统之一，在 WEB 应用方面，MySQL是最好的 RDBMS 应用软件之一。那么mysql密码忘了怎么办呢？php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

519

2023.07.19

mysql创建数据库

MySQL是一个关系型数据库管理系统，由瑞典MySQL AB 公司开发，属于 Oracle 旗下产品。MySQL 是最流行的关系型数据库管理系统之一，在 WEB 应用方面，MySQL是最好的 RDBMS 应用软件之一。那么mysql怎么创建数据库呢？php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

263

2023.07.25