
ps old gen 内存缓慢但持续增长(约1%/天)虽未触发 full gc 或报错,但仍可能预示内存泄漏或配置不合理;需结合 gc 日志、堆转储分析及 jvm 参数调优进行系统性排查。
在 Apache Tomcat 生产环境中,JVM 堆内存中 PS Old Gen(Parallel Scavenge 收集器的老年代)呈现稳定线性增长(如每日约 1%),即使应用响应良好、无 GC 报警或系统级错误,也绝非可忽视的“正常现象”。这种增长往往意味着对象长期驻留老年代而未能被回收——可能是合理的缓存策略所致,更常见的是隐性内存泄漏(如静态集合未清理、ThreadLocal 泄漏、监听器/过滤器未注销、连接池未关闭等)。
✅ 首要行动:启用并分析 GC 日志
仅依赖操作系统事件日志或 Tomcat catalina.out 不足以定位问题。必须开启详细 GC 日志以观察老年代回收行为:
# 在 catalina.sh 或 setenv.sh 中添加 JVM 启动参数(JDK 8+ 推荐) -XX:+PrintGCDetails \ -XX:+PrintGCDateStamps \ -XX:+PrintGCTimeStamps \ -Xloggc:/path/to/gc.log \ -XX:+UseGCLogFileRotation \ -XX:NumberOfGCLogFiles=5 \ -XX:GCLogFileSize=10M
重点关注日志中是否出现:
- Full GC (Ergonomics) 或 Full GC (Metadata GC Threshold) —— 表明已触发老年代回收;
- PSOldGen: [used: X -> Y, capacity: Z] 的变化趋势(若 Y 持续接近 Z 且不回落,即存在回收失效);
- GC pause 时间是否随时间推移明显延长(暗示碎片化或回收压力增大)。
⚠️ 注意:若连续 15 天未发生任何 Full GC,说明当前老年代分配速率远低于触发阈值(默认约 92% 占用率),但这恰恰掩盖了泄漏风险——一旦突增流量或缓存膨胀,可能瞬间 OOM。
? 深度诊断:获取并分析堆转储(Heap Dump)
当 PS Old Gen 使用率达 70%+ 时,主动触发堆转储进行根因分析:
# 方式1:使用 jmap(需 JDK 工具,生产环境慎用) jmap -dump:format=b,file=/tmp/heap.hprof# 方式2:配置 JVM 自动导出(推荐,低侵入) -XX:+HeapDumpOnOutOfMemoryError \ -XX:HeapDumpPath=/path/to/dumps/ \ -XX:HeapDumpBeforeFullGC # JDK 9+ 支持,JDK 8 需用 -XX:+PrintGCDetails 辅助判断时机
使用 Eclipse MAT(Memory Analyzer Tool) 打开 .hprof 文件,执行:
- Leak Suspects Report:自动识别疑似泄漏的类和引用链;
- Dominator Tree:按 retained heap 排序,重点关注 java.util.HashMap、org.apache.catalina.loader.WebappClassLoader、java.lang.ThreadLocal 等高频嫌疑对象;
- Histogram → Group by package/classloader:确认是否某 Web 应用(如 com.example.myapp)独占大量老年代对象。
? 关键优化建议
-
检查应用代码:
- 静态集合(static Map/Cache)是否随请求不断 put() 却无淘汰机制?
- ServletContextListener.contextDestroyed() 或 Filter.destroy() 中是否释放了所有资源?
- ThreadLocal 变量是否在 finally 块中调用 remove()?(尤其在异步或线程池场景下极易泄漏)
-
Tomcat 特定风险点:
- 确保
配置中 reloadable="false"(开发模式外禁用热部署,避免 ClassLoader 泄漏); - 检查 WEB-INF/lib 是否包含重复或冲突的 JAR(如多个 SLF4J 绑定);
- 使用 JNDI 数据源时,确认连接池配置了 removeAbandonedOnBorrow=true 及合理超时。
- 确保
-
JVM 参数微调(谨慎):
# 示例:适度缩小老年代比例,加快暴露问题(非终极解,但有助于诊断) -XX:NewRatio=2 # 新生代:老年代 = 1:2(默认为2,即1:2;设为3则老年代更大,延迟问题暴露) -XX:MaxTenuringThreshold=6 # 控制对象晋升老年代的年龄阈值
✅ 总结
PS Old Gen 的“缓慢填充”不是性能良好的佐证,而是内存健康状况的早期预警信号。不报警 ≠ 无风险。务必通过 GC 日志确认回收行为,借助堆转储定位泄漏源头,并从应用代码、框架配置、JVM 参数三层面协同治理。将监控粒度细化到 jstat -gc










