这是典型的 orphaned socket(孤儿套接字)现象:连接已断开但应用未调用 close(),内核无法回收,内存滞留在 sk_buff 和 socket 结构中,不计入进程 RSS,而归属内核 slab(如 skbuff_head_cache、tcp_sock)。

为什么 ss -m 显示 TCP 内存飙升但 ps/pmap 看不到对应 RSS 占用
这是典型的 orphaned socket(孤儿套接字)现象:连接已断开、应用层未调用 close(),且内核无法回收(比如 socket 处于 CLOSE_WAIT 但对方不发 FIN,或处于 FIN_WAIT2 且未设 tcp_fin_timeout),导致内存滞留在内核 sk_buff 和 socket 结构中,不计入进程 RSS——RSS 只统计用户态页,而 orphaned socket 的内存全在内核 slab(如 skbuff_head_cache、tcp_sock)里。
常见诱因包括:Nginx 后端超时未关连接、Java 应用未正确关闭 Socket 或 HttpClient、Go net.Conn 忘记 Close()、或进程崩溃前遗留的 fd。
如何用 ss 定位 orphaned socket 并确认内存归属
运行以下命令快速筛选高内存占用的 orphaned 连接:
ss -m state fin-wait-2,close-wait,fin-wait-1,time-wait | awk '$1 ~ /^(fin-wait|close-wait|time-wait)$/ && $NF ~ /mem:(\d+)/ { sum += $NF; print } END { print "Total mem:", sum }'
关键点:
-
ss -m输出末尾的mem:字段单位是字节,不是 KB;单个连接显示mem:123456表示该 socket 缓冲区总内存约 120KB - 真正 orphaned 的 socket 通常没有
uid或inode关联(ss -tuln看不到所属进程),ss -tulnp会报Permission denied或直接不显示 - 检查 slab 内存是否真被 socket 占满:
cat /proc/slabinfo | grep -E "(skbuff|tcp_sock|sock_inode)",若num列远高于正常值(比如 >50k),基本可锁定
批量清理 orphaned socket 的安全方式
不能直接 kill 进程或重启服务——很多 orphaned socket 其实属于已退出但文件描述符未释放的僵尸进程(PID 已消失),kill 无意义。必须通过内核参数触发主动回收:
- 临时清空所有
TIME_WAIT:写入/proc/sys/net/ipv4/tcp_tw_reuse为1(仅对新建连接生效),再执行echo 1 > /proc/sys/net/ipv4/tcp_fin_timeout加速FIN_WAIT2超时(默认 60s) - 强制回收
CLOSE_WAIT:该状态本应由应用 close,内核不自动回收;唯一办法是降低/proc/sys/net/ipv4/tcp_fin_timeout并等待(无效时需查应用逻辑) - 终极手段(生产慎用):
echo 1 > /proc/sys/net/ipv4/tcp_abort_on_overflow+echo 1 > /proc/sys/net/ipv4/tcp_syncookies,让内核在 SYN 队列满时丢弃新连接并重置异常连接——这会间接促使部分 stuck socket 被 reset 清理
注意:net.ipv4.tcp_rmem 和 tcp_wmem 调小能限制单连接内存上限,但不能清理已有 orphaned socket。
避免复发:从应用和内核两层加固
Orphaned socket 是症状,根因在应用资源管理或内核配置失当:
- Java 应用务必用 try-with-resources 包裹
Socket、HttpURLConnection;Spring Boot 检查server.connection-timeout是否设为非 0 值 - Nginx 设置
proxy_next_upstream off+proxy_buffering off可减少后端连接堆积;加keepalive_timeout 15s主动断开空闲连接 - 内核层面:长期运行的服务建议启用
net.ipv4.tcp_slow_start_after_idle=0避免 idle 连接卡在ESTABLISHED不释放;监控/proc/net/sockstat中sockets: used和TCP: inuse增长趋势
最易被忽略的是:某些 C/C++ 程序用 shutdown(SHUT_RDWR) 但没跟 close(),socket 进入 CLOSE_WAIT 后永远 orphaned——这种 bug 在 lsof -i 里看不到,只有 ss -m 和 slab 统计能暴露。










