僵尸进程是已终止但未被父进程回收的子进程,仅占用PID和内核PCB,不耗CPU或内存;主因是父进程未调用wait/waitpid或未正确处理SIGCHLD信号,危害在于PID耗尽导致系统无法创建新进程。

僵尸进程(Zombie,状态标记为 Z)不是“正在运行”的异常进程,而是已经终止、但尚未被父进程回收退出状态的子进程。它不消耗CPU、不占用内存,却牢牢占着一个PID和内核中的进程描述符(PCB),问题核心在于“该收尸没收”。
产生原因:父进程没调用 wait 或忽略 SIGCHLD
子进程退出时,内核会向其父进程发送 SIGCHLD 信号,提醒“我结束了,快调用 wait() 或 waitpid() 把我的退出码和资源拿走”。如果父进程:
- 完全未注册或未正确处理 SIGCHLD 信号(比如信号处理函数里只调用一次
waitpid(),而实际有多个子进程退出); - 写了
wait()但用了阻塞方式,且逻辑卡在别处,导致回收动作迟迟不执行; - 压根没写任何回收逻辑,尤其常见于简单 fork 后忘记清理的 C 程序或 shell 脚本;
- 父进程自己已崩溃或挂起,彻底失去响应能力。
特殊情形:父进程先退出 → init 接管后通常不会留僵尸
若子进程还在运行,父进程就退出了,该子进程会变成孤儿进程,并被 PID=1 的 init 进程(systemd 或传统 init)自动收养。init 会定期调用 wait() 回收这些子进程,所以一般不会形成持久僵尸。但注意:如果子进程在父进程退出前就已结束,而父进程又没来得及处理 SIGCHLD,那僵尸已在父进程空间里产生了——init 并不负责替“活着的父进程”擦屁股。
对系统的实际危害:PID 耗尽比性能下降更致命
单个僵尸只占几十字节 PCB 和一个 PID,看似无害,但危害具有累积性和突发性:
-
PID 资源枯竭:Linux 默认最大 PID 数通常是 32768(可通过
/proc/sys/kernel/pid_max查看)。一旦僵尸数量接近上限,系统将无法 fork 新进程——此时ls、ssh、日志轮转、监控脚本甚至 systemd 定时器都会失败,报错 “Resource temporarily unavailable”; - 内核遍历变慢:ps/top/htop 等命令需扫描整个进程表,数千僵尸会让内核线性遍历明显延迟,表现为命令响应卡顿;
- 掩盖深层故障:持续出现僵尸,往往说明父进程存在设计缺陷——比如死锁、信号屏蔽错误、或循环中漏掉回收逻辑。不解决根源,可能引发业务中断或内存泄漏等连锁问题。
关键事实澄清
僵尸进程不占用 CPU 时间片,不消耗物理内存(仅内核中极小 PCB),也不会让磁盘 IO 或网络变慢。它的威胁是结构性的:像一张慢慢填满的表格,最后一格填上,整张表就锁死了。










