Linux containerd 的 shim 与 runc 的 OCI 运行时调试方法

冰川箭仙

发布时间：2026-02-17 14:34:02

975人浏览过

来源于php中文网

原创

查 containerd shim 卡住需先用 ps 找 pid，再通过 ls -l /proc//fd/ 检查残留 fd，最后用 strace -p 观察阻塞在 wait4/epoll_wait/recvfrom；若 runc 已退出但 shim 仍持 socket，需手动清理对应 runtime 目录。

linux containerd 的 shim 与 runc 的 oci 运行时调试方法

containerd shim 进程卡住，怎么查它在等什么？

shim 进程本身不执行容器，只做 containerd 和 runc 之间的“传话员”；它卡住，通常不是 shim 本身坏了，而是它在等 runc 返回、或等容器进程退出、或等 cgroup 状态就绪。最直接的判断方式是看它的子进程和状态：

用 ps -o pid,ppid,comm,state -C containerd-shim 找出卡住的 shim PID
用 ls -l /proc/<shim-pid>/fd/</shim-pid> 看它是否还持着 initctl 或 console-socket 的 fd（常见于容器没正确 detach）
用 strace -p <shim-pid></shim-pid> 观察最后阻塞在哪个系统调用（通常是 wait4、epoll_wait 或 recvfrom）
如果 shim 持有 runc 的 socket 连接但 runc 已退出，说明 runc 崩溃后没清理 socket，需手动 kill 并清理 /run/containerd/io.containerd.runtime.v2.task/<namespace>/<id>/</id></namespace> 下残留目录

runc exec 进入容器失败，报 “no such process” 或 “container not running”

这不是权限或路径问题，而是 runc 查找容器状态时依赖 state.json 文件，而这个文件由 shim 维护——如果 shim 挂了但容器进程还在，runc exec 就会找不到合法状态。关键点在于：runc 不直接跟内核打交道，它只读 /run/containerd/io.containerd.runtime.v2.task/<ns>/<id>/state.json</id></ns>，并据此生成 exec.fifo 和绑定到容器 init 进程的 stdin/stdout/stderr。

先确认容器是否真在跑：ps -eo pid,ppid,comm,args | grep <container-pid></container-pid>
检查 state.json 是否存在且 "status": "running"；若文件损坏或 status 是 created，说明 shim 没完成启动流程
runc exec 必须指定 --pid-file 或通过 --root 指向正确的 runc root（默认 /var/run/runc），否则会去错地方找 state
不要用 runc --root /run/containerd/runc/<ns> exec ...</ns> 直接操作——containerd v2 runtime 要求 runc 使用自己的 bundle layout，路径必须匹配 shim 创建时的 bundle 字段

调试 OCI runtime 时，如何让 runc 输出详细日志？

runc 默认静默，但它的日志开关不在命令行参数里，而在环境变量和配置中。真正生效的是 RUNC_LOG + RUNC_LOG_LEVEL，且仅当 runc 编译时启用了 debug 支持（主流发行版包通常关闭了）。

NoCode

美团推出的零代码应用生成平台

下载

临时启用：运行前加 RUNC_LOG=/tmp/runc.log RUNC_LOG_LEVEL=debug runc --debug run -b <bundle><id></id></bundle>
--debug 参数必须显式带上，否则 RUNC_LOG 被忽略
注意日志路径需 shim 进程有写权限（比如 containerd 启动 shim 时用的是 containerd 用户，不是 root）
如果看到 failed to load OCI config: invalid character，大概率是 config.json 里多了注释或用了 tab 缩进——OCI spec 严格要求纯 JSON，不能有注释、尾逗号、tab

containerd 重启后容器消失，但 runc list 还能看到？

这是典型的生命周期管理错位：runc list 只扫 /var/run/runc 下的 state 文件，而 containerd v2 runtime 把容器状态存在 /run/containerd/io.containerd.runtime.v2.task/<ns>/<id>/state.json</id></ns>，两者完全不互通。runc 看到的是“孤儿容器”，containerd 认为它们已丢失。

不要直接 runc delete 这些容器——可能残留 cgroup、网络命名空间、mount ns，导致后续创建失败
正确做法是先用 containerd-stress cleanup（如安装了 containerd-devel 包），或手动清理：find /run/containerd/io.containerd.runtime.v2.task -name state.json -exec dirname {} \; | xargs -r rm -rf
更稳妥的是启用 containerd 的 oom_score_adj 和 reclaimable 配置，避免因 OOM 导致 shim 异常退出却不通知 containerd
所有生产环境务必开启 [plugins."io.containerd.grpc.v1.cri".containerd.runtimes.runc.options] 中的 SystemdCgroup = true，否则 cgroup v2 下 runc 和 containerd 对 cgroup 路径解析不一致，重启后状态无法对齐

OCI runtime 调试真正的难点不在命令怎么敲，而在于每个组件只认自己那一小段契约：shim 信 state.json，runc 信 bundle 目录结构，containerd 信 shim 的 gRPC 响应。一旦其中一环状态没同步（比如 shim panic 但没删 state.json），整个链就断成两截，得靠交叉验证才能定位真实断点。

Linux veth pair 的 txqueuelen 与 net.core.netdev_max_backlog 调优

Linux 用户与组管理进阶技巧

Linux 数据误删除后的恢复可能性分析

Linux 自动化巡检与故障排查

Linux 自动化执行失败的兜底策略

相关标签:

linux ai json 命名空间命令行参数 Namespace var delete console linux

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Linux kube-bench 的 --auto 模式与自定义 benchmark yaml 扩展下一篇：暂无

作者最新文章

GitHub 怎么运行别人的代码？GitHub 项目运行完整流程讲解

2026-02-16 12:41

扫描全能王怎么下载pdf文件_扫描全能王文档导出PDF教程

2026-02-16 12:49

Python 闰秒处理的正确姿势

2026-02-16 12:55

微信电脑怎么登录没有手机微信电脑无手机登录方法

2026-02-16 13:13

浏览器f12开发者工具使用教程元素审查、Network抓包与Console调试入门

2026-02-16 13:20

Linux 源列表管理与优化策略

2026-02-16 13:42

edge浏览器同步历史记录同步范围与隐私选项说明

2026-02-16 13:52

Python mock 过度使用的问题分析

2026-02-16 13:59

SQL XA 分布式事务的二阶段提交与单机事务性能代价权衡

2026-02-16 14:05

Linux chmod、chown、chgrp 使用技巧

2026-02-16 14:21

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

442

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

544

2023.08.23