tracee --trace event 需配合 --filter 才能精准捕获特定进程事件;--filter "comm=curl" 匹配命令名(15字节限制、大小写敏感),--filter "pid=1234" 更稳定,容器中应优先用 --filter "pidns=4026531836"。

tracee --trace event 怎么只抓特定进程的系统调用
直接用 --trace event 不加过滤,会捕获所有进程的事件,噪音极大。真正想看某个程序(比如 curl)的 openat 或 connect,得靠 --filter 配合进程名或 PID。
常见错误是写成 --filter "comm=curl" 却没生效——因为 comm 是内核态看到的“命令名”,长度限制 15 字节、不含路径、且大小写敏感;你用 /usr/bin/curl 启动,comm 仍是 curl,但若它 fork 出子进程并 execve 切换为 sh,那后续事件就匹配不上了。
-
--filter "comm=curl":匹配所有 comm 字段等于curl的事件,适合短生命周期、不频繁 exec 的场景 -
--filter "pid=1234":更稳,适合已知 PID 的调试(如先pgrep curl再 trace) -
--filter "pidns=4026531836":容器环境必须用这个,避免宿主机其他同名进程干扰(pidns可从/proc/1234/status的NSpid行反查) - 多个 filter 用空格拼接:
--filter "comm=curl" --filter "event=openat",等价于 AND 关系
tracee --trace comm 抓不到子进程?这是预期行为
--trace comm 本身不是过滤开关,而是开启对进程上下文(comm、pid、uid 等)的采集,它默认 *不自动过滤* —— 你看到满屏 bash、systemd 就是因为没加 --filter。
真正要“只看某类进程”,必须搭配 --filter;否则 --trace comm 只是让输出里多一列 comm 字段,对减少数据量毫无帮助。
- 误操作:
tracee --trace comm --trace event=openat→ 依然扫全系统 - 正确做法:
tracee --trace event=openat --filter "comm=curl",此时--trace comm可省略(字段自动包含) - 注意:
comm在 exec 后会变,比如sh -c 'curl example.com'中,sh的comm是sh,curl的才是curl,父子进程不能靠 comm 连续追踪
容器里 tracee --filter pid 失效?该切 pidns 过滤
在容器中用 --filter "pid=1234" 常常没结果,不是 tracee 问题,而是你填的是宿主机 PID,而 tracee 默认运行在容器命名空间内,看到的是容器视角的 PID(通常从 1 开始)。
查法:进容器执行 cat /proc/1/status | grep NSpid,第二列才是 tracee 能识别的 PID;或者直接用 pidns 过滤,更可靠。
- 查容器 pidns:
readlink /proc/1234/ns/pid输出类似pid:[4026532670],取数字部分 - 过滤写法:
--filter "pidns=4026532670",这样无论容器内 PID 如何变化(比如重启),只要在同一个 pidns 下都命中 - 兼容性注意:旧版 tracee(pidns 过滤,需升级或改用
cgroup_path
--filter 和 --output format 的顺序影响输出可读性
filter 是在内核/ebpf 层做的裁剪,越早加越省资源;但如果你同时用 --output format=json,又希望 human-readable 输出里保留 comm、pid 等字段,就得确认这些字段是否被 filter 逻辑隐式依赖。
例如:--filter "uid=0" 能正常工作,但 --filter "container_image=nginx" 要求 tracee 已加载容器运行时探针(如 CRI-O、containerd socket 路径配置正确),否则字段为空,过滤失效。
- 优先用
pid或comm过滤,它们不依赖外部服务 - 用
container_image或k8s_pod_name前,先跑tracee --list | grep container确认相关事件可用 -
--output option:parse-arguments会让参数解析更准(比如显示openat(AT_FDCWD, "/etc/hosts", ...)),但增加开销,调试阶段再开
复杂点在于:filter 规则一旦写错(比如拼错字段名),tracee 默认静默忽略,不会报错,你只能看到“没数据”——最稳妥的方式是先不加 filter,用 --output format table 看几条原始事件,确认字段值和格式,再写 filter。










