Linux 系统调用是如何从用户代码进入内核的

冰川箭仙

发布时间：2026-01-28 18:51:40

458人浏览过

来源于php中文网

原创

用户态调用 read() 时，glibc 将参数装入寄存器并执行 syscall 指令，触发 CPU 从 ring 3 切至 ring 0，跳转到 entry_SYSCALL_64；内核根据 %rax 中的系统调用号（__NR_read=0）查表调用 sys_read，再经 ksys_read 转入文件系统 read 回调。

linux 系统调用是如何从用户代码进入内核的

用户态调用 `read()` 时到底发生了什么

Linux 系统调用不是函数跳转，而是软中断触发的特权级切换。当你在 C 程序里写 read(fd, buf, size)，实际调用的是 glibc 封装的 wrapper，它把参数准备好，把系统调用号（比如 __NR_read = 0）写入 %rax（x86-64），然后执行 syscall 指令——这才是真正进入内核的开关。

关键点在于：syscall 是 CPU 提供的指令，会强制从 ring 3（用户态）切到 ring 0（内核态），并跳转到内核预先注册的入口（entry_SYSCALL_64）。这个过程不经过任何中间层，也不依赖链接器或动态库，是硬件支持的原子操作。

glibc 的 read() 只负责参数搬运和 syscall 触发，不实现读逻辑
不同架构指令不同：x86-64 用 syscall，x86-32 用 int $0x80，ARM64 用 svc #0
如果直接汇编调用 syscall 而不设对 %rax，内核会返回 -ENOSYS

系统调用号怎么对应到内核函数

调用号是内核 ABI 的一部分，硬编码在头文件里：/usr/include/asm/unistd_64.h 定义了 __NR_read 为 0，而内核源码中 arch/x86/entry/syscalls/syscall_table_64.c 的第 0 号表项指向 sys_read 函数指针。

这个映射表在内核启动时加载进内存，entry_SYSCALL_64 入口根据 %rax 查表跳转。注意：sys_read 不是最终实现，它只是入口 wrapper，真正干活的是 ksys_read 和底层文件系统的 file_operations.read 回调。

系统调用号不能随意改，否则用户程序调用会失败或跳错函数
新增系统调用需同时修改头文件、syscall table、内核函数，并重新编译内核和 glibc
部分调用（如 openat）有多个变体，靠 %rax 区分，但参数布局必须严格匹配内核期望

为什么不能直接 call 内核函数

用户代码无法直接 call sys_read，因为内核地址空间默认对用户态不可见（页表标记为 supervisor-only），且函数签名、调用约定（如寄存器使用、栈帧处理）与用户态 ABI 不兼容。

会译·对照式翻译

会译是一款AI智能翻译浏览器插件，支持多语种对照式翻译

下载

更根本的是安全隔离：CPU 在 ring 3 下执行任意 call 指令都无法访问 ring 0 的代码段，会触发 general protection fault（#GP）。只有 syscall/int 这类特权指令才能合法切换模式并跳转到内核指定入口。

即使通过 mmap 映射了内核内存（如 /dev/kmem，通常已被禁用），也无法绕过段保护和 SMAP/SMEP 防护
内核函数没有稳定 ABI，sys_read 在不同内核版本中可能被重命名、拆分或合并
用户态调试器（如 gdb）看到的 read 调用栈停在 glibc，不会显示内核函数名——因为内核栈与用户栈完全分离

strace 是怎么抓到系统调用的

strace 利用的是 ptrace 机制，本质是让内核在每次目标进程执行 syscall 指令前后暂停它，并把寄存器状态（%rax, %rdi, %rsi 等）暴露给 tracer 进程。它并不解析内核符号表，而是查内置的系统调用号映射表来翻译 %rax 值。

例如，看到 read(3, "hello\n", 1024) = 6，是因为 strace 在 syscall 返回后读取了 %rax（返回值）和前三个参数寄存器，再按 read 的语义格式化输出。

strace -e trace=read,write 并非过滤内核路径，而是只监听特定调用号的进出事件
调用耗时统计基于内核提供的 ptrace 时间戳，不包含用户态开销
如果程序用 syscall(SYS_read, ...) 直接调用，strace 依然能捕获，因为它监控的是 syscall 指令本身，而非 glibc 符号

真正难理解的不是“怎么进”，而是“进之后怎么安全地把用户地址（如 buf）转成内核可访问的物理页，又不被恶意篡改”。这部分涉及地址空间隔离、copy_from_user/copy_to_user 的检查逻辑，以及 page fault 时的异常处理路径——它们才是系统调用背后最厚重的屏障。

Linux系统下利用Tc命令实现网络模拟延迟与丢包率测试

Linux网络性能优化_内核网络栈调整

Linux服务无法停止_服务进程残留问题处理

Linux系统负载分析_uptime与loadavg说明

Linux系统利用History命令管理历史记录及敏感信息清除

相关标签:

linux 编码栈格式化输出架构封装 include int 指针栈事件 table linux

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：大量脏页但 iostat 看不出哪个盘特别忙的 anon page / page cache 分析下一篇：Linux Buffer 与 Cache 的真实区别

作者最新文章

Windows服务管理中SVCHOST进程占用资源过高定位方法

2026-03-14 11:52

JavaScript变量提升Hoisting现象的发生原理与规避

2026-03-14 11:56

Python版本差异说明_Python2与3核心变化

2026-03-14 12:04

Adobe官网免费下载 Adobe官方试用版获取方法

2026-03-14 12:12

Linux系统通过DU与DF命令监控磁盘空间及文件大小异常

2026-03-14 12:39

Nginx利用非阻塞IO解决慢连接堆积导致的阻塞问题

2026-03-14 13:22

Apache中主备切换过程中请求丢失的预防与补偿方案

2026-03-14 13:24

Linux系统下LVM逻辑卷管理实现磁盘动态扩容的操作流程

2026-03-14 13:53

Linux环境下Ps命令常用组合参数及进程状态识别指南

2026-03-14 14:11

Linux系统定时任务未执行_cron排查

2026-03-14 14:15

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

string转int

在编程中，我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算，或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

1071

2023.08.02

int占多少字节

int占4个字节，意味着一个int变量可以存储范围在-2,147,483,648到2,147,483,647之间的整数值，在某些情况下也可能是2个字节或8个字节，int是一种常用的数据类型，用于表示整数，需要根据具体情况选择合适的数据类型，以确保程序的正确性和性能。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

617

2024.08.29