PHP多语言乱码需统一编码链路:文件UTF-8无BOM、header('Content-Type: text/html; charset=utf-8')前置调用、数据库连接、HTML声明及字符串操作均须UTF-8,缺一即致乱码。

PHP 处理多语言内容乱码,**不是加个 header() 就能解决的**,关键在「统一编码链路」:文件保存编码、HTTP 响应头、数据库连接、HTML 声明、PHP 字符串操作,五者必须都是 UTF-8。漏掉任意一环,都会出现中文变问号、emoji 变 、或 mb_strlen() 计算错误等问题。
PHP 文件本身要存成 UTF-8 无 BOM
很多乱码根源其实在编辑器里——PHP 源文件如果用 GBK 或带 BOM 的 UTF-8 保存, 输出时可能前置不可见字符,导致 header() 失效或 JSON 返回异常。
- 用 VS Code / PHPStorm 打开文件,右下角确认编码显示为
UTF-8(不是UTF-8 with BOM) - Sublime Text 中:菜单 → File → Save with Encoding → UTF-8
- Linux 下可用
file -i your.php查看实际编码;用iconv -f gbk -t utf-8 input.php > output.php转换(慎用,先备份)
header('Content-Type: text/html; charset=utf-8') 必须在任何输出前调用
这是最常踩的坑:echo、空格、UTF-8 BOM、甚至 ?> 之间的换行,都算「已输出」,再调用 header() 会报 Warning: Cannot modify header information,且浏览器收不到 charset 声明。
- 把
header()放在文件最顶部,后立即写,前面不要有任何字符(包括空行) - 如果用了模板分离(如
include 'header.php'),确保被包含文件也无 BOM、无空格 - CLI 模式下该 header 无效,但 Web SAPI(Apache/FPM)下必须依赖它
MySQL 连接层必须显式设为 utf8mb4
utf8 在 MySQL 里是阉割版(最多 3 字节),不支持 emoji 和部分生僻汉字;真正兼容 Unicode 全集的是 utf8mb4。只改表字符集不够,连接也要设对。
立即学习“PHP免费学习笔记(深入)”;
- PDO 连接时加
PDO::MYSQL_ATTR_INIT_COMMAND => "SET NAMES utf8mb4" - mysqli 连接后立刻执行
$mysqli->set_charset('utf8mb4') - 检查当前连接:执行
SHOW VARIABLES LIKE 'character_set%',确认character_set_client、_connection、_results全是utf8mb4
HTML 页面和 PHP 字符串函数要配套处理
即使传输层全 UTF-8,前端渲染和 PHP 内部处理仍可能出问题。比如 strlen("中文") 返回 6(按字节),而 mb_strlen("中文", 'UTF-8') 才返回 2(按字符)。
- HTML
必须写在最前面,且不能被 PHP 输出干扰 - 所有涉及长度、截取、正则的操作,优先用
mb_*函数:mb_substr()、mb_stripos()、mb_regex_encoding('UTF-8') - JSON 输出务必用
json_encode($data, JSON_UNESCAPED_UNICODE),否则中文变\uXXXX
真正难的不是某一行代码,而是整个请求生命周期里,从文件磁盘读取、到 PHP 解析、到数据库往返、再到 HTTP 发送、最后浏览器渲染,每一步的编码意图都得对齐。少一个 mb_、漏一次 set_charset、或者编辑器悄悄加了 BOM,乱码就来了。











