str_split()按字节切分,适合ASCII场景;含中文需用mb_substr()循环实现UTF-8安全分块,避免乱码。

用 str_split() 直接按固定长度切分字符串
如果只是把一段纯文本(比如 Base64 字符串、十六进制串、日志行)按固定字节数切开,str_split() 是最轻量的选择。它原生支持指定长度,返回字符串数组,不涉及编码判断。
注意:它按字节切分,不是按 UTF-8 字符。中文等多字节字符会被截断,导致乱码 —— 所以只适合 ASCII 或已知单字节编码的场景。
-
str_split('abcdef', 2)→['ab', 'cd', 'ef'] - 长度超出原字符串时,末尾自动截短,不会补空或报错
- 不支持回调处理,无法跳过空白或合并相邻段
用 mb_substr() + 循环实现安全的 UTF-8 分段
处理含中文、emoji 的文本时,必须用多字节函数。PHP 没有内置的「按字符数分块」函数,得手动循环调用 mb_substr()。
关键点是每次从偏移量 $i 取 $len 个字符,而不是字节;且需用 mb_strlen() 判定总长,避免 strlen() 误算。
立即学习“PHP免费学习笔记(深入)”;
- 示例逻辑:
$chunks = [];
$text = '你好world123';
$len = 4;
for ($i = 0; $i < mb_strlen($text, 'UTF-8'); $i += $len) {
$chunks[] = mb_substr($text, $i, $len, 'UTF-8');
} - 结果是
['你好wo', 'rld123'],每项字符数 ≤4,且无截断乱码 - 不能直接套
array_chunk()—— 它只对数组重分组,不处理字符串切分
为什么 array_chunk() 不适用于「文本按长度分组」
array_chunk() 的输入必须是数组,它只是把已有数组元素按数量打包,和「按文本长度切分」完全无关。常见误解是想先 str_split('abcde') 得到 ['a','b','c','d','e'],再 array_chunk($arr, 3) → [['a','b','c'], ['d','e']],但这得到的是单字符数组分块,不是你想要的「每块 3 个字符组成的子串」。
- 错误写法:
array_chunk(str_split('hello world'), 3)→ 得到的是字符数组的分组,不是字符串分段 - 正确目标是
['hel', 'lo ', 'wor', 'ld']这类结果,必须用str_split()或mb_substr()先生成子串数组 - 混淆根源:把「分块数量」和「每段字符长度」当成同一维度,其实它们作用对象不同
性能与边界情况提醒
短文本用任何方式都无所谓;但处理 MB 级日志或大 JSON 字符串时,循环调用 mb_substr() 会有明显开销,因为每次都要重新计算 UTF-8 字符边界。
- 若确定全是 ASCII,坚持用
str_split(),快 3–5 倍 - 若需保留换行/缩进结构(如代码分块),别硬按长度切,应先
explode("\n")再按行合并 - 空字符串、
$len 、$len > mb_strlen($text)都要提前判断,否则mb_substr()可能返回空或原串,行为不一致
真正难的不是切分动作本身,而是确认「长度单位」—— 字节?字符?还是视觉宽度?PHP 默认不处理后者,得靠额外库。











