php字符串去重应先用str_split()或mb_str_split()转字符数组,再array_unique()保序去重,最后implode()拼接;中文/emoji必须用mb_str_split(),否则乱码。

用 array_unique() 配合 str_split() 去除字符串中重复字符
PHP 没有内置的「字符串去重」函数,直接对字符串操作容易误删空格、换行或大小写敏感字符。最稳妥的做法是先拆成字符数组,再用 array_unique() 去重,最后拼回字符串。
常见错误现象:str_replace() 或正则反复替换,结果只删了一次重复、漏掉连续重复;或用 count_chars($s, 3) 只能取唯一字符集但丢失原始顺序。
-
str_split()把字符串转为单字符数组(注意:UTF-8 多字节字符需用mb_str_split(),否则中文会乱) -
array_unique()默认保留首次出现的键,顺序不变 -
implode('', ...)拼回去,别用join()—— 虽然等价,但implode()更通用、可读性更强
示例(处理英文):
$s = "hello";
$result = implode('', array_unique(str_split($s))); // "helo"
处理中文或 Emoji 时必须用 mb_str_split()
PHP 的 str_split() 按字节切分,遇到 UTF-8 编码的中文、Emoji 就会截断成乱码。比如 str_split("你好") 可能返回 6 个无效字节片段。
使用场景:用户昵称、标签、搜索关键词等含中文的输入清洗。
立即学习“PHP免费学习笔记(深入)”;
- 确认当前脚本编码是 UTF-8(
mb_internal_encoding('UTF-8')最好提前设好) -
mb_str_split($s, 1)第二个参数必须是1,表示按 1 个 Unicode 字符切 - PHP 版本低于 7.4 的话,
mb_str_split()不存在,得手写兼容逻辑(如用preg_split('//u', $s, -1, PREG_SPLIT_NO_EMPTY))
示例(含中文):
$s = "你好hello";
$result = implode('', array_unique(mb_str_split($s, 1))); // "你好helo"
count_chars($s, 3) 只适合取字符集,不能保序或去重子串
这个函数常被误当作「去重工具」,但它只返回字符串中所有出现过的字符组成的字符串,按 ASCII 码升序排列,完全不管原始顺序,也不处理重复子串(比如 "aab" → "ab" 是对的,但 "baa" → 还是 "ab")。
性能影响:比 array_unique() + str_split() 快一点,但牺牲了顺序和语义准确性。
- 返回值是字符串,不是数组,没法做进一步键值操作
- 不区分大小写?不,它严格区分
A和a - 如果只是判断「是否含重复字符」,用
strlen($s) !== strlen(count_chars($s, 3))是高效写法
想按词去重(不是按字)?得先分词,别硬套字符级函数
比如字符串 "apple banana apple",想变成 "apple banana",这不是字符去重,是「单词去重」。用 str_split() 会把每个字母拆开,彻底跑偏。
正确路径:先用 explode(' ', $s) 或更健壮的 preg_split('/\s+/', trim($s)) 分词,再 array_unique(),最后 implode(' ', ...)。
- 注意空元素:分词后可能有空字符串,加
array_filter()清理 - 大小写敏感?需要统一转小写再比较,但要注意保留原始大小写输出(得用
array_column()+array_keys()手动映射) - 标点符号没清理的话,
"apple."和"apple"会被视为不同词











