优先用 array_filter 配合 mb_substr 或 mb_strtolower 统一大小写后比较首字母,避免 substr 截取多字节字符出错,并校验 is_string($word) && $word !== '' 防止警告。

用 array_filter + ucfirst 筛选首字母匹配的单词
PHP 数组里筛选“以某个字母开头”的单词,最直接的方式是用 array_filter 配合字符串判断。别用 substr($word, 0, 1) 手动截取——它对多字节字符(比如中文、带重音的 é)可能出错;优先用 mb_substr($word, 0, 1, 'UTF-8') 或更稳妥的 mb_strtoupper/mb_strtolower 统一大小写后比较。
常见错误是忽略大小写差异:用户输 'a',但数组里有 'Apple',直接用 === 就漏掉了。
- 先用
mb_strtolower($word)转小写,再取首字符和目标字母(也转小写)比 - 目标字母本身也要用
mb_strtolower处理,避免'A'和'a'判定不一致 - 如果确定数据全是 ASCII(如纯英文单词),
strtolower足够,性能略好
用 preg_grep 做正则首字母匹配(适合批量或模糊场景)
preg_grep 适合需要灵活模式的情况,比如“以元音字母开头”或“忽略空格/标点后再取首字母”。它底层走 PCRE,比循环 + mb_substr 稍慢,但代码更紧凑。
注意:正则默认不支持 Unicode 字符类(如 \p{L})除非加 u 修饰符;否则遇到 ` café` 这种带空格和重音的词会匹配失败。
立即学习“PHP免费学习笔记(深入)”;
- 基础用法:
preg_grep('/^[aA]/u', $words)——^表示行首,u启用 UTF-8 模式 - 忽略前导空白:
preg_grep('/^\s*[aA]/u', $words) - 只匹配纯字母开头(跳过数字、符号):
preg_grep('/^\s*[a-zA-Z]/u', $words)
性能差异:小数组无所谓,万级数据要避开 mb_* 函数反复调用
如果数组有上万元素,且每个都要调用 mb_substr 或 mb_strtolower,性能会明显下降——因为这些函数内部要做字符编码探测和边界检查。这时候可提前把首字母缓存成 ASCII 码或简单映射表。
- 对纯英文单词,用
$first = $word[0] ?? ''最快(PHP 7.4+ 支持空安全访问) - 若含国际化字符但数量可控,可预处理一次:
array_map(fn($w) => mb_strtolower(mb_substr($w, 0, 1, 'UTF-8')), $words),再做键值映射 - 避免在
array_filter回调里重复计算同一个目标字母的大小写转换
容易被忽略的边界情况:空字符串、null、数字键、非字符串值
真实数据里常混着 null、0、空字符串 '',甚至数字(如 123)。直接对它们调用 mb_substr 会触发警告,preg_grep 则自动跳过非字符串项。
- 务必在过滤前做类型校验:
is_string($word) && $word !== '' - 数字索引数组没问题,但关联数组里值为
false或0时,empty($word)会误判,改用strlen($word) > 0 - 如果原始数组键名重要(比如要保留原索引),别用
array_values重置,用array_filter($arr, $callback, ARRAY_FILTER_USE_BOTH)
实际用哪一种,取决于你的数据规模、字符集复杂度和是否需要扩展性。多字节安全不是可选项,是默认前提;而性能优化,得等真卡了再动。











