中文场景下必须用 mb_strlen(),因 strlen() 按字节计数导致 UTF-8 中文长度误判,需显式指定 'UTF-8' 编码并配合 trim、normalize 和阈值校验确保准确性和安全性。

strlen() 和 mb_strlen() 选哪个?中文场景下必须用 mb_strlen()
PHP 默认的 strlen() 按字节计数,遇到 UTF-8 编码的中文会返回 3(每个汉字占 3 字节),导致「长度为 5」的中文字符串被误判为 15。实际业务中要按“字符数”判断(比如用户名最多 10 个汉字),必须用 mb_strlen(),并显式指定编码:mb_strlen($str, 'UTF-8')。
常见错误现象:strlen("你好") === 6,但你需要它等于 2。
- 没传第二个参数时,
mb_strlen()依赖mb_internal_encoding()当前值,线上环境可能不一致,务必显式传'UTF-8' - 若字符串含 BOM 或混合编码(如 GBK + UTF-8),先用
mb_convert_encoding($str, 'UTF-8', 'auto')统一再测 - 性能上
mb_strlen()略慢于strlen()</code),但对普通表单校验影响可忽略</li> </ul> <H3>动态阈值怎么存?别硬编码在 if 里</H3> <p>所谓“动态”,通常指阈值来自配置、数据库或用户权限。直接写 <code>if (mb_strlen($name) > 10)
是静态判断;换成变量后,关键在**来源可信性**和**类型安全**。使用场景:后台可配置字段最大长度、VIP 用户允许更长昵称、API 接口根据版本调整限制。
立即学习“PHP免费学习笔记(深入)”;
- 从 $_GET 或 POST 获取阈值时,必须强制转整型:
$limit = (int)$_POST['max_len'];,否则恶意传字符串如'10 or 1=1'可能绕过判断 - 数据库查出的阈值字段建议定义为
TINYINT UNSIGNED,避免负数或超大值(如 2147483647)导致内存溢出 - 用常量或配置数组集中管理,例如:
$config['user']['nickname_max'] = 12;,而不是散落在各处的魔法数字
空格、换行、emoji 怎么算?提前 trim 和 normalize
用户输入常带首尾空格、全角空格(\u3000)、零宽空格(\u200b)甚至 emoji(如 ?? 占 2 个 Unicode 码点,但显示为 1 个图形)。直接测长度会失真。
正确做法是先清洗再判断:
- 用
trim($str)去首尾空白,但注意它不处理全角空格——需加preg_replace('/^[\s\u3000]+|[\s\u3000]+$/u', '', $str) - emoji 长度问题:PHP 7.4+ 中
mb_strlen($str, 'UTF-8')对大多数 emoji 返回正确字符数(如 "?" 为 1),但某些组合型(如 "??")仍可能返回 2;若需严格按视觉计数,改用grapheme_strlen($str) - 敏感场景(如密码强度提示)建议统一用
mb_ereg_replace('[[:space:]]', '', $str)去所有空白后再测有效内容长度
性能敏感场景:长度超限就提前退出,别等全量计算
当字符串可能极大(如上传的 Base64 图片描述、日志片段),用
mb_strlen()会遍历全部字符,浪费资源。可先用strlen()快速估算字节数,再决定是否进多字节处理。例如限制最多 100 字符,UTF-8 下单字符最多 4 字节 → 字节长度超过 400 就必超限:
if (strlen($str) > 400) { throw new InvalidArgumentException('String too long'); } if (mb_strlen($str, 'UTF-8') > 100) { throw new InvalidArgumentException('String too long'); }这个技巧在 CLI 脚本或高频 API 中有效,但要注意:纯 ASCII 字符串下
strlen()和mb_strlen()结果一致,可跳过多字节分支;混合内容时,两次计算仍是性价比最高的保底方案。真正容易被忽略的是:动态阈值如果来自外部且未做范围校验(比如允许设成 9999999),配合大字符串会直接触发内存耗尽——阈值本身也得有上下界保护。
- 从 $_GET 或 POST 获取阈值时,必须强制转整型:










