php判断字符串长度忽略标点_php去标点测长度法【技巧】

雪夜

发布时间：2026-01-29 14:20:03

146人浏览过

来源于php中文网

原创

最直接方法是用 preg_replace('/[\p{P}\p{S}]+/u', '', $str) 去标点后调用 mb_strlen($cleaned_str, 'UTF-8')，必须显式指定 UTF-8 编码，否则中文长度计算错误。

php判断字符串长度忽略标点_php去标点测长度法【技巧】

用 `preg_replace` 去掉标点再测长度最直接

PHP 没有内置“忽略标点的字符串长度”函数，得自己剥离标点再用 strlen 或 mb_strlen。核心思路是：先用正则把 Unicode 标点字符（包括中文顿号、句号、英文逗号等）全部替换为空，再计算剩余字符数。

常见错误是只过滤 ASCII 标点，比如写成 /[^\w\s]/，结果中文标点（如《》、【】、，。！？）全被算进去了。

推荐正则：/[\p{P}\p{S}]+/u —— \p{P} 匹配所有 Unicode 标点，\p{S} 匹配符号（如 ©、★、→），u 修饰符启用 UTF-8 模式
安全写法：mb_strlen(preg_replace('/[\p{P}\p{S}]+/u', '', $str), 'UTF-8')
如果只要字母数字和汉字，可收紧为：/[^\p{L}\p{N}\s]+/u（\p{L} 是字母，\p{N} 是数字）

`mb_strlen` 必须指定编码，否则中文会算错

不加编码参数的 mb_strlen($str) 依赖 mb_internal_encoding() 当前设置，线上环境常为 ISO-8859-1，导致中文字符全被当单字节处理，长度直接腰斩。

例如：$str = "你好，world！";，未指定编码时可能返回 12（错误），正确应为 7（“你好world”共 7 个非标点字符）。

立即学习“PHP免费学习笔记（深入）”；

AI工具箱

AI工具箱是一个全方位AI资源聚合平台

下载

始终显式传入 'UTF-8'：mb_strlen($cleaned_str, 'UTF-8')
别依赖 setlocale 或 mb_internal_encoding 全局设置，不同模块可能互相覆盖
测试时可用 mb_detect_encoding($str) 看原始编码，但不建议用于生产逻辑判断

性能敏感场景慎用 `preg_replace` 多次调用

如果要对大量字符串反复做“去标点测长”，每次调用 preg_replace 会有编译正则的开销。PHP 7.4+ 对重复正则有缓存，但低版本或复杂正则仍可能拖慢。

高频场景可预编译正则：preg_replace('~[\p{P}\p{S}]+~u', '', $str) 中的波浪线定界符比斜杠更少转义麻烦
极端性能要求下，可改用 mb_substr + 字符逐个判断，但代码膨胀且易漏判；不如升级 PHP 版本或加 Redis 缓存结果
注意：不要用 str_replace 列出所有标点手工替换——中英文标点组合超百种，维护成本爆炸

注意全角空格、零宽字符这些“隐形标点”

用户粘贴内容常含全角空格（　）、零宽空格（\xe2\x80\x8b）、软连字符（\xc2\xad）等，它们不属于 \p{P}，但也不该计入有效长度。

这类字符在浏览器里看不见，却会让 mb_strlen 多算，甚至引发数据库字段超长报错。

补充清理：preg_replace('/[\x{2000}-\x{206F}\x{2028}\x{2029}\x{FEFF}]+/u', '', $str)（覆盖常用空白与控制符）
更彻底方案：用 Normalizer::normalize($str, Normalizer::FORM_C) 先标准化，再过滤
调试技巧：用 bin2hex($str) 查看原始字节，比肉眼排查靠谱得多

实际业务里，“忽略标点测长度”的真正难点不在正则怎么写，而在于你得先想清楚：哪些字符算“该忽略”——是仅视觉分隔符？还是连 emoji、货币符号、数学符号也要剔除？这个边界一旦没对齐产品需求，后面所有优化都是白忙。

宝塔面板如何配置PHP的opcache参数以提升脚本执行性能？

批量处理 JSON 文件：使用 PHP 批量修改 trait_type 字段值

如何在 PHP 中正确输出带超链接的图片

网站出现504 Gateway Timeout在宝塔面板中如何调整超时？

如何通过 URL 参数在页面间安全传递数据（含 ID、名称等）

PHP速学教程(入门到精通)

PHP怎么学习？PHP怎么入门？PHP在哪学？PHP怎么学才快？不用担心，这里为大家提供了PHP速学教程(入门到精通)，有需要的小伙伴保存下载就能学习啦！

下载

相关标签:

php redis 编码浏览器字节币 red strlen 字符串 ASCII redis 数据库

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：php读取rtf文件换行符不一致咋整_php读取rtf换行统一法【技巧】下一篇：php实现班级通信录导入特殊符号乱码_php转义符号处理法【技巧】

作者最新文章

workbuddy版本更新日志_workbuddy更新内容指南【指南】

2026-03-16 15:07

微信AI搜索怎么评价公众号_2026输入“评价一下”获取总结教程

2026-03-16 15:12

OpenClaw支持光枪游戏吗怎么玩_OpenClaw光枪模式兼容与操作说明【介绍】

2026-03-16 15:21

word表格框线怎么设置_word表格框线样式设置方法

2026-03-16 15:27

红果短剧怎么缓存视频_红果短剧缓存视频详细步骤

2026-03-16 15:33

LeonardoAI提示词怎么生成高质量图片_LeonardoAI提示词写作技巧【技巧】

2026-03-16 15:35

Workerman内存泄露怎么排查_循环引用与静态变量检查技巧【技巧】

2026-03-16 17:02

纵横小说怎么开启自动订阅_纵横小说设置自动购买最新章节

2026-03-16 17:04

Hyperf新手常见架构误区_Hyperf框架理解避坑操作【说明】

2026-03-16 17:08

快手与抖音选品逻辑一样吗_两平台用户差异与选品调整【方法】

2026-03-16 17:12

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

761

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

221

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1570

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

651

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

1249

2024.03.22