0

0

php分割中文文本按词怎么弄_php中文分词分割法【技巧】

蓮花仙者

蓮花仙者

发布时间:2026-02-01 16:56:02

|

599人浏览过

|

来源于php中文网

原创

PHP原生不支持语义中文分词,需借助jieba-php等外部库实现;若仅匹配固定词表,可用preg_match_all配合预编译UTF-8正则,注意长词优先与u修饰符。

php分割中文文本按词怎么弄_php中文分词分割法【技巧】

PHP 原生不支持中文分词,直接用 str_split()explode() 按字切只会得到单字,不是“词”。要按语义分词(比如“北京大学”切为一个词而非“北京”+“大学”),必须借助外部分词库或 API。

jieba-php 实现轻量级中文分词

这是目前最接近 Python jieba 的 PHP 移植,支持精确模式、全模式和搜索引擎模式,纯 PHP 实现,无需扩展编译:

  • 通过 Composer 安装:composer require fukuball/jieba-php
  • 初始化后调用 Jieba::cut() 即可分词,返回数组,如 ['北京', '大学', '是', '一', '所', '高', '校']
  • 若需保留词性,用 Jieba::cutForSearch() 或配合 Jieba::tag()(后者返回带词性的键值对
  • 注意:首次加载词典较慢,建议在 CLI 启动时预热,或在 Web 环境中缓存 Jieba 实例,避免每次请求重复初始化

绕过分词库:用正则 + 词典做简单关键词提取

如果只需匹配固定词表(如敏感词、产品名、地名),不必上完整分词器,可用 preg_match_all() 配合预编译词典:

  • 把词表用 array_map('preg_quote', $words) 转义后拼成 /($word1|$word2|$word3)/u 模式
  • 务必加 u 修饰符,否则 UTF-8 中文会匹配失败
  • 顺序很重要:长词优先(如先“清华大学”,再“清华”),否则“清华”会提前截断“清华大学”
  • 性能尚可,但无法处理未登录词(词典外的新词、网络用语、人名等)

慎用 mb_substr() + 字典查表模拟分词

有人尝试用最大匹配法(MM)自己写逻辑:从左到右取最长可能词,查本地词典。这看似可控,实际问题很多:

MidReal AI
MidReal AI

MidReal AI是一款革命性的AI小说生成工具,同时也是一个文本互动冒险游戏平台。

下载

立即学习PHP免费学习笔记(深入)”;

  • 歧义消解缺失——“结婚的和尚未结婚的”切出来可能是“结婚/的/和/尚未/结婚/的”,而非正确切分
  • 词典覆盖率低导致大量单字残留,效果不如 jieba-php
  • UTF-8 下用 mb_substr($str, $i, 1, 'UTF-8') 取字没问题,但逐字拼接子串查词典,时间复杂度 O(n²),长文本卡顿明显
  • 简繁体、异体字、标点兼容性需额外处理,容易漏判

真正需要准确分词的场景(搜索、NLP 前处理、内容标签生成),别省那几 MB 内存,老实用 jieba-php;如果只是匹配已知关键词,正则 + 有序词典更稳。别自己重造轮子——中文分词的边界模糊性,远超多数人预估。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
composer是什么插件
composer是什么插件

Composer是一个PHP的依赖管理工具,它可以帮助开发者在PHP项目中管理和安装依赖的库文件。Composer通过一个中央化的存储库来管理所有的依赖库文件,这个存储库包含了各种可用的依赖库的信息和版本信息。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

163

2023.12.25

require的用法
require的用法

require的用法有引入模块、导入类或方法、执行特定任务。想了解更多require的相关内容,可以阅读本专题下面的文章。

510

2023.11.27

Python 自然语言处理(NLP)基础与实战
Python 自然语言处理(NLP)基础与实战

本专题系统讲解 Python 在自然语言处理(NLP)领域的基础方法与实战应用,涵盖文本预处理(分词、去停用词)、词性标注、命名实体识别、关键词提取、情感分析,以及常用 NLP 库(NLTK、spaCy)的核心用法。通过真实文本案例,帮助学习者掌握 使用 Python 进行文本分析与语言数据处理的完整流程,适用于内容分析、舆情监测与智能文本应用场景。

421

2026.01.27

什么是搜索引擎
什么是搜索引擎

搜索引擎是一种互联网工具,用于帮助用户在网上查找信息。搜索引擎的目标是提供最准确、最有价值的搜索结果,使用户能够快速找到所需的信息。本专题为大家提供搜索引擎相关的各种文章、以及下载和课程。

505

2023.08.02

有哪些目录搜索引擎
有哪些目录搜索引擎

目录搜索引擎有Google、Bing、Yahoo、Baidu、DuckDuckGo等。想了解更多目录搜索引擎的相关内容,可以阅读本专题下面的文章。

6935

2023.11.06

搜索引擎营销的主要模式
搜索引擎营销的主要模式

搜索引擎营销的主要模式包括:1. 竞价排名(ppc);2. 搜索引擎优化(seo);3. 本地搜索营销;4. 购物广告;5. 视频广告;6. 展示广告;7. 社交媒体营销;8. 移动广告。想了解更多搜索引擎营销的相关内容,可以阅读本专题下面的文章。

473

2024.05.20

Python WebSocket实时通信与异步服务开发实践
Python WebSocket实时通信与异步服务开发实践

本专题聚焦 Python 在实时通信场景中的开发实践,系统讲解 WebSocket 协议原理、长连接管理、消息推送机制以及异步服务架构设计。内容包括客户端与服务端通信实现、连接稳定性优化、消息队列集成及高并发处理策略。通过完整案例,帮助开发者构建高效稳定的实时通信系统,适用于聊天应用、实时数据推送等场景。

5

2026.03.18

Java Spring Security权限控制与认证机制实战
Java Spring Security权限控制与认证机制实战

本专题围绕 Java 后端安全体系建设展开,重点讲解 Spring Security 在权限控制与认证机制中的应用实践。内容涵盖用户认证流程、权限模型设计、JWT 鉴权方案、OAuth2 集成以及接口安全防护策略。通过实际项目案例,帮助开发者构建安全可靠的后端认证体系,提升系统安全性与可扩展能力。

21

2026.03.18

抖漫入口地址合集
抖漫入口地址合集

本专题整合了抖漫入口地址相关合集,阅读专题下面的文章了解更多详细地址。

137

2026.03.17

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PHP课程
PHP课程

共137课时 | 13.8万人学习

JavaScript ES5基础线上课程教学
JavaScript ES5基础线上课程教学

共6课时 | 11.4万人学习

PHP新手语法线上课程教学
PHP新手语法线上课程教学

共13课时 | 1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号