0

0

php分割中文文本按词怎么弄_php中文分词分割法【技巧】

蓮花仙者

蓮花仙者

发布时间:2026-02-01 16:56:02

|

599人浏览过

|

来源于php中文网

原创

PHP原生不支持语义中文分词,需借助jieba-php等外部库实现;若仅匹配固定词表,可用preg_match_all配合预编译UTF-8正则,注意长词优先与u修饰符。

php分割中文文本按词怎么弄_php中文分词分割法【技巧】

PHP 原生不支持中文分词,直接用 str_split()explode() 按字切只会得到单字,不是“词”。要按语义分词(比如“北京大学”切为一个词而非“北京”+“大学”),必须借助外部分词库或 API。

jieba-php 实现轻量级中文分词

这是目前最接近 Python jieba 的 PHP 移植,支持精确模式、全模式和搜索引擎模式,纯 PHP 实现,无需扩展编译:

  • 通过 Composer 安装:composer require fukuball/jieba-php
  • 初始化后调用 Jieba::cut() 即可分词,返回数组,如 ['北京', '大学', '是', '一', '所', '高', '校']
  • 若需保留词性,用 Jieba::cutForSearch() 或配合 Jieba::tag()(后者返回带词性的键值对
  • 注意:首次加载词典较慢,建议在 CLI 启动时预热,或在 Web 环境中缓存 Jieba 实例,避免每次请求重复初始化

绕过分词库:用正则 + 词典做简单关键词提取

如果只需匹配固定词表(如敏感词、产品名、地名),不必上完整分词器,可用 preg_match_all() 配合预编译词典:

  • 把词表用 array_map('preg_quote', $words) 转义后拼成 /($word1|$word2|$word3)/u 模式
  • 务必加 u 修饰符,否则 UTF-8 中文会匹配失败
  • 顺序很重要:长词优先(如先“清华大学”,再“清华”),否则“清华”会提前截断“清华大学”
  • 性能尚可,但无法处理未登录词(词典外的新词、网络用语、人名等)

慎用 mb_substr() + 字典查表模拟分词

有人尝试用最大匹配法(MM)自己写逻辑:从左到右取最长可能词,查本地词典。这看似可控,实际问题很多:

讯飞星火
讯飞星火

科大讯飞推出的多功能AI智能助手

下载

立即学习PHP免费学习笔记(深入)”;

  • 歧义消解缺失——“结婚的和尚未结婚的”切出来可能是“结婚/的/和/尚未/结婚/的”,而非正确切分
  • 词典覆盖率低导致大量单字残留,效果不如 jieba-php
  • UTF-8 下用 mb_substr($str, $i, 1, 'UTF-8') 取字没问题,但逐字拼接子串查词典,时间复杂度 O(n²),长文本卡顿明显
  • 简繁体、异体字、标点兼容性需额外处理,容易漏判

真正需要准确分词的场景(搜索、NLP 前处理、内容标签生成),别省那几 MB 内存,老实用 jieba-php;如果只是匹配已知关键词,正则 + 有序词典更稳。别自己重造轮子——中文分词的边界模糊性,远超多数人预估。

相关文章

PHP速学教程(入门到精通)
PHP速学教程(入门到精通)

PHP怎么学习?PHP怎么入门?PHP在哪学?PHP怎么学才快?不用担心,这里为大家提供了PHP速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
composer是什么插件
composer是什么插件

Composer是一个PHP的依赖管理工具,它可以帮助开发者在PHP项目中管理和安装依赖的库文件。Composer通过一个中央化的存储库来管理所有的依赖库文件,这个存储库包含了各种可用的依赖库的信息和版本信息。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

156

2023.12.25

require的用法
require的用法

require的用法有引入模块、导入类或方法、执行特定任务。想了解更多require的相关内容,可以阅读本专题下面的文章。

466

2023.11.27

Python 自然语言处理(NLP)基础与实战
Python 自然语言处理(NLP)基础与实战

本专题系统讲解 Python 在自然语言处理(NLP)领域的基础方法与实战应用,涵盖文本预处理(分词、去停用词)、词性标注、命名实体识别、关键词提取、情感分析,以及常用 NLP 库(NLTK、spaCy)的核心用法。通过真实文本案例,帮助学习者掌握 使用 Python 进行文本分析与语言数据处理的完整流程,适用于内容分析、舆情监测与智能文本应用场景。

103

2026.01.27

什么是搜索引擎
什么是搜索引擎

搜索引擎是一种互联网工具,用于帮助用户在网上查找信息。搜索引擎的目标是提供最准确、最有价值的搜索结果,使用户能够快速找到所需的信息。本专题为大家提供搜索引擎相关的各种文章、以及下载和课程。

399

2023.08.02

有哪些目录搜索引擎
有哪些目录搜索引擎

目录搜索引擎有Google、Bing、Yahoo、Baidu、DuckDuckGo等。想了解更多目录搜索引擎的相关内容,可以阅读本专题下面的文章。

3272

2023.11.06

搜索引擎营销的主要模式
搜索引擎营销的主要模式

搜索引擎营销的主要模式包括:1. 竞价排名(ppc);2. 搜索引擎优化(seo);3. 本地搜索营销;4. 购物广告;5. 视频广告;6. 展示广告;7. 社交媒体营销;8. 移动广告。想了解更多搜索引擎营销的相关内容,可以阅读本专题下面的文章。

436

2024.05.20

go语言 注释编码
go语言 注释编码

本专题整合了go语言注释、注释规范等等内容,阅读专题下面的文章了解更多详细内容。

2

2026.01.31

go语言 math包
go语言 math包

本专题整合了go语言math包相关内容,阅读专题下面的文章了解更多详细内容。

1

2026.01.31

go语言输入函数
go语言输入函数

本专题整合了go语言输入相关教程内容,阅读专题下面的文章了解更多详细内容。

1

2026.01.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PHP课程
PHP课程

共137课时 | 10.7万人学习

JavaScript ES5基础线上课程教学
JavaScript ES5基础线上课程教学

共6课时 | 11.2万人学习

PHP新手语法线上课程教学
PHP新手语法线上课程教学

共13课时 | 0.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号