0

0

php怎么实现自动关键词提取_php基于TF-IDF或jieba分词【提取】

尼克

尼克

发布时间:2026-02-22 23:04:03

|

514人浏览过

|

来源于php中文网

原创

php中无原生jieba,应优先使用scws扩展:安装pecl install scws,配置词典路径,结合停用词过滤与词性筛选,手写tf-idf时需基于语料库统计df、平滑idf并归一化tf。

php怎么实现自动关键词提取_php基于tf-idf或jieba分词【提取】

PHP 里没有原生 jieba,别硬套 Python 那套逻辑

PHP 本身不支持 jieba 分词,所有“PHP 调用 jieba”的方案,本质都是绕路:要么启 Python 子进程(exec()),要么用 REST 接口转发,要么找 PHP 移植版(如 php-jieba)。这些方案在生产环境容易出问题——子进程超时、编码乱码、分词结果不稳定、部署多一层依赖。

真正轻量可控的做法是放弃 jieba,改用 PHP 原生可落地的方案:

  • mb_split() + 自定义停用词表做基础切词(适合简单场景,如标题关键词提取)
  • scws 扩展(C 实现,稳定、快、中文支持好,需服务器装扩展)
  • TF-IDF 计算完全可在 PHP 内完成,不需要外部模型

scws 提取关键词比自己写正则靠谱得多

scws 是专为中文设计的开源分词库,PHP 有官方扩展,分词准确率远高于 mb_split('/./u', $text) 这类暴力拆解。它内置词典、支持自定义词典和词性标注,还能过滤停用词。

实操要点:

立即学习PHP免费学习笔记(深入)”;

剪刀手
剪刀手

全自动AI剪辑神器:日剪千条AI原创视频,零非原创风险,批量高效制作引爆流量!免费体验,轻松上手!

下载
  • 安装扩展:pecl install scws,然后在 php.iniextension=scws.so
  • 初始化时指定词典路径(默认路径可能不存在,必须显式设置):$s = scws_new(); scws_set_dict($s, '/usr/local/scws/dict.utf8.xdb');
  • 关键词提取不是直接调 scws_get_tops() 就完事——它默认返回的是频次排序,不是 TF-IDF 排序;要加权,得自己算 IDF 或接简易语料库统计
  • 注意编码:输入文本必须是 UTF-8,否则 scws_send_text() 返回空

tfidf_calculate() 函数怎么写才不翻车

TF-IDF 不是魔法公式,它的效果高度依赖语料质量。PHP 里手写一个可用的版本,重点不在算法多精巧,而在避开三个坑:

  • 文档频率(DF)不能只看当前文本——必须基于一个合理规模的参考语料集(比如你网站近 1000 篇文章的词频统计),否则 idf = log(N/df) 中的 Ndf 全是拍脑袋
  • 不要对所有词都算 TF-IDF:先用 scws 分词 + 停用词过滤(如“的”“了”“和”),再剔除单字词(除非业务明确需要),最后保留名词、动词等有效词性(scws_get_result() 返回带 attr 字段)
  • TF 值建议用“词频 / 文本总词数”而非原始频次,避免长文本天然占优;IDF 建议加平滑:idf = log((N + 1) / (df + 1)) + 1,防止未登录词权重为 0

线上服务别用 exec('python -m jieba') 做关键词提取

这个写法看起来省事,但实际会卡住你三类问题:

  • 每次请求都 exec 启一个 Python 进程,QPS 上不去,50 并发就可能触发系统 fork 失败
  • Python 编码环境和 PHP 不一致:如果 PHP 用 mb_internal_encoding('UTF-8'),而 Python 脚本没设 sys.stdout.reconfigure(encoding='utf-8')(或老版本没这方法),输出就是乱码
  • 错误难捕获:exec() 的 stderr 默认丢弃,jieba 加载失败、词典路径错、内存溢出,全变成空数组,你根本不知道哪错了

真要跨语言,不如起一个轻量 HTTP 服务(比如用 Flask 包一层 jieba),PHP 用 file_get_contents()curl 调,至少超时、状态码、错误响应能看见。

关键词提取这事,越贴近数据源头(比如 CMS 发布时预计算),越稳定;越往后端推(比如用户访问时实时算),越容易暴露边界条件。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python Flask框架
Python Flask框架

本专题专注于 Python 轻量级 Web 框架 Flask 的学习与实战,内容涵盖路由与视图、模板渲染、表单处理、数据库集成、用户认证以及RESTful API 开发。通过博客系统、任务管理工具与微服务接口等项目实战,帮助学员掌握 Flask 在快速构建小型到中型 Web 应用中的核心技能。

97

2025.08.25

Python Flask Web框架与API开发
Python Flask Web框架与API开发

本专题系统介绍 Python Flask Web框架的基础与进阶应用,包括Flask路由、请求与响应、模板渲染、表单处理、安全性加固、数据库集成(SQLAlchemy)、以及使用Flask构建 RESTful API 服务。通过多个实战项目,帮助学习者掌握使用 Flask 开发高效、可扩展的 Web 应用与 API。

75

2025.12.15

curl_exec
curl_exec

curl_exec函数是PHP cURL函数列表中的一种,它的功能是执行一个cURL会话。给大家总结了一下php curl_exec函数的一些用法实例,这个函数应该在初始化一个cURL会话并且全部的选项都被设置后被调用。他的返回值成功时返回TRUE, 或者在失败时返回FALSE。

452

2023.06.14

linux常见下载安装工具
linux常见下载安装工具

linux常见下载安装工具有APT、YUM、DNF、Snapcraft、Flatpak、AppImage、Wget、Curl等。想了解更多linux常见下载安装工具相关内容,可以阅读本专题下面的文章。

182

2023.10.30

硬盘接口类型介绍
硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍:1、IDE接口是一种并行接口,主要用于连接硬盘和光驱等设备,它主要有两种类型:ATA和ATAPI,IDE接口已经逐渐被SATA接口;2、SATA接口是一种串行接口,相较于IDE接口,它具有更高的传输速度、更低的功耗和更小的体积;3、SCSI接口等等。

1585

2023.10.19

PHP接口编写教程
PHP接口编写教程

本专题整合了PHP接口编写教程,阅读专题下面的文章了解更多详细内容。

463

2025.10.17

php8.4实现接口限流的教程
php8.4实现接口限流的教程

PHP8.4本身不内置限流功能,需借助Redis(令牌桶)或Swoole(漏桶)实现;文件锁因I/O瓶颈、无跨机共享、秒级精度等缺陷不适用高并发场景。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2276

2025.12.29

java接口相关教程
java接口相关教程

本专题整合了java接口相关内容,阅读专题下面的文章了解更多详细内容。

40

2026.01.19

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

1030

2026.02.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PHP课程
PHP课程

共137课时 | 12.3万人学习

JavaScript ES5基础线上课程教学
JavaScript ES5基础线上课程教学

共6课时 | 11.3万人学习

PHP新手语法线上课程教学
PHP新手语法线上课程教学

共13课时 | 0.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号