0

0

SCWS演示站中文本自动分类是如何实现的

PHP中文网

PHP中文网

发布时间:2016-06-06 20:47:29

|

1349人浏览过

|

来源于php中文网

原创

这是网址,我尝试了一些文本的输入,匹配的准确度挺高的,它实现的原理是什么?是否是检索已有的数据库来匹配文本?我在网上查了很久也没找到关于这方面的资料,哪里能有参考资料下载?


解决思路:

SCWS 是个 PHP 代码的分词库。这个自动分类没有开源,不知道它具体是怎么做的。

可能的思路是:

SCWS给文本分词,分词之后,进行分析。(也许需要去一点噪音,比如“的”、“了”之类。)

最简单粗暴的方法,维护一个分类的字典,某一分类下有一堆词,如果这堆词中的任何一个在文本中出现了,就加1分,然后统计每个分类所得的分数,最后计算出所属分类。

如果嫌上面的太简单粗暴,那么我们可以改进:

细化一些规则。比如,分类的字典里,某一分类下的词中,一部分词比另一部分词和这个分类联系更紧密,把这个权重算进去。文章开头和结尾出现的词,权重更大,强调结构中的词权重更大,等等。再比如,如果我们有把握某一分类下的文本不太可能出现某些词,那么一旦文本中出现了这些词,这个文本属于那一类的概率要给它调低。

简单来说,就是分词把文本变成词集,然后再按照制定的规则进行分析。

然后规则不一定要我们一条一条地写出来,可以让机器自动去“发现”。这就是统计分析。一般而言我们先有一堆分好类的文本作标准,然后,用机器去分析这些分好类的范本,来挖掘词与类的联系。然后机器将学习所得应用到新的词集上,计算出所属的类。

整个过程可以反复进行,就是说如果我们感觉计算结果不精确,可以调整参数什么的,如果感觉精确,可以把结果加到范本里。范本越多,机器的判断一般就会更准确。

HMCSS通用企业网站系统1.0
HMCSS通用企业网站系统1.0

HMCSS是由河马工作室全新开发的通用的企业网站系统,是PHP+MYSQL的架构,采用DIV+CSS的方式进行网页布局,网站的功能包括有:企业简介,图片展示幻灯,产品图片滚动,企业荣誉,实力展示,产品分类及展示,网上招聘,在线留言,联系我们,在线地图等内容,另外还带有完整的管理后台,如网站SEO优化关键词等都可以自由设定。 HMCSS目前发布的是1.0版本,就是上述的这些内容。后面我们还要加上产品

下载

上面提到“挖掘词与类的联系”,这实际包含两方面,首先我们要找出和分类关系最紧密的那些词,或者说,最能区分自身所属的类别的那些词——也就是特征。

上面已经提到,出现频率高的词更可能区分文章。按照这个思路去计算,就是一个算法。如果我们考虑到,在所有类型的文本中出现频率较高的词,不太可能区分文章(例如“的”,到处都是高频,没什么用)。那么,我们就要找那些在本文中频率高,而在所有文本中频率不高的词。这个提取特征的算法就叫作“TF-IDF(term frequency–inverse document frequency)”。

除此之外,还有IG、MI、CHI等算法。上面我们提到“如果我们有把握某一分类下的文本不太可能出现某些词”,类似这样的想法就是这三个算法背后的直觉。IG(Information Gain)统计某个类别的文本中一个词出现和不出现的概率。MI(Mutual Information)考虑的是,如果两个词同时出现,或者一个词出现,另一个不出现,更可能是某一类。(比如,“机器”和“编程”同时出现,那么更可能是编程类,“机器”和“机床”同时出现,加上“编程”、“软件”等词没有出现,那就不太可能是编程类。)在MI的基础上,再加上如果出现了“种马”的就不太可能属于女性向YY小说类的设定,就是CHI(卡方检定——这个名字来源于卡方分布)。

好了,上面的方法各异,有的方法看上去更完善一点,但是性能可能差一点,还有,完善的方法需要参数找准才行,如果参数不对,可能还拼不过简单的方法。然后,上面的方法都没有考虑词出现的位置,还有改进的空间。例如我们前面说开始、结尾、强调结构等处的词权重要大,这个因素也可以加进去计算,这里不深入。

不管用哪种方法,假定我们已经提取好了特征,接着就要比较相似度了,最简单的思路,寻找最接近待分类文本的n个样本,然后根据这n个样本的分类,加权每个样本的相似度,就可以计算出最接近哪一类。这个思路,就是KNN(K近邻)算法。

还有NB(Naïve Bayes)算法,基于贝叶斯公式的算法。以及遗传算法。因为贝叶斯公式和遗传算法太出名,这里就不介绍了。(貌似科学松鼠会就有科普文章。)

以上都是一些原理的皮毛。深入的话,请找机器学习或者数据挖掘类的书来读。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

286

2026.02.13

微博网页版主页入口与登录指南_官方网页端快速访问方法
微博网页版主页入口与登录指南_官方网页端快速访问方法

本专题系统整理微博网页版官方入口及网页端登录方式,涵盖首页直达地址、账号登录流程与常见访问问题说明,帮助用户快速找到微博官网主页,实现便捷、安全的网页端登录与内容浏览体验。

126

2026.02.13

Flutter跨平台开发与状态管理实战
Flutter跨平台开发与状态管理实战

本专题围绕Flutter框架展开,系统讲解跨平台UI构建原理与状态管理方案。内容涵盖Widget生命周期、路由管理、Provider与Bloc状态管理模式、网络请求封装及性能优化技巧。通过实战项目演示,帮助开发者构建流畅、可维护的跨平台移动应用。

42

2026.02.13

TypeScript工程化开发与Vite构建优化实践
TypeScript工程化开发与Vite构建优化实践

本专题面向前端开发者,深入讲解 TypeScript 类型系统与大型项目结构设计方法,并结合 Vite 构建工具优化前端工程化流程。内容包括模块化设计、类型声明管理、代码分割、热更新原理以及构建性能调优。通过完整项目示例,帮助开发者提升代码可维护性与开发效率。

19

2026.02.13

Redis高可用架构与分布式缓存实战
Redis高可用架构与分布式缓存实战

本专题围绕 Redis 在高并发系统中的应用展开,系统讲解主从复制、哨兵机制、Cluster 集群模式及数据分片原理。内容涵盖缓存穿透与雪崩解决方案、分布式锁实现、热点数据优化及持久化策略。通过真实业务场景演示,帮助开发者构建高可用、可扩展的分布式缓存系统。

23

2026.02.13

c语言 数据类型
c语言 数据类型

本专题整合了c语言数据类型相关内容,阅读专题下面的文章了解更多详细内容。

29

2026.02.12

雨课堂网页版登录入口与使用指南_官方在线教学平台访问方法
雨课堂网页版登录入口与使用指南_官方在线教学平台访问方法

本专题系统整理雨课堂网页版官方入口及在线登录方式,涵盖账号登录流程、官方直连入口及平台访问方法说明,帮助师生用户快速进入雨课堂在线教学平台,实现便捷、高效的课程学习与教学管理体验。

14

2026.02.12

豆包AI网页版入口与智能创作指南_官方在线写作与图片生成使用方法
豆包AI网页版入口与智能创作指南_官方在线写作与图片生成使用方法

本专题汇总豆包AI官方网页版入口及在线使用方式,涵盖智能写作工具、图片生成体验入口和官网登录方法,帮助用户快速直达豆包AI平台,高效完成文本创作与AI生图任务,实现便捷智能创作体验。

421

2026.02.12

PostgreSQL性能优化与索引调优实战
PostgreSQL性能优化与索引调优实战

本专题面向后端开发与数据库工程师,深入讲解 PostgreSQL 查询优化原理与索引机制。内容包括执行计划分析、常见索引类型对比、慢查询优化策略、事务隔离级别以及高并发场景下的性能调优技巧。通过实战案例解析,帮助开发者提升数据库响应速度与系统稳定性。

51

2026.02.12

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PHP课程
PHP课程

共137课时 | 11.9万人学习

JavaScript ES5基础线上课程教学
JavaScript ES5基础线上课程教学

共6课时 | 11.2万人学习

PHP新手语法线上课程教学
PHP新手语法线上课程教学

共13课时 | 0.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号