0

0

C++如何进行文本的关键词提取?(TF-IDF简易实现)

尼克

尼克

发布时间:2026-03-03 14:55:03

|

593人浏览过

|

来源于php中文网

原创

tf-idf计算需确保idf分母为含该词的文档数而非总文档数,tf用词频除以文档总词数,idf用log(总文档数/含词文档数),未登录词idf设为log(总文档数+1);中文需先分词再过滤停用词,向量用float但防下溢,领域适配需构建专用停用词表并加权长度。

c++如何进行文本的关键词提取?(tf-idf简易实现)

TF-IDF 的核心计算逻辑怎么写才不翻车

直接用 std::map 统计词频没问题,但 IDF 部分最容易错在分母——不是文档总数,而是包含该词的文档数。漏掉这一步,所有权重都会偏高,关键词排序失真。

实操建议:

立即学习C++免费学习笔记(深入)”;

  • 先用 std::set<:string></:string> 记录每个文档中出现过的词(去重),再用 std::map<:string int></:string> 累加“含该词的文档数”
  • TF 用词频 / 文档总词数(非唯一词数),避免长文档天然占优
  • IDF 公式必须是 log(总文档数 / 含该词文档数),别用自然对数或底数 10 混用,保持一致性
  • 遇到未登录词(训练时没出现过的词),IDF 不能硬设为 0,应设为 log(总文档数 + 1) 防止除零和权重坍缩

中文文本预处理绕不开的三个坎

C++ 没有现成分词库,硬上 std::string::find 拆空格只会提取出“的”“了”“和”这种停用词,关键词全跑偏。

实操建议:

立即学习C++免费学习笔记(深入)”;

  • 至少做基础清洗:用 std::regex_replace 去除标点、数字、空白符,保留中文字符和英文字母([^\u4e00-\u9fa5a-zA-Z]
  • 停用词表必须外置为文件(如 "stopwords.txt"),逐行读入 std::unordered_set<:string></:string>,别硬编码
  • 单字过滤要谨慎——“云”“端”“智”单独看是停用词,合起来“云计算”就是关键,所以分词必须前置;实在没分词库,先用开源小模型(如 TinySeg)导出词表,C++ 只做匹配

vector 存 TF-IDF 向量时内存和精度怎么平衡

float 能省一半内存,但累加几十个文档的 TF-IDF 值后,小权重项可能下溢成 0,尤其 IDF 接近 0 的常见词。

Qwen
Qwen

阿里巴巴推出的一系列AI大语言模型和多模态模型

下载

实操建议:

立即学习C++免费学习笔记(深入)”;

  • 词向量维度建议限制在 5000 以内,按 IDF 降序截断,别把所有词都塞进去
  • 初始化向量用 std::vector<float>(vocab_size, 0.0f)</float>,别用 double 后强转,C++ 模板推导容易隐式转换出问题
  • 如果后续要算余弦相似度,提前把向量单位化(除以 L2 范数),避免每次重复开方;范数计算用 std::sqrt(std::accumulate(...)),别手写循环漏平方

为什么你的 top-k 关键词总是“用户”“系统”“功能”

不是算法错了,是没做词性过滤或领域适配。通用停用词表对技术文档完全不够用,“接口”“调用”“实例”在开发日志里是高频关键,但在新闻语料里就是噪音。

实操建议:

立即学习C++免费学习笔记(深入)”;

  • 构建领域停用词表:扫描一批目标文档,统计 TF * IDF 值最低的 200 个词,人工筛一遍加入 "domain_stopwords.txt"
  • 关键词长度加权:对长度 ≥ 3 的词,TF-IDF 值乘 1.2;单字词强制 × 0.5,抑制“的”“是”干扰
  • 输出前做局部归一化:取每个文档内 top-20 词的 TF-IDF 最大值,所有值除以它,再排序,能缓解文档长度差异导致的绝对值偏差

真正卡住效果的,往往不是公式实现,而是中文切分粒度和领域停用词的边界感——前者决定你能看到什么,后者决定你信什么。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

910

2023.08.02

css中float用法
css中float用法

css中float属性允许元素脱离文档流并沿其父元素边缘排列,用于创建并排列、对齐文本图像、浮动菜单边栏和重叠元素。想了解更多float的相关内容,可以阅读本专题下面的文章。

593

2024.04.28

C++中int、float和double的区别
C++中int、float和double的区别

本专题整合了c++中int和double的区别,阅读专题下面的文章了解更多详细内容。

105

2025.10.23

c++怎么把double转成int
c++怎么把double转成int

本专题整合了 c++ double相关教程,阅读专题下面的文章了解更多详细内容。

294

2025.08.29

C++中int、float和double的区别
C++中int、float和double的区别

本专题整合了c++中int和double的区别,阅读专题下面的文章了解更多详细内容。

105

2025.10.23

硬盘接口类型介绍
硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍:1、IDE接口是一种并行接口,主要用于连接硬盘和光驱等设备,它主要有两种类型:ATA和ATAPI,IDE接口已经逐渐被SATA接口;2、SATA接口是一种串行接口,相较于IDE接口,它具有更高的传输速度、更低的功耗和更小的体积;3、SCSI接口等等。

1770

2023.10.19

PHP接口编写教程
PHP接口编写教程

本专题整合了PHP接口编写教程,阅读专题下面的文章了解更多详细内容。

569

2025.10.17

php8.4实现接口限流的教程
php8.4实现接口限流的教程

PHP8.4本身不内置限流功能,需借助Redis(令牌桶)或Swoole(漏桶)实现;文件锁因I/O瓶颈、无跨机共享、秒级精度等缺陷不适用高并发场景。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2338

2025.12.29

Swift iOS架构设计与MVVM模式实战
Swift iOS架构设计与MVVM模式实战

本专题聚焦 Swift 在 iOS 应用架构设计中的实践,系统讲解 MVVM 模式的核心思想、数据绑定机制、模块拆分策略以及组件化开发方法。内容涵盖网络层封装、状态管理、依赖注入与性能优化技巧。通过完整项目案例,帮助开发者构建结构清晰、可维护性强的 iOS 应用架构体系。

0

2026.03.03

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
C# 教程
C# 教程

共94课时 | 10.5万人学习

C 教程
C 教程

共75课时 | 5.1万人学习

C++教程
C++教程

共115课时 | 20.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号