0

0

理解并正确使用 TfidfVectorizer 计算 TF-IDF 值

DDD

DDD

发布时间:2025-07-22 16:42:10

|

382人浏览过

|

来源于php中文网

原创

理解并正确使用 tfidfvectorizer 计算 tf-idf 值

本文旨在帮助读者理解 TfidfVectorizer 在 scikit-learn 中计算 TF-IDF 值的原理,特别是关于 IDF 的计算方式,以及如何通过调整 smooth_idf 参数来影响计算结果。同时,澄清了 TF 的计算方式,避免混淆。通过本文,读者可以更准确地使用 TfidfVectorizer 进行文本特征提取。

TfidfVectorizer 是 scikit-learn 库中一个强大的文本特征提取工具,它将文本数据转换为数值型特征,以便机器学习模型能够处理。TF-IDF (Term Frequency-Inverse Document Frequency) 是一种常用的文本特征权重计算方法,它结合了词频 (TF) 和逆文档频率 (IDF) 来衡量一个词在文档集中的重要性。理解 TfidfVectorizer 的内部计算过程对于有效地使用它至关重要。

IDF 的计算

在 TfidfVectorizer 中,IDF 的计算公式默认包含一个平滑项 smooth_idf。 默认情况下,smooth_idf 设置为 True,这会对 IDF 的计算产生影响。

当 smooth_idf = True 时:

IDF 的计算公式为:

故事AI绘图神器
故事AI绘图神器

文本生成图文视频的AI工具,无需配音,无需剪辑,快速成片,角色固定。

下载
IDF(t) = ln((1 + n) / (1 + df(t))) + 1

其中:

  • n 是文档总数。
  • df(t) 是包含词语 t 的文档数量。
  • ln 是自然对数。

smooth_idf 的作用是防止在计算 IDF 时出现除以零的情况,并平滑 IDF 值,使得罕见词语的 IDF 值不会过高。

当 smooth_idf = False 时:

IDF 的计算公式为:

IDF(t) = ln(n / df(t)) + 1

可以看到,当 smooth_idf 为 False 时,公式中分子和分母都不加 1。

示例:

假设我们有以下三个文档:

data = ['Souvenir shop|Architecture and art|Culture and history',
        'Souvenir shop|Resort|Diverse cuisine|Fishing|Shop games|Beautiful scenery',
        'Diverse cuisine|Resort|Beautiful scenery']

要使用 TfidfVectorizer 计算这些文档的 TF-IDF 值,可以执行以下操作:

from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np

data = ['Souvenir shop|Architecture and art|Culture and history',
        'Souvenir shop|Resort|Diverse cuisine|Fishing|Shop games|Beautiful scenery',
        'Diverse cuisine|Resort|Beautiful scenery']

vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(data)

# 获取词汇表
feature_names = vectorizer.get_feature_names_out()

# 获取 IDF 值
idf_values = vectorizer.idf_

# 将词汇和 IDF 值对应起来
word_idf = dict(zip(feature_names, idf_values))

# 打印 "art" 的 IDF 值
print(f"IDF of 'art': {word_idf['art']}")

# 关闭 smooth_idf 再次计算
vectorizer = TfidfVectorizer(smooth_idf=False)
tfidf_matrix = vectorizer.fit_transform(data)
idf_values = vectorizer.idf_
feature_names = vectorizer.get_feature_names_out()
word_idf = dict(zip(feature_names, idf_values))
print(f"IDF of 'art' (smooth_idf=False): {word_idf['art']}")

在这个例子中,文档总数 n 为 3。 词语 "art" 只出现在第一个文档中,因此 df("art") 为 1。

  • 当 smooth_idf=True (默认) 时, art 的 IDF 值为 ln((3 + 1) / (1 + 1)) + 1 = ln(2) + 1 ≈ 1.6931
  • 当 smooth_idf=False 时, art 的 IDF 值为 ln(3 / 1) + 1 = ln(3) + 1 ≈ 2.0986

TF 的计算

TF (Term Frequency) 表示词语在文档中出现的频率。 在 TfidfVectorizer 中,TF 只是词语在文档中出现的次数,没有进行文档长度的归一化。 归一化步骤发生在乘以 IDF 之后。

例如,在文档 "Souvenir shop|Architecture and art|Culture and history" 中,词语 "art" 出现了一次,所以 TF("art") = 1。

TF-IDF 的计算流程总结

  1. 词频 (TF) 计算: 统计每个词语在每个文档中出现的次数。
  2. 逆文档频率 (IDF) 计算: 根据文档总数和包含词语的文档数,计算每个词语的 IDF 值。 可以使用 smooth_idf 参数来控制是否进行平滑处理。
  3. TF-IDF 计算: 将 TF 和 IDF 相乘,得到每个词语在每个文档中的 TF-IDF 值。
  4. 归一化 (Normalization): TfidfVectorizer 默认会对每个文档的 TF-IDF 向量进行 L2 归一化,确保每个向量的欧几里得范数为 1。 可以通过设置 norm 参数来控制是否进行归一化。

注意事项

  • TfidfVectorizer 默认会对文本进行预处理,例如转换为小写、去除停用词等。 可以通过调整 lowercase、stop_words 等参数来控制预处理过程。
  • 理解 TfidfVectorizer 的参数对于获得最佳的特征提取效果至关重要。 仔细阅读 scikit-learn 的官方文档,了解每个参数的作用和用法。

总结

TfidfVectorizer 是一个功能强大的文本特征提取工具,通过理解其内部的 TF-IDF 计算过程,可以更好地利用它来构建有效的机器学习模型。 特别是需要注意 smooth_idf 参数对 IDF 计算的影响,以及 TF 的计算方式。通过合理地调整参数,可以获得更符合实际需求的文本特征表示。

相关专题

更多
云朵浏览器入口合集
云朵浏览器入口合集

本专题整合了云朵浏览器入口合集,阅读专题下面的文章了解更多详细地址。

0

2026.01.20

Java JVM 原理与性能调优实战
Java JVM 原理与性能调优实战

本专题系统讲解 Java 虚拟机(JVM)的核心工作原理与性能调优方法,包括 JVM 内存结构、对象创建与回收流程、垃圾回收器(Serial、CMS、G1、ZGC)对比分析、常见内存泄漏与性能瓶颈排查,以及 JVM 参数调优与监控工具(jstat、jmap、jvisualvm)的实战使用。通过真实案例,帮助学习者掌握 Java 应用在生产环境中的性能分析与优化能力。

20

2026.01.20

PS使用蒙版相关教程
PS使用蒙版相关教程

本专题整合了ps使用蒙版相关教程,阅读专题下面的文章了解更多详细内容。

62

2026.01.19

java用途介绍
java用途介绍

本专题整合了java用途功能相关介绍,阅读专题下面的文章了解更多详细内容。

87

2026.01.19

java输出数组相关教程
java输出数组相关教程

本专题整合了java输出数组相关教程,阅读专题下面的文章了解更多详细内容。

39

2026.01.19

java接口相关教程
java接口相关教程

本专题整合了java接口相关内容,阅读专题下面的文章了解更多详细内容。

10

2026.01.19

xml格式相关教程
xml格式相关教程

本专题整合了xml格式相关教程汇总,阅读专题下面的文章了解更多详细内容。

13

2026.01.19

PHP WebSocket 实时通信开发
PHP WebSocket 实时通信开发

本专题系统讲解 PHP 在实时通信与长连接场景中的应用实践,涵盖 WebSocket 协议原理、服务端连接管理、消息推送机制、心跳检测、断线重连以及与前端的实时交互实现。通过聊天系统、实时通知等案例,帮助开发者掌握 使用 PHP 构建实时通信与推送服务的完整开发流程,适用于即时消息与高互动性应用场景。

19

2026.01.19

微信聊天记录删除恢复导出教程汇总
微信聊天记录删除恢复导出教程汇总

本专题整合了微信聊天记录相关教程大全,阅读专题下面的文章了解更多详细内容。

160

2026.01.18

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
React 教程
React 教程

共58课时 | 3.9万人学习

Pandas 教程
Pandas 教程

共15课时 | 0.9万人学习

ASP 教程
ASP 教程

共34课时 | 3.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号