0

0

TF-IDF 详解:使用 TfidfVectorizer 计算词频-逆文档频率

DDD

DDD

发布时间:2025-07-22 16:48:01

|

1075人浏览过

|

来源于php中文网

原创

tf-idf 详解:使用 tfidfvectorizer 计算词频-逆文档频率

本文深入解析了 TfidfVectorizer 在计算 TF-IDF 值时的细节,重点解释了 IDF 的计算公式,包括 smooth_idf 参数的影响。同时,澄清了 TF 值的计算方式,强调了归一化步骤在 IDF 计算之后。通过本文,读者可以更准确地理解和使用 TfidfVectorizer 进行文本特征提取。

TF-IDF (Term Frequency-Inverse Document Frequency) 是一种常用的文本特征提取方法,用于评估一个词语对于一个文件集或一个语料库中的其中一份文件的重要程度。scikit-learn 库中的 TfidfVectorizer 提供了便捷的 TF-IDF 计算功能。理解 TfidfVectorizer 的计算细节对于正确使用它至关重要。本文将深入探讨 TfidfVectorizer 如何计算 TF-IDF 值,并解释一些常见的疑惑。

IDF 的计算

TfidfVectorizer 计算 IDF (Inverse Document Frequency) 的公式略有不同于简单的 log(总文档数 / 包含该词的文档数)。默认情况下,TfidfVectorizer 启用了 smooth_idf 参数,这会对 IDF 的计算产生影响。

当 smooth_idf=True 时,IDF 的计算公式如下:

IDF(t) = ln((1 + n) / (1 + df(t))) + 1

其中:

  • n 是文档总数。
  • df(t) 是包含词语 t 的文档数。

smooth_idf 的作用是平滑 IDF 值,防止出现 IDF 为零的情况,从而避免某些词语被完全忽略。 如果 smooth_idf=False,则计算公式为:

IDF(t) = ln(n / df(t)) + 1

以下是一个示例,说明 smooth_idf 的影响:

假设我们有 3 个文档,词语 "art" 只出现在 1 个文档中。

Simplified
Simplified

AI写作、平面设计、编辑视频和发布内容。专为团队打造。

下载
  • 当 smooth_idf=True 时:IDF("art") = ln((3 + 1) / (1 + 1)) + 1 = ln(2) + 1 ≈ 1.6931
  • 当 smooth_idf=False 时:IDF("art") = ln(3 / 1) + 1 = ln(3) + 1 ≈ 2.0986

可以通过设置 TfidfVectorizer 的 smooth_idf 参数来控制是否启用平滑。

from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np

data = ['Souvenir shop|Architecture and art|Culture and history',
        'Souvenir shop|Resort|Diverse cuisine|Fishing|Shop games|Beautiful scenery',
        'Diverse cuisine|Resort|Beautiful scenery']

# smooth_idf=True
vectorizer = TfidfVectorizer(smooth_idf=True)
tfidf_matrix = vectorizer.fit_transform(data)
print(f"smooth_idf=True 的 IDF 值:{vectorizer.idf_}")

# smooth_idf=False
vectorizer = TfidfVectorizer(smooth_idf=False)
tfidf_matrix = vectorizer.fit_transform(data)
print(f"smooth_idf=False 的 IDF 值:{vectorizer.idf_}")

输出结果类似:

smooth_idf=True 的 IDF 值:[1.69314718 1.         1.         1.69314718 1.         2.09861229
 1.69314718 2.09861229 2.09861229 1.69314718 2.09861229 2.09861229
 1.69314718]
smooth_idf=False 的 IDF 值:[2.09861229 1.         1.         2.09861229 1.
 2.40546511 2.09861229 2.40546511 2.40546511 2.09861229 2.40546511
 2.40546511 2.09861229]

TF 的计算

TF (Term Frequency) 指的是词语在文档中出现的次数。TfidfVectorizer 默认情况下直接使用词频作为 TF 值,并不进行文档长度的归一化。归一化是在 TF-IDF 计算的后续步骤中进行的。

例如,如果文档 "art" 在文档 1 中出现 1 次,文档 1 总共有 8 个词,那么 "art" 的 TF 值就是 1,而不是 1/8。

TfidfVectorizer 中有一个 norm 参数,可以控制是否进行归一化。如果 norm='l2',则会对每个文档的 TF-IDF 向量进行 L2 归一化,使得每个向量的模长为 1。

from sklearn.feature_extraction.text import TfidfVectorizer

data = ['Souvenir shop|Architecture and art|Culture and history',
        'Souvenir shop|Resort|Diverse cuisine|Fishing|Shop games|Beautiful scenery',
        'Diverse cuisine|Resort|Beautiful scenery']

vectorizer = TfidfVectorizer(norm='l2')
tfidf_matrix = vectorizer.fit_transform(data)

print(tfidf_matrix.toarray())

注意事项和总结

  • smooth_idf 参数会影响 IDF 的计算,默认值为 True。
  • TfidfVectorizer 直接使用词频作为 TF 值,不进行文档长度的归一化。
  • norm 参数控制是否对 TF-IDF 向量进行归一化。

理解 TfidfVectorizer 的计算细节对于正确使用 TF-IDF 进行文本特征提取至关重要。通过调整 smooth_idf 和 norm 参数,可以根据具体任务的需求来优化 TF-IDF 的计算方式。 掌握这些细节可以帮助开发者更好地理解文本数据,并构建更有效的文本分析模型。

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
Java JVM 原理与性能调优实战
Java JVM 原理与性能调优实战

本专题系统讲解 Java 虚拟机(JVM)的核心工作原理与性能调优方法,包括 JVM 内存结构、对象创建与回收流程、垃圾回收器(Serial、CMS、G1、ZGC)对比分析、常见内存泄漏与性能瓶颈排查,以及 JVM 参数调优与监控工具(jstat、jmap、jvisualvm)的实战使用。通过真实案例,帮助学习者掌握 Java 应用在生产环境中的性能分析与优化能力。

3

2026.01.20

PS使用蒙版相关教程
PS使用蒙版相关教程

本专题整合了ps使用蒙版相关教程,阅读专题下面的文章了解更多详细内容。

55

2026.01.19

java用途介绍
java用途介绍

本专题整合了java用途功能相关介绍,阅读专题下面的文章了解更多详细内容。

67

2026.01.19

java输出数组相关教程
java输出数组相关教程

本专题整合了java输出数组相关教程,阅读专题下面的文章了解更多详细内容。

37

2026.01.19

java接口相关教程
java接口相关教程

本专题整合了java接口相关内容,阅读专题下面的文章了解更多详细内容。

10

2026.01.19

xml格式相关教程
xml格式相关教程

本专题整合了xml格式相关教程汇总,阅读专题下面的文章了解更多详细内容。

11

2026.01.19

PHP WebSocket 实时通信开发
PHP WebSocket 实时通信开发

本专题系统讲解 PHP 在实时通信与长连接场景中的应用实践,涵盖 WebSocket 协议原理、服务端连接管理、消息推送机制、心跳检测、断线重连以及与前端的实时交互实现。通过聊天系统、实时通知等案例,帮助开发者掌握 使用 PHP 构建实时通信与推送服务的完整开发流程,适用于即时消息与高互动性应用场景。

16

2026.01.19

微信聊天记录删除恢复导出教程汇总
微信聊天记录删除恢复导出教程汇总

本专题整合了微信聊天记录相关教程大全,阅读专题下面的文章了解更多详细内容。

152

2026.01.18

高德地图升级方法汇总
高德地图升级方法汇总

本专题整合了高德地图升级相关教程,阅读专题下面的文章了解更多详细内容。

139

2026.01.16

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号