理解并正确使用 TfidfVectorizer 计算 TF-IDF 值

DDD

发布时间：2025-07-22 16:42:10

382人浏览过

来源于php中文网

原创

理解并正确使用 tfidfvectorizer 计算 tf-idf 值

本文旨在帮助读者理解 TfidfVectorizer 在 scikit-learn 中计算 TF-IDF 值的原理，特别是关于 IDF 的计算方式，以及如何通过调整 smooth_idf 参数来影响计算结果。同时，澄清了 TF 的计算方式，避免混淆。通过本文，读者可以更准确地使用 TfidfVectorizer 进行文本特征提取。

TfidfVectorizer 是 scikit-learn 库中一个强大的文本特征提取工具，它将文本数据转换为数值型特征，以便机器学习模型能够处理。TF-IDF (Term Frequency-Inverse Document Frequency) 是一种常用的文本特征权重计算方法，它结合了词频 (TF) 和逆文档频率 (IDF) 来衡量一个词在文档集中的重要性。理解 TfidfVectorizer 的内部计算过程对于有效地使用它至关重要。

IDF 的计算

在 TfidfVectorizer 中，IDF 的计算公式默认包含一个平滑项 smooth_idf。默认情况下，smooth_idf 设置为 True，这会对 IDF 的计算产生影响。

当 smooth_idf = True 时：

IDF 的计算公式为：

AI改图神器

AI万能图片编辑器，一键抠图，去水印，智能图片美化，照片转漫画，照片变活转视频，图片无损放大，一键背景虚化，位图智能转矢量图

下载

IDF(t) = ln((1 + n) / (1 + df(t))) + 1

其中：

n 是文档总数。
df(t) 是包含词语 t 的文档数量。
ln 是自然对数。

smooth_idf 的作用是防止在计算 IDF 时出现除以零的情况，并平滑 IDF 值，使得罕见词语的 IDF 值不会过高。

当 smooth_idf = False 时：

IDF 的计算公式为：

IDF(t) = ln(n / df(t)) + 1

可以看到，当 smooth_idf 为 False 时，公式中分子和分母都不加 1。

示例：

假设我们有以下三个文档：

data = ['Souvenir shop|Architecture and art|Culture and history',
        'Souvenir shop|Resort|Diverse cuisine|Fishing|Shop games|Beautiful scenery',
        'Diverse cuisine|Resort|Beautiful scenery']

要使用 TfidfVectorizer 计算这些文档的 TF-IDF 值，可以执行以下操作：

from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np

data = ['Souvenir shop|Architecture and art|Culture and history',
        'Souvenir shop|Resort|Diverse cuisine|Fishing|Shop games|Beautiful scenery',
        'Diverse cuisine|Resort|Beautiful scenery']

vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(data)

# 获取词汇表
feature_names = vectorizer.get_feature_names_out()

# 获取 IDF 值
idf_values = vectorizer.idf_

# 将词汇和 IDF 值对应起来
word_idf = dict(zip(feature_names, idf_values))

# 打印 "art" 的 IDF 值
print(f"IDF of 'art': {word_idf['art']}")

# 关闭 smooth_idf 再次计算
vectorizer = TfidfVectorizer(smooth_idf=False)
tfidf_matrix = vectorizer.fit_transform(data)
idf_values = vectorizer.idf_
feature_names = vectorizer.get_feature_names_out()
word_idf = dict(zip(feature_names, idf_values))
print(f"IDF of 'art' (smooth_idf=False): {word_idf['art']}")

在这个例子中，文档总数 n 为 3。词语 "art" 只出现在第一个文档中，因此 df("art") 为 1。

当 smooth_idf=True (默认) 时， art 的 IDF 值为 ln((3 + 1) / (1 + 1)) + 1 = ln(2) + 1 ≈ 1.6931
当 smooth_idf=False 时， art 的 IDF 值为 ln(3 / 1) + 1 = ln(3) + 1 ≈ 2.0986

TF 的计算

TF (Term Frequency) 表示词语在文档中出现的频率。在 TfidfVectorizer 中，TF 只是词语在文档中出现的次数，没有进行文档长度的归一化。归一化步骤发生在乘以 IDF 之后。

例如，在文档 "Souvenir shop|Architecture and art|Culture and history" 中，词语 "art" 出现了一次，所以 TF("art") = 1。

TF-IDF 的计算流程总结

词频 (TF) 计算： 统计每个词语在每个文档中出现的次数。
逆文档频率 (IDF) 计算： 根据文档总数和包含词语的文档数，计算每个词语的 IDF 值。可以使用 smooth_idf 参数来控制是否进行平滑处理。
TF-IDF 计算： 将 TF 和 IDF 相乘，得到每个词语在每个文档中的 TF-IDF 值。
归一化 (Normalization): TfidfVectorizer 默认会对每个文档的 TF-IDF 向量进行 L2 归一化，确保每个向量的欧几里得范数为 1。可以通过设置 norm 参数来控制是否进行归一化。

注意事项

TfidfVectorizer 默认会对文本进行预处理，例如转换为小写、去除停用词等。可以通过调整 lowercase、stop_words 等参数来控制预处理过程。
理解 TfidfVectorizer 的参数对于获得最佳的特征提取效果至关重要。仔细阅读 scikit-learn 的官方文档，了解每个参数的作用和用法。

总结

TfidfVectorizer 是一个功能强大的文本特征提取工具，通过理解其内部的 TF-IDF 计算过程，可以更好地利用它来构建有效的机器学习模型。特别是需要注意 smooth_idf 参数对 IDF 计算的影响，以及 TF 的计算方式。通过合理地调整参数，可以获得更符合实际需求的文本特征表示。

Python Web开发用哪个框架_Django/Flask/FastAPI优缺点对比

Python无根权限怎么装库_使用--user参数安装到用户目录

PySpark 与 SQLAlchemy 在大数据场景下的选型指南

Python怎么备份文件_shutil.make_archive快速打包备份整个目录

Python poetry怎么用_Poetry依赖管理工具安装与初始化

相关专题

Nginx跨平台安装实操指南：Windows、macOS与Linux环境快速搭建

本指南详解Nginx在Windows、macOS及Linux系统的安装全流程。涵盖官方包解压、Homebrew一键部署、APT/YUM源配置及Docker容器化方案。无论新手或开发者，均可快速搭建运行环境，掌握跨平台核心指令，为后续配置与调优奠定坚实基础。

2026.03.16

chatgpt使用指南

本专题整合了chatgpt使用教程、新手使用说明等等相关内容，阅读专题下面的文章了解更多详细内容。

2026.03.16

chatgpt官网入口地址合集

本专题整合了chatgpt官网入口地址、使用教程等内容，阅读专题下面的文章了解更多详细内容。

2026.03.16

minimax入口地址汇总

本专题整合了minimax相关入口合集，阅读专题下面的文章了解更多详细地址。

2026.03.16

C++多线程并发控制与线程安全设计实践

本专题围绕 C++ 在高性能系统开发中的并发控制技术展开，系统讲解多线程编程模型与线程安全设计方法。内容包括互斥锁、读写锁、条件变量、原子操作以及线程池实现机制，同时结合实际案例分析并发竞争、死锁避免与性能优化策略。通过实践讲解，帮助开发者掌握构建稳定高效并发系统的关键技术。

2026.03.16

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

116

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

142

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

412

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

热门下载

网站特效

网站源码

网站素材

前端模板