Python中的文本分类实例

PHPz

发布时间：2023-06-09 20:22:37

1882人浏览过

来源于php中文网

原创

python中的文本分类实例

随着人工智能和自然语言处理技术的发展，文本分类成为了应用广泛的技术之一，它可以在自然语言处理任务中发挥重要作用。Python作为一种流行的编程语言，其强大的自然语言处理库和机器学习库，如NLTK、Scikit-learn和Tensorflow等，使得文本分类在Python中变得非常容易实现。

本文将介绍Python文本分类的实例，并通过实例演示如何使用Python进行文本分类。

数据收集与预处理

在进行文本分类之前，需要收集、清洗和预处理数据。这里我们将使用一个情感分析任务的数据集作为实例。该数据集包含两个类别的电影评论，分别代表正面和负面情感。数据集来源于电影评论网站IMDb，可以在 http://ai.stanford.edu/~amaas/data/sentiment/ 中下载。

数据集中的每个评论都是一个文本文件，其中的标签为文件名中的pos或neg。我们可以使用Python的os库来读取文件，然后将文本和标签存入一个Pandas的DataFrame中，方便后续的处理。

立即学习“Python免费学习笔记（深入）”；

import os
import pandas as pd

# 读取文件
def read_data(folder):
    files = os.listdir(folder)
    data = {'text': [], 'sentiment': []}
    for file in files:
        with open(os.path.join(folder, file), 'r') as f:
            data['text'].append(f.read())
            data['sentiment'].append(file.split('.')[0])
    return pd.DataFrame.from_dict(data)

# 读取数据集
train_folder = 'aclImdb/train'
test_folder = 'aclImdb/test'
train_data = read_data(train_folder)
test_data = read_data(test_folder)

然后，我们可以使用Pandas的groupby方法，统计数据集中文本长度和情感标签的占比。

# 统计文本长度
train_data['text_len'] = train_data['text'].apply(len)
test_data['text_len'] = test_data['text'].apply(len)

# 统计情感标签比例
train_sentiment_pct = train_data.groupby('sentiment').size() / len(train_data)
test_sentiment_pct = test_data.groupby('sentiment').size() / len(test_data)
print('Train Sentiment Distribution: 
{}
'.format(train_sentiment_pct))
print('Test Sentiment Distribution: 
{}
'.format(test_sentiment_pct))

运行以上代码，我们可以看到数据集中正面和负面评论的数量大致相同，情感标签分布均匀。

特征提取

在进行文本分类之前，需要将文本转换为计算机可以理解的形式。这里我们将使用词袋模型来进行特征提取。

2088shop商城购物系统

2088shop商城购物系统是商城系统中功能最全的一个版本：非会员购物、商品无限级分类、不限商品数量、商品多级会员定价、上货库存、Word在线编辑器、订单详情销售报表、商品评论、留言簿、管理员多级别、VIP积分、会员注册积分奖励、智能新闻发布、滚动公告、投票调查、背景图片颜色更换、店标上传、版权联系方式修改、背景音乐（好歌不断）、广告图片支持Flash、弹出浮动广告、搜索引擎关健词优化、图文友情联

下载

词袋模型是基于一个假设：文本中的每个词的重要性都是相等的，因此将文本中所有的单词都提取出来，形成一个词汇表（vocabulary），然后将每个文本表示为一个向量，向量的每个元素代表该词在该文本中出现的次数。

在Scikit-learn中，可以使用CountVectorizer来进行特征提取。

from sklearn.feature_extraction.text import CountVectorizer

# 创建CountVectorizer对象
vectorizer = CountVectorizer(stop_words='english')

# 将文本转换为向量
train_features = vectorizer.fit_transform(train_data['text'])
test_features = vectorizer.transform(test_data['text'])

# 打印特征维度
print('Train Feature Dimension: {}'.format(train_features.shape))
print('Test  Feature Dimension: {}'.format(test_features.shape))

以上代码将文本转换为了向量，每个文本都是一个维度为词汇表大小的稀疏向量。可以看到，该数据集中共有25万个特征，维度非常高。

模型训练和评估

使用Scikit-learn中的多个分类器进行训练和评估。这里我们将使用逻辑回归分类器、朴素贝叶斯分类器、支持向量机分类器和随机森林分类器，看看哪个分类器性能最好。

from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import MultinomialNB
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import f1_score, accuracy_score

# 训练和评估函数
def train_and_evalute(classifier, train_features, train_labels, test_features, test_labels):
    # 训练分类器
    classifier.fit(train_features, train_labels)

    # 在训练集和测试集上计算F1分数和准确率
    train_predictions = classifier.predict(train_features)
    test_predictions = classifier.predict(test_features)
    train_f1 = f1_score(train_labels, train_predictions, pos_label='pos')
    test_f1 = f1_score(test_labels, test_predictions, pos_label='pos')
    train_accuracy = accuracy_score(train_labels, train_predictions)
    test_accuracy = accuracy_score(test_labels, test_predictions)

    # 打印评估结果
    print('Train F1 Score: {0:.3f}'.format(train_f1))
    print('Test  F1 Score: {0:.3f}'.format(test_f1))
    print('Train Accuracy: {0:.3f}'.format(train_accuracy))
    print('Test  Accuracy: {0:.3f}'.format(test_accuracy))

# 训练和评估各个分类器
classifiers = [
    ('Logistic Regression', LogisticRegression(max_iter=1000)),
    ('Multinomial Naive Bayes', MultinomialNB()),
    ('Support Vector Machine', SVC(kernel='linear')),
    ('Random Forest', RandomForestClassifier(n_estimators=100))
]
for classifier_name, classifier in classifiers:
    print('
{}'.format(classifier_name))
    train_and_evalute(classifier, train_features, train_data['sentiment'], test_features, test_data['sentiment'])

以上代码使用了训练集和测试集对各个分类器进行了评估。我们可以看到，朴素贝叶斯分类器在训练集和测试集上表现都非常好，达到了0.87的F1分数和0.85的准确率。其他分类器的性能略逊一筹，但也都表现良好。

结论

本文介绍了Python文本分类的实例，包括数据收集与预处理、特征提取和模型训练和评估。通过实例，我们学习了如何使用Python进行文本分类，并且了解了基于逻辑回归、朴素贝叶斯、支持向量机和随机森林的文本分类算法。

在真实情况下，我们可能需要对文本数据进行更加深入的处理和分析，例如去除停用词、 stemming、词向量表示等，以提高文本分类的性能。同时，也可以尝试使用深度学习模型，例如卷积神经网络（CNN）和循环神经网络（RNN），来进行文本分类。

Python日志模块logging详解_日志级别配置

Python进程信号处理_signal模块实践

Python序列化对象方式_pickle与json对比

Python函数递归深度限制_递归调用风险说明

Python带参数装饰器如何实现_嵌套函数分析

python速学教程(入门到精通)

python怎么学习？python怎么入门？python在哪学？python怎么学才快？不用担心，这里为大家提供了python速学教程(入门到精通)，有需要的小伙伴保存下载就能学习啦！

下载

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章，大家可以免费体验。

487

2023.08.14

Python AI机器学习PyTorch教程_Python怎么用PyTorch和TensorFlow做机器学习

PyTorch 是一种用于构建深度学习模型的功能完备框架，是一种通常用于图像识别和语言处理等应用程序的机器学习。使用Python 编写，因此对于大多数机器学习开发者而言，学习和使用起来相对简单。 PyTorch 的独特之处在于，它完全支持GPU，并且使用反向模式自动微分技术，因此可以动态修改计算图形。

2025.12.22

Python 深度学习框架与TensorFlow入门

本专题深入讲解 Python 在深度学习与人工智能领域的应用，包括使用 TensorFlow 搭建神经网络模型、卷积神经网络（CNN）、循环神经网络（RNN）、数据预处理、模型优化与训练技巧。通过实战项目（如图像识别与文本生成），帮助学习者掌握如何使用 TensorFlow 开发高效的深度学习模型，并将其应用于实际的 AI 问题中。

170

2026.01.07

TensorFlow2深度学习模型实战与优化

本专题面向 AI 与数据科学开发者，系统讲解 TensorFlow 2 框架下深度学习模型的构建、训练、调优与部署。内容包括神经网络基础、卷积神经网络、循环神经网络、优化算法及模型性能提升技巧。通过实战项目演示，帮助开发者掌握从模型设计到上线的完整流程。

2026.02.10

http500解决方法

http500解决方法有检查服务器日志、检查代码错误、检查服务器配置、检查文件和目录权限、检查资源不足、更新软件版本、重启服务器或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

489

2023.11.09

http请求415错误怎么解决

解决方法：1、检查请求头中的Content-Type；2、检查请求体中的数据格式；3、使用适当的编码格式；4、使用适当的请求方法；5、检查服务器端的支持情况。更多http请求415错误怎么解决的相关内容，可以阅读下面的文章。

448

2023.11.14

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

热门下载

网站特效

网站源码

网站素材

前端模板