0

0

Python怎样制作词云图?wordcloud库可视化技巧

蓮花仙者

蓮花仙者

发布时间:2025-08-16 17:28:01

|

1131人浏览过

|

来源于php中文网

原创

使用python制作词云图的核心是wordcloud库,配合matplotlib显示图像,jieba处理中文分词,numpy用于图像蒙版处理;2. 基础步骤包括安装库、准备文本、创建wordcloud对象并生成图像;3. 为提升表现力,可自定义colormap颜色方案、background_color背景色、font_path中文字体路径以避免乱码;4. 处理中文时必须使用jieba进行分词,否则会将单字视为独立词汇;5. 需设置font_path指向支持中文的字体文件(如simhei.ttf)以解决乱码问题;6. 可通过stopwords参数过滤“的”“是”等无意义高频词,提升词云信息质量。完整流程确保词云图既美观又能准确传达文本核心主题。

Python怎样制作词云图?wordcloud库可视化技巧

Python制作词云图,核心就是使用

wordcloud
库。它能把文本数据中出现频率高的词汇,以视觉化的方式突出显示出来,一眼就能看出文本的主题。操作起来不复杂,但要做出有意思、有深度的图,还得有点技巧和耐心,毕竟数据可视化不仅仅是把数据画出来,更重要的是传达信息。

解决方案

要用Python制作词云图,首先得把必要的库装上。我个人习惯用

pip
,简单直接:

pip install wordcloud matplotlib jieba numpy

wordcloud
是主角,
matplotlib
用来显示图片,
jieba
处理中文(这个很重要,后面会细说),
numpy
在处理图片蒙版时可能会用到。

立即学习Python免费学习笔记(深入)”;

一个最基础的词云图,代码大概是这样的:

from wordcloud import WordCloud
import matplotlib.pyplot as plt

# 随便一段文本,你可以换成你自己的文章、评论等等
text = """
Python 是一种高级编程语言,以其简洁明了的语法和强大的功能而闻名。
它在数据科学、人工智能、机器学习、Web 开发、自动化脚本等多个领域都有广泛应用。
学习 Python 制作词云图是数据可视化的一个有趣且直观的应用,
能帮助我们快速洞察文本数据中的高频词汇和主题。
WordCloud 库提供了丰富的参数来自定义词云图的样式,
比如颜色、字体、背景、形状等。
深入理解这些参数,能让你制作出更具表现力、更符合需求的词云图。
"""

# 创建一个WordCloud对象
# 这里可以加很多参数来控制词云图的样式,比如字体、背景色、宽度高度等
wordcloud = WordCloud(
    width=800,         # 图片宽度
    height=400,        # 图片高度
    background_color='white', # 背景颜色
    min_font_size=10,  # 最小字体大小
    max_font_size=100, # 最大字体大小
    # stopwords=STOPWORDS, # 停用词列表,这里先不加
    # font_path='path/to/your/font.ttf' # 中文字体路径,后面会讲
).generate(text)

# 使用matplotlib显示词云图
plt.figure(figsize=(10, 5)) # 设置图片大小
plt.imshow(wordcloud, interpolation='bilinear') # 显示词云图,interpolation让图片更平滑
plt.axis("off") # 不显示坐标轴
plt.show()

# 也可以把词云图保存到文件
# wordcloud.to_file("my_wordcloud.png")

这段代码执行后,你就能看到一个基于你提供文本的词云图了。文字越大,说明它在文本中出现的频率越高。

如何让词云图更具表现力?(颜色、字体与背景定制)

说实话,默认的词云图样式,看多了确实有点千篇一律。要让你的词云图脱颖而出,甚至能传递出某种情绪或品牌感,定制化是必不可少的。我个人在做项目时,尤其喜欢在颜色和字体上下功夫,因为它们最直观地影响观感。

  • 颜色方案(

    colormap
    wordcloud
    库集成了
    matplotlib
    的很多颜色映射方案。比如,如果你想让词云图看起来更科技感,可以试试
    "viridis"
    "plasma"
    ;如果想暖色调,
    "Oranges"
    "YlOrRd"
    不错。这比随机颜色高级多了。

    知识画家
    知识画家

    AI交互知识生成引擎,一句话生成知识视频、动画和应用

    下载
    from wordcloud import WordCloud
    import matplotlib.pyplot as plt
    
    text = "数据可视化 词云图 颜色搭配 字体选择 背景定制 表现力 艺术感 风格化 视觉冲击力"
    # 尝试不同的colormap
    wordcloud_colorful = WordCloud(
        width=800, height=400,
        background_color='white',
        colormap='viridis', # 尝试 'plasma', 'magma', 'cividis', 'Blues', 'Greens' 等
        max_words=100
    ).generate(text)
    
    plt.figure(figsize=(10, 5))
    plt.imshow(wordcloud_colorful, interpolation='bilinear')
    plt.axis("off")
    plt.title("使用viridis颜色方案")
    plt.show()
  • 背景颜色(

    background_color
    :这个简单,直接设置成你想要的颜色字符串就行,比如
    'black'
    'lightblue'
    。它决定了词云图的底色。

  • 字体选择(

    font_path
    :这是个大坑,特别是处理中文的时候。如果你的系统没有对应的中文字体,或者你没指定字体路径,中文词云图就会显示成一堆方块(乱码)。我通常会找一个好看的、支持中文的字体文件(比如
    SimHei.ttf
    msyh.ttc
    等),放到项目目录下或者指定其完整路径。

    # 假设你有一个中文字体文件,比如SimHei.ttf,放在当前目录
    # 如果没有,Windows系统可以在C:\Windows\Fonts下找,Mac在/Library/Fonts或~/Library/Fonts
    font_path = 'SimHei.ttf' # 替换为你的字体文件路径
    
    wordcloud_chinese_font = WordCloud(
        width=800, height=400,
        background_color='white',
        font_path=font_path, # 指定字体路径
        max_words=100
    ).generate("Python 中文词云图 字体显示 完美呈现 数据分析")
    
    plt.figure(figsize=(10, 5))
    plt.imshow(wordcloud_chinese_font, interpolation='bilinear')
    plt.axis("off")
    plt.title("中文字体显示示例")
    plt.show()
  • 尺寸与边距(

    width
    ,
    height
    ,
    margin
    :调整这些参数能控制生成图片的尺寸和词语之间的间隔,让布局更紧凑或更舒展。

多尝试这些参数组合,你会发现词云图的潜力远超你的想象。

处理中文文本的常见陷阱与解决方案是什么?

中文文本处理,在我看来,是制作词云图时最容易遇到“拦路虎”的地方。主要是两个问题:分词和字体。

  1. 分词问题: 英文文本天然以空格分词,

    wordcloud
    库直接就能处理。但中文不一样,词语之间没有空格,如果直接把一段中文文本扔给
    wordcloud
    ,它会把每个汉字都当成一个“词”,结果就是一堆单字,根本看不出什么有意义的词汇。

    解决方案:使用中文分词库,最常用的就是

    jieba
    jieba
    能把连续的汉字序列切分成一个个有意义的词语。

    import jieba
    from wordcloud import WordCloud
    import matplotlib.pyplot as plt
    
    text_chinese = """
    词云图在数据可视化领域有着独特的魅力,它能直观地展现文本数据中的高频词汇。
    然而,对于中文文本,直接应用wordcloud库会遇到分词问题,因为中文词语之间没有天然的分隔符。
    这时候,我们需要借助jieba这样的第三方分词库来预处理文本。
    通过精确的分词,我们才能确保词云图能够准确地反映出文本的主题和内容。
    此外,中文字体支持也是一个必须考虑的问题,否则生成的图片可能会出现乱码。
    """
    
    # 使用jieba进行分词
    # cut_all=False表示精确模式分词
    words = jieba.cut(text_chinese, cut_all=False)
    # 将分词结果用空格连接起来,wordcloud库才能识别
    processed_text = " ".join(words)
    
    # 再次强调字体路径,否则中文会是方块
    font_path = 'SimHei.ttf' # 替换为你的字体文件路径
    
    wordcloud_jieba = WordCloud(
        width=800, height=400,
        background_color='white',
        font_path=font_path, # 必须指定中文字体
        max_words=200,
        colormap='Blues'
    ).generate(processed_text)
    
    plt.figure(figsize=(10, 5))
    plt.imshow(wordcloud_jieba, interpolation='bilinear')
    plt.axis("off")
    plt.title("中文分词与字体处理后的词云图")
    plt.show()
  2. 字体乱码问题: 前面已经提到了,如果

    font_path
    参数没有正确指定一个支持中文的字体文件,那么生成的词云图中的中文就会显示为方块。这是因为
    wordcloud
    默认使用的字体通常只包含英文字符。

    解决方案:找到你操作系统中的中文字体文件(

    .ttf
    .ttc
    格式),然后将其路径传递给
    font_path
    参数。Windows用户可以在
    C:\Windows\Fonts
    目录下找,macOS用户可以在
    /Library/Fonts
    ~/Library/Fonts
    目录下找。

  3. 停用词(Stop Words): 像“的”、“是”、“了”、“和”这类词,在任何中文文本中都非常常见,但它们通常没有实际意义,如果出现在词云图中会占据大量空间,影响对核心内容的判断。

    解决方案

    wordcloud
    库提供了
    stopwords
    参数,你可以传入一个停用词列表。
    jieba
    也有自己的停用词词典,或者你可以自己维护一个。

    # 简单的中文停用词列表,你可以根据需要扩充
    my_stopwords = set([
        '的', '是', '了', '和', '在', '我', '你', '他', '她', '它', '我们', '你们', '他们', '她们', '它们',
        '这', '那', '个', '这', '那', '一个', '一个', '一种', '一种', '一些', '一些', '有所', '有所', '可以', '可以',
        '进行', '进行', '对于', '对于', '这样', '这样', '就是', '就是', '我们', '我们', '大家', '大家', '通过', '通过',
        '不仅', '不仅', '而且', '而且', '但是', '但是', '所以', '所以', '因为', '因为', '然后', '然后', '如果', '如果',
        '那么', '那么', '如何', '如何', '什么', '什么', '哪里', '哪里', '何时', '何时', '谁', '谁', '为什么', '为什么',
        '以及', '以及', '并且', '并且', '或者', '或者', '然而', '然而', '因此', '因此', '此外', '此外', '例如', '例如',
        '尤其', '尤其', '虽然', '虽然', '尽管', '尽管', '甚至', '甚至', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非',
        '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非', '除非

相关文章

WPS零基础入门到精通全套教程!
WPS零基础入门到精通全套教程!

全网最新最细最实用WPS零基础入门到精通全套教程!带你真正掌握WPS办公! 内含Excel基础操作、函数设计、数据透视表等

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
pip安装使用方法
pip安装使用方法

安装步骤:1、确保Python已经正确安装在您的计算机上;2、下载“get-pip.py”脚本;3、按下Win + R键,然后输入cmd并按下Enter键来打开命令行窗口;4、在命令行窗口中,使用cd命令切换到“get-pip.py”所在的目录;5、执行安装命令;6、验证安装结果即可。大家可以访问本专题下的文章,了解pip安装使用方法的更多内容。

339

2023.10.09

更新pip版本
更新pip版本

更新pip版本方法有使用pip自身更新、使用操作系统自带的包管理工具、使用python包管理工具、手动安装最新版本。想了解更多相关的内容,请阅读专题下面的文章。

415

2024.12.20

pip设置清华源
pip设置清华源

设置方法:1、打开终端或命令提示符窗口;2、运行“touch ~/.pip/pip.conf”命令创建一个名为pip的配置文件;3、打开pip.conf文件,然后添加“[global];index-url = https://pypi.tuna.tsinghua.edu.cn/simple”内容,这将把pip的镜像源设置为清华大学的镜像源;4、保存并关闭文件即可。

761

2024.12.23

python升级pip
python升级pip

本专题整合了python升级pip相关教程,阅读下面的文章了解更多详细内容。

349

2025.07.23

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

320

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

212

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1502

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

624

2023.11.24

C++ 设计模式与软件架构
C++ 设计模式与软件架构

本专题深入讲解 C++ 中的常见设计模式与架构优化,包括单例模式、工厂模式、观察者模式、策略模式、命令模式等,结合实际案例展示如何在 C++ 项目中应用这些模式提升代码可维护性与扩展性。通过案例分析,帮助开发者掌握 如何运用设计模式构建高质量的软件架构,提升系统的灵活性与可扩展性。

8

2026.01.30

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Django 教程
Django 教程

共28课时 | 3.7万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号