Python案例如何实现词云图？

wen python案例 2026-06-18 9

手把手教你用Python实现词云图：从数据清洗到可视化全流程

目录导读

什么是词云图？为何要用Python实现？
环境搭建与必备库安装
数据采集与文本预处理
词频统计与词云生成核心代码
自定义形状、颜色与字体优化
常见问题问答（FAQ）
实战案例：从网页抓取到词云输出
总结与SEO优化建议

什么是词云图？为何要用Python实现？

词云图（Word Cloud）是一种将文本中出现频率较高的关键词以视觉化方式呈现的图表，词频越高，字体越大、颜色越醒目，它广泛应用于报告摘要、社交媒体分析、用户评论挖掘等场景。
Python凭借其丰富的第三方库（如wordcloud、jieba、matplotlib）成为实现词云的首选工具——代码简洁、可定制性强，且能直接集成到数据工作流中。

Python案例如何实现词云图？

问答：什么是词云图？
词云图是一种按词频大小排列关键词的可视化图形，用于快速提炼文本核心内容，一篇关于“人工智能”的文章，词云中可能出现“机器学习”“算法”“数据”等大字号词汇。

环境搭建与必备库安装

确保已安装Python 3.7+，然后通过pip一键安装核心库：

pip install wordcloud jieba matplotlib pillow numpy

wordcloud：词云生成引擎
jieba：中文分词工具
matplotlib：图像展示
pillow：处理图片背景（如自定义形状）
numpy：数组运算，用于生成蒙版

问答：必须安装所有库吗？
至少需要wordcloud和jieba，若只需默认矩形词云，可跳过pillow，但自定义形状必须用到。

数据采集与文本预处理

词云图的质量高度依赖数据源,以下从本地文件读取文本：

# 读取文本文件
with open('article.txt', 'r', encoding='utf-8') as f:
    text = f.read()

关键步骤：中文分词与去停用词

import jieba
# 分词并过滤无意义词
word_list = [word for word in jieba.lcut(text) if len(word) > 1 and word not in stopwords]
clean_text = ' '.join(word_list)

问答：为什么需要去停用词？
停用词（如“的”“是”“在”）高频但无分析价值，过滤后词云才能聚焦核心关键词。

词频统计与词云生成核心代码

使用wordcloud库直接根据分词结果生成：

from wordcloud import WordCloud
import matplotlib.pyplot as plt
# 配置词云参数
wc = WordCloud(
    font_path='msyh.ttc',  # 指定中文字体（微软雅黑）
    width=800, height=600,
    background_color='white',
    max_words=200
)
# 传入处理后的文本
wc.generate(clean_text)
# 显示词云
plt.imshow(wc, interpolation='bilinear')
plt.axis('off')
plt.show()

核心逻辑：WordCloud内部自动统计词频，按频率映射字号。

问答：字体文件必须指定吗？
是的，中文字体需显式指定，否则中文显示为方框，路径可以是系统字体或下载的.ttf文件。

自定义形状、颜色与字体优化

进阶用法——让词云呈爱心、熊猫等形状：

from PIL import Image
import numpy as np
# 读取蒙版图片（白色背景，黑色形状）
mask = np.array(Image.open('heart.png'))
wc = WordCloud(
    font_path='msyh.ttc',
    mask=mask,  # 蒙版参数
    contour_width=1,
    contour_color='steelblue',  # 描边颜色
    background_color='white',
    color_func=lambda *args, **kwargs: 'red'  # 固定颜色
)
# 或使用随机颜色、基于文本的渐变颜色

问答：如何实现多种颜色？
可设置colormap参数，如colormap='viridis'；也可自定义color_func函数返回RGB值。

常见问题问答（FAQ）

Q1：词云生成时出现“OSError: cannot open resource”怎么办？
→ 字体路径错误，下载中文字体（如msyh.ttc）放在项目目录，并改为font_path='msyh.ttc'。

Q2：为什么我的词云全是单个字？
→ 未进行有效分词，使用jieba.lcut并组合成空格分隔的字符串。

Q3：如何控制词云中词汇数量？
→ 设置max_words=100（默认200），同时可通过WordCloud.generate_from_frequencies(dict)传入预计算的字典。

Q4：生成的词云图片模糊怎么办？
→ 调高width和height（如1600x1200），但注意内存占用。

Q5：如何保存词云为图片文件？
→ 使用wc.to_file('wordcloud.png')直接保存。

实战案例：从网页抓取到词云输出

以爬取某百科词条“Python”简介为例：

import requests
from bs4 import BeautifulSoup
url = 'https://baike.baidu.com/item/Python'
headers = {'User-Agent': 'Mozilla/5.0'}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
# 提取段落文本
text = ' '.join([p.text for p in soup.select('.para')])
# 分词+去停用词
words = jieba.lcut(text)
clean = ' '.join([w for w in words if len(w) > 1 and w not in stopwords])
# 生成词云（可自定义形状）
wc.generate(clean)
wc.to_file('python_wordcloud.png')
print('词云已生成！')

要点：爬虫仅用于演示，注意遵守网站robots协议。