新大榭论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

《新大榭》- 创大榭地方网络社区先锋品牌 新大榭始终专注于地方网络社区平台的建设 关于我们- [大记事]- 留言建议- [新手报道]

发布 .新大榭软件管家(Excel版) V6.0版 财务/仓库/生产/销售/采购/行政/人事/校园 .公告 - 客户 - 打赏 - 职场 - Excel - Python.

新大榭镜像-音乐-法律-图书-高中课堂-实验 广告是为了能更好的发展 [欢迎商家支持本站互利共赢] 广告位招租.首页黄金广告位等您来!联系 13566035181

新大榭论坛 门户 查看主题

7361 - 新大榭微课№:016 - 【模块】中文标签云应用实例讲解(公开课)

发布者: admin | 发布时间: 2021-6-28 12:11| 查看数: 1941| 评论数: 0|帖子模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转新大榭论坛!

您需要 登录 才可以下载或查看,没有账号?注册

x

( W$ W- a9 w& N/ v       hello!大家好,今天张老师来讲解词云的具体应用实例,
6 b/ z4 m. y( M; d/ h# F" _3 I* k       词云技术可以帮助我们进行数据分析,数据库静态可视化操作。( J8 M6 Y1 X+ C/ e
       在上课之前请同学们先了解两个优秀的Python第三方库,他们分别是 jiebawordcloud

, O2 S& l$ b/ K       同学们有知道的吗?知道的同学请举个手! 其实在高中《信息技术》(必修一)中有提到过 jieba 库,这也是高中必修学习的课程,而 wordcloud 库是高中选修课程,好了,废话少说,直接上干货,如果有同学对这两个库还不太了解的,建议先脑补一下,老师提供了这两个库的学习帖子链接,登陆对应的 学习直通车 就可以参加在线学习,今天,老师以《新大榭python学习社区》数据分析为例进行案例讲解,让大家进一步了解 jieba 和 wordcloud 的详细应用及操作。
! C) W  b" @+ T4 D
  • jieba 库 ------------【学习直通车】(高中必修)
    3 m4 ?) x3 J' I/ _. O, r
  • wordcloud 库 ----【学习直通车】(高中选修)  ?" v- z4 c( c) M
: J, ~8 A+ o  n2 \$ u* {  S
下面我们以《新大榭python学习社区》为例进行数据词云效果展示,# b; U# m- Z$ H1 X' ?& Z1 v9 q
首先下载待分析数据原始本文,注意编码保存为 utf-8 文本格式(text.txt)

  \# p, D1 C: V4 q
% O3 E2 W  [( f, Q- W7 n 新大榭python学习社区.png
/ e2 u1 X' d1 l, d3 _' ]图1: 未进行优化处理 - 原版效果图 ↑↑↑; E: f" y2 M  `6 I. a9 o
& [) [; }7 W2 \
很明显默认高频词 在这里没有意义,所以需要过滤去除,类似的还有像“”、“”、“”、“”等等;
  1. stop_words = ['的','就','与','了','在']
复制代码
同时通过for循环过滤词汇;把如下原默认代码9 ^8 U# n- {+ }# ]. A$ L
  1. w.generate(" ".join(jieba.lcut(text)))
复制代码
替换成
- V1 ?! F* ~3 @, I) _0 y8 J/ j" P  X
  1. w.generate(" ".join(k for k in jieba.lcut(text) if k not in stop_words))
复制代码

$ y. r, C: m9 F0 u% i以上操作就是过滤关键词;/ j0 u  A: l  W- g& L
反之还有一类词,计算器暂没收录,需要我们个性化收录,比如“仑中”,“蓝桥杯”,“第三方库” 等等* C0 o5 i6 m! e8 Y& E8 S
  1. jieba.add_word("仑中")
    ! ~6 H3 s# ]4 w% F' ]; K. r# S
  2. jieba.add_word("蓝桥杯")( _! S7 A. S' |
  3. jieba.add_word("第三方库")
复制代码
/ J! P2 D8 @3 T; [) v: g
新大榭python学习社区_已优化.png : a! V6 v* M8 g2 t/ N
图2: 已进行优化处理 - 效果图 ↑↑↑" {1 l3 I- @( ~3 t! B- w* c
2 `! S. O3 ?4 [  y1 P
通过上述优化处理后我们不难发现数据标签云更加精准、概要,明了。8 w1 i% c+ J7 o' q
这在数据分析统计学上我们称作过滤无效偏离量,使样本数据更准确!

8 D4 R/ {) k9 X: d 新大榭python学习社区_已优化_白色背景.jpg
0 Y6 t: R  u7 [) m; S图3: 已进行优化处理 - 效果图(背景白色) ↑↑↑
1 P" |! n9 U5 A  L2 @: l  q: m
3 z' {2 E7 n% C: S. O0 V核心代码片段如下 ↓↓↓; ?" Q4 q4 S6 ~) @
  1. import jieba
    . {' l6 o6 \6 }/ L! l/ O
  2. import wordcloud
    ( Z* }% R3 I, h" J! \; `- e  @
  3. 3 _: b, h. y  I; y
  4. # 引入数据文本文件
    : h# p2 S) N6 s% D0 @) P( F* b
  5. text = open('text.txt','r',encoding='UTF-8').read()
    + c. x+ }/ J4 {) [( C  ?# n

  6. - P+ R8 I' u5 o/ I) f, G3 ~' v
  7. # 设置词云图片大小、字体及背景色(背景色默认黑色)
    ! Z& Z. U/ m3 C6 j  J( k0 K
  8. w=wordcloud.WordCloud(font_path="C:\\Windows\\Fonts\\simhei.ttf",width=1000,height=700,background_color="black")% _) S* q! Q* l$ n# U4 h5 `
  9. #w=wordcloud.WordCloud(font_path="C:\\Windows\\Fonts\\simhei.ttf",width=1000,height=700,mode='RGBA',background_color=None) # 白色背景模板4 x. V3 n) J5 }: ~) _3 F$ q. g

  10. , m4 O9 w) Z1 U; R& {9 j. e
  11. w.generate(" ".join(jieba.lcut(text)))
    . V% h: d" U, g! [, \2 i* N
  12. w.to_file("新大榭python学习社区_未优化.png") # 输出未优化词云标签2 Y  A2 ^$ y4 w; G
  13. , I- q5 T! B# M+ z5 K3 l
  14. # 新增关键字词汇
    8 P* {/ V1 j; f4 G4 }
  15. jieba.add_word("蓝桥杯")6 f# g7 M6 i: l* S2 Q
  16. jieba.add_word('仑中'), P8 A' @5 A) O: g, L
  17. jieba.add_word('新高考')& L- c" ]# u* |& @: Z
  18. jieba.add_word('零基础')
    # }5 m3 U' z% v$ w. T2 [
  19. jieba.add_word('第三方库')* R* ~0 x0 O$ v* z# \" U

  20.   u/ a, U5 y* G1 D
  21. # 过滤干扰词汇
    $ \  h7 k6 I! O, K
  22. stop_words = ['以上','来','指由','作为','组','是','级','对学','大','只要','这里','等','你','的','如','有','就','则','均','了','本','但','和','而','被','与','在','或','以','注','如未','仅限','并用','限','将','于','不','物','及','专为','已','端','高']5 x5 u: `  Z/ f; `
  23. w.generate(" ".join(k for k in jieba.lcut(text) if k not in stop_words))
    & s+ t* Q' @& g

  24. & ~/ _3 H/ Z! O3 _( b2 b
  25. # 输出图文
    3 \8 ^, {' g1 @0 I) I- H4 S7 x
  26. w.to_file("新大榭python学习社区_已优化.png") # 同时输出已优化词云标签
复制代码

:当前课程已收录新大榭网校Python系列自编原创课程(*

7361-01.zip

896.18 KB, 下载次数: 219, 下载积分: 财富 -1 点

课件源代码免费下载

最新评论

文字版|小黑屋|新大榭 ( 浙ICP备16018253号-1 )|点击这里给站长发消息|

GMT+8, 2026-4-3 19:08 , Processed in 0.080781 second(s), 23 queries , Gzip On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表