新大榭论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

《新大榭》- 创大榭地方网络社区先锋品牌 新大榭始终专注于地方网络社区平台的建设 关于我们- [大记事]- 留言建议- [新手报道]

发布 .新大榭软件管家(Excel版) V5.9版 财务/仓库/生产/销售/采购/行政/人事/校园 .公告 - 客户 - 打赏 - 职场 - Excel - Python.

新大榭镜像-音乐-法律-图书-高中课堂-实验 广告是为了能更好的发展 [欢迎商家支持本站互利共赢] 广告位招租.首页黄金广告位等您来!联系 13566035181

查看: 1639|回复: 0

[微课] 7361 - 新大榭微课№:016 - 【模块】中文标签云应用实例讲解(公开课)

 关闭 [复制链接]
发表于 2021-6-28 12:11:01 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转新大榭论坛!

您需要 登录 才可以下载或查看,没有账号?注册

x

, i" ^) Z2 B4 H" ?       hello!大家好,今天张老师来讲解词云的具体应用实例,
2 `! g# n' C" }# \7 w: w, Z       词云技术可以帮助我们进行数据分析,数据库静态可视化操作。0 ]/ f  Z* H( h5 J( P2 R, N
       在上课之前请同学们先了解两个优秀的Python第三方库,他们分别是 jiebawordcloud

* h* |' F4 n" l1 P* p6 ^& N       同学们有知道的吗?知道的同学请举个手! 其实在高中《信息技术》(必修一)中有提到过 jieba 库,这也是高中必修学习的课程,而 wordcloud 库是高中选修课程,好了,废话少说,直接上干货,如果有同学对这两个库还不太了解的,建议先脑补一下,老师提供了这两个库的学习帖子链接,登陆对应的 学习直通车 就可以参加在线学习,今天,老师以《新大榭python学习社区》数据分析为例进行案例讲解,让大家进一步了解 jieba 和 wordcloud 的详细应用及操作。! {+ x* R6 a3 ^, u7 N4 z  m
  • jieba 库 ------------【学习直通车】(高中必修)
    # ]8 s5 `9 E+ d; ?& E
  • wordcloud 库 ----【学习直通车】(高中选修)
    5 M$ v. Q5 b$ [
: y) D0 P& j. n$ ]* K0 c
下面我们以《新大榭python学习社区》为例进行数据词云效果展示,  X, `. L, A* M1 T
首先下载待分析数据原始本文,注意编码保存为 utf-8 文本格式(text.txt)

/ e0 w% [( \5 Y5 a* q& }- J4 C- [2 U9 O, a" W
新大榭python学习社区.png
1 i3 p; p9 `1 ^5 h图1: 未进行优化处理 - 原版效果图 ↑↑↑
: ]  ^( j. n+ Z1 c+ l0 I  h4 V6 @3 O& X" v6 A. n7 d
很明显默认高频词 在这里没有意义,所以需要过滤去除,类似的还有像“”、“”、“”、“”等等;
  1. stop_words = ['的','就','与','了','在']
复制代码
同时通过for循环过滤词汇;把如下原默认代码
3 i' [  S8 k. [& y: A
  1. w.generate(" ".join(jieba.lcut(text)))
复制代码
替换成
. r3 `) b, l% {* H8 u
  1. w.generate(" ".join(k for k in jieba.lcut(text) if k not in stop_words))
复制代码

7 F% t+ h* |; h/ d# p" x5 W以上操作就是过滤关键词;  [6 m* I# C. r1 l: L% d& w: U
反之还有一类词,计算器暂没收录,需要我们个性化收录,比如“仑中”,“蓝桥杯”,“第三方库” 等等: i- X1 z  m7 L- f. X: k7 |9 p/ Z- x
  1. jieba.add_word("仑中")  G* Y5 J* @6 y6 Q2 X# \5 b
  2. jieba.add_word("蓝桥杯")
    + A: K6 P2 V- H2 X. }
  3. jieba.add_word("第三方库")
复制代码
0 H) g& O3 \' {  N, z, ^0 e. e: G
新大榭python学习社区_已优化.png # u8 ^3 v; F/ l# `0 M
图2: 已进行优化处理 - 效果图 ↑↑↑' c% k. i1 [  `9 \" Y' R+ H( s
# i7 `, N' u& S9 @
通过上述优化处理后我们不难发现数据标签云更加精准、概要,明了。
- z, v/ \# x7 F# G+ d7 F; b这在数据分析统计学上我们称作过滤无效偏离量,使样本数据更准确!

* O) m1 p* f6 `* V/ n0 a3 U 新大榭python学习社区_已优化_白色背景.jpg - s4 Y0 b) `0 @( A# w" B
图3: 已进行优化处理 - 效果图(背景白色) ↑↑↑
+ ^, n& _: `: G% L# j4 R9 }" @1 }5 S8 L9 D# R. \
核心代码片段如下 ↓↓↓( Z& d1 b* M* }) b0 _
  1. import jieba8 O/ y) [* ^$ T7 t* N
  2. import wordcloud
    ) R' [" W- ^! h8 a  p% J* q& K9 @+ i
  3. 7 l/ s0 u# b" Q8 G( e: d
  4. # 引入数据文本文件0 g) n- M( s" K- O
  5. text = open('text.txt','r',encoding='UTF-8').read()( q) y, d( M; ]6 T1 T. m

  6. 1 [& X+ l8 p8 X$ q- H! r3 L% a9 f
  7. # 设置词云图片大小、字体及背景色(背景色默认黑色)
    ! q8 K$ p1 X5 s; l! U3 m7 H# N
  8. w=wordcloud.WordCloud(font_path="C:\\Windows\\Fonts\\simhei.ttf",width=1000,height=700,background_color="black")
    * `( w: R3 e" o( a- y: ^% {3 a+ E; A
  9. #w=wordcloud.WordCloud(font_path="C:\\Windows\\Fonts\\simhei.ttf",width=1000,height=700,mode='RGBA',background_color=None) # 白色背景模板
    0 }  F' p% K6 R2 M, F
  10. 3 T3 y( \2 b7 V' u6 Y; o
  11. w.generate(" ".join(jieba.lcut(text)))
    ) Q+ X9 f  d0 h( b1 e  o
  12. w.to_file("新大榭python学习社区_未优化.png") # 输出未优化词云标签  q1 Z3 P" C1 j0 S8 |! v# Q) @
  13. : m, }  v+ A3 p
  14. # 新增关键字词汇
    ' k. T2 n! r7 E8 z+ J( L& N
  15. jieba.add_word("蓝桥杯")
    6 c7 r9 s6 C8 m4 E) `! J+ G
  16. jieba.add_word('仑中')* H7 n  s8 M# j5 Q) @# w1 L
  17. jieba.add_word('新高考')! L  M# O# L& R7 t$ p$ k
  18. jieba.add_word('零基础')0 \+ p+ n' E' K' ?  |+ m. o- B0 X
  19. jieba.add_word('第三方库')' s% }: G* M9 i- ?* C* J, ]
  20. 0 X8 s4 g2 {& L# k9 `
  21. # 过滤干扰词汇4 n* i, {* J2 H" x! b( m9 M
  22. stop_words = ['以上','来','指由','作为','组','是','级','对学','大','只要','这里','等','你','的','如','有','就','则','均','了','本','但','和','而','被','与','在','或','以','注','如未','仅限','并用','限','将','于','不','物','及','专为','已','端','高']
    $ C# D- P6 S/ C/ `3 [' z# W
  23. w.generate(" ".join(k for k in jieba.lcut(text) if k not in stop_words))- m0 y1 f: v+ |0 D' H+ ^3 v

  24. - I# p! ^( T. o9 N
  25. # 输出图文  g. [0 f, b9 b" y. w3 ]3 Z0 a1 l
  26. w.to_file("新大榭python学习社区_已优化.png") # 同时输出已优化词云标签
复制代码

:当前课程已收录新大榭网校Python系列自编原创课程(*

7361-01.zip

896.18 KB, 下载次数: 219, 下载积分: 财富 -1 点

课件源代码免费下载

新大榭Python学习社区培训、Excel业务指导、办公软件定制、网站建设;新大榭探索实验室欢迎您!http://lab.daxie.net.cn/
Q群推荐 大榭本地求职招聘QQ群,欢迎转发分享本地招聘信息资讯! 官方招聘1群(已满);官方招聘2群:315816937 *
您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|小黑屋|新大榭 ( 浙ICP备16018253号-1 )|点击这里给站长发消息|

GMT+8, 2025-12-18 23:15 , Processed in 0.091471 second(s), 24 queries , Gzip On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表