博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python 生成18年写过的博客词云
阅读量:5308 次
发布时间:2019-06-14

本文共 1526 字,大约阅读时间需要 5 分钟。

文章链接:

回看18年,最有成就的就是有了自己的 ,坚持记录,写文章,累计写了36篇了,从一开始的难以下手,到现在成为一种习惯,虽然每次写都会一字一句斟酌,但是每次看到产出,内心还是开心的,享受这样的过程。

这篇文章就是用python 生成自己写的博客词云,平常写的博客都是markdown 格式的,直接把文件传到后台,前端用js去解析文件显示的,所以我这里处理数据就不需要去爬虫网站,直接读文件处理的。

关于生成词云图的,在另外两篇文章中也有介绍过:

markdown文件处理,遍历文件夹,匹配md 后缀的文件,读文件,这里的root 是文件夹的绝对路径。

import ostotal = ""file_list = os.listdir(root)for file in file_list:    //处理md文件    if os.path.splitext(file)[1] == ".md":        path = os.path.join(root,file)        text = open(path, encoding='utf-8').read()        //最终得到的字符串        total = total + "\n" + text

得到所有的文本之后,使用结巴分词 pip3 install jieba,处理成单个的词语。

import jiebawordlist = jieba.cut(total, cut_all=True)wl = " ".join(wordlist)

因为平常写的文章里有很多的代码,这里可以正则只留下中文,然后再处理中文字符。

import rerec = re.compile("[^\u4E00-\u9FA5]")total = rec.sub("", total)wordlist = jieba.cut(total, cut_all=True)wl = " ".join(wordlist)

最后就是生成词云,采用WordCloud的库

wc = WordCloud(    # 设置背景颜色    background_color="white",    # 设置最大显示的词云数    max_words=1000,    # 这种字体都在电脑字体中,window在C:\Windows\Fonts\下,mac下的是/System/Library/Fonts/PingFang.ttc 字体    font_path='C:\\Windows\\Fonts\\STFANGSO.ttf',    height=2000,    width=2000,    # 设置字体最大值    max_font_size=250,    # 设置有多少种随机生成状态,即有多少种配色方案    random_state=30,)myword = wc.generate(wl)  # 生成词云# 展示词云图plt.imshow(myword)plt.axis("off")wc.to_file('blog.png')  # 保存图片plt.ion()plt.pause(5)plt.close()  # 图片显示5s,之后关闭

最终的结果显示图,除去代码之后,看这些词,不少还是跟android相关的,也是平常经常会提到的词汇。

168420ab1307855a?w=500&h=509&f=png&s=483979

欢迎关注我的个人博客:

更多精彩欢迎关注微信号:春风十里不如认识你

一起学习,一起进步,欢迎上车,有问题随时联系,一起解决!!!

1652cd77eaebeb98?w=900&h=540&f=jpeg&s=64949

转载于:https://www.cnblogs.com/taixiang/p/10262415.html

你可能感兴趣的文章
P2167 [SDOI2009]Bill的挑战
查看>>
洛咕 P3702 [SDOI2017]序列计数
查看>>
这次真的退役了
查看>>
逆向_入门逆向
查看>>
QBlog V2.5 源码开放下载(ASP.NET 番外系列之开端)
查看>>
Infor.plist&Prefix.pch文件
查看>>
剑指offer:链表中环的入口结点
查看>>
hive安装配置
查看>>
Solved:Spring Junit Test NoSuchMethodError
查看>>
android 横屏竖屏处理--禁止横屏
查看>>
ISSUE 130 孩子的社会化程度对社会发展的影响
查看>>
java8的调试和默认方法
查看>>
自定义指令实例
查看>>
IAR环境定义位变量标志位 STM8 MSP430通用
查看>>
Docker 使用指南 (三)—— 网络配置
查看>>
webService 下得 拦截
查看>>
Git:代码冲突常见解决方法
查看>>
堆、栈知识小结
查看>>
学Android开发的人可以去的几个网站
查看>>
SVN体系结构
查看>>