博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
中文词频统计
阅读量:4939 次
发布时间:2019-06-11

本文共 763 字,大约阅读时间需要 2 分钟。

作业要求:

一.下载一篇中文长篇小说并从文件中读取待分析文本

f = open('xiaoshuo.txt', 'r', encoding='utf-8')# 通过文件读取字符串 strstr = f.read()f.close()print(str)

二.安装jieba

三.

(1)更新词库,加入所分析对象的专业词汇。

(2)生成词频统计

(3)排序

(4)排除语法型词汇,代词、冠词、连词等停用词。

(5)输出词频最大TOP20,把结果存放到文件里

import jiebaf=open('白夜行.txt','r',encoding='utf-8')lines=f.read()f.close()sep = ',。?!;:“”‘’-——<_/>'for en in sep:    lines=lines.replace(en, '')lines = list(jieba.cut_for_search(lines)) strSet = set(lines) #print(len(strSet), strSet)  strDict = dict() for word in strSet: strDict[word] = lines.count(word) #print(len(strDict), strDict)  wcList = list(strDict.items()) #print(wcList) wcList.sort(key=lambda x: x[1], reverse=True) #print(wcList) for i in range(20): print(wcList[i])

四.生成词云

转载于:https://www.cnblogs.com/Zhms/p/10555301.html

你可能感兴趣的文章
ACM-栈
查看>>
C# 泛型集合
查看>>
new和声明的不同
查看>>
Servlet
查看>>
动态链接库的隐式和显式调用
查看>>
求子数组最大值
查看>>
谈谈tmpdir与innodb_tmpdir的区别和用处
查看>>
4.4---建立二叉树的链表
查看>>
mysql的client和sever之间通信password的传输方式
查看>>
现实世界中的 Windows Azure: 刚刚起步的LiquidSpace借助Windows Azure快速发展
查看>>
Behavioral模式之Observer模式
查看>>
Android Studio Ndk 编程
查看>>
IIS 设置 FTP 服务器 添加多个账户
查看>>
C/C++版数据结构之树<一>
查看>>
css3圆角详解
查看>>
python3:定时执行自动化测试脚本
查看>>
HTML表单
查看>>
让IE浏览器打开JSON文件直接显示
查看>>
Base64编解码Android和ios的例子,补充JNI中的例子
查看>>
数据结构复习-链表练习程序
查看>>