博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
中文词频统计
阅读量:4928 次
发布时间:2019-06-11

本文共 763 字,大约阅读时间需要 2 分钟。

作业要求:

一.下载一篇中文长篇小说并从文件中读取待分析文本

f = open('xiaoshuo.txt', 'r', encoding='utf-8')# 通过文件读取字符串 strstr = f.read()f.close()print(str)

二.安装jieba

三.

(1)更新词库,加入所分析对象的专业词汇。

(2)生成词频统计

(3)排序

(4)排除语法型词汇,代词、冠词、连词等停用词。

(5)输出词频最大TOP20,把结果存放到文件里

import jiebaf=open('白夜行.txt','r',encoding='utf-8')lines=f.read()f.close()sep = ',。?!;:“”‘’-——<_/>'for en in sep:    lines=lines.replace(en, '')lines = list(jieba.cut_for_search(lines)) strSet = set(lines) #print(len(strSet), strSet)  strDict = dict() for word in strSet: strDict[word] = lines.count(word) #print(len(strDict), strDict)  wcList = list(strDict.items()) #print(wcList) wcList.sort(key=lambda x: x[1], reverse=True) #print(wcList) for i in range(20): print(wcList[i])

四.生成词云

转载于:https://www.cnblogs.com/Zhms/p/10555301.html

你可能感兴趣的文章
Linux 入门 bash语句 第三课
查看>>
LeetCode 27. 移除元素
查看>>
【原创】phpcms v9 0day
查看>>
杂谈SharpDx中的WIC组件——我们需要WIC的图片编码功能么?
查看>>
移动端弹性盒
查看>>
觉得比较重要的一张触发器的图,高手跳过哈!
查看>>
JAVA中使用jcifs集成AD域用户认证
查看>>
SSH框架 jar包版本的选择
查看>>
1699. Turning Turtles
查看>>
1048. Find Coins (25)
查看>>
(八十六)使用系统自带的分享框架Social.framework
查看>>
C# 使用IP端口网络打印图片
查看>>
OSI与TCP/IP你了解多少?
查看>>
压缩解压缩相关基础知识
查看>>
javaweb之MVC设计模式
查看>>
[APIO2015]巴厘岛的雕塑
查看>>
使用Code First模式开发如何更新数据库(转载)
查看>>
Mybatis实例增删改查(二)
查看>>
android:inputType参数类型说明
查看>>
使用泛型迭代Map集合
查看>>