0
点赞
0
评论
0
转载
收藏

Practice 1 分词及应用

练习1:制作文字云

step 1: 获得文本。本例的歌词文本见页面底部的附件: "分词素材"。

step 2: 分词。在线分词网站:http://www.78901.net/participle/

step 3: wordart制作文字云。https://wordart.com/


-------------------------------------------------------------------------------------------

英文分词:

string.split()

words=nltk.corpus.gutenberg.words('austen-emma.txt')

----------------------------------------------------------------------

中文分词

用的工具是Python里面的中文JIEBA分词工具。

安装jieba

pip install jieba

先进入anaconda的Prompt界面如下图:


 jieba的教程:https://www.cnblogs.com/jiayongji/p/7119065.html

https://blog.csdn.net/qq_27882113/article/details/78126952?locationNum=4&fps=1


  1. import jieba  

  2. seg_list = jieba.cut("我来到北京清华大学,感到非常开心", cut_all=True)  

  3. print("Full Mode:"+"/".join(seg_list))  # 全模式  

  4.   

  5. seg_list = jieba.cut("我来到北京清华大学,感到非常开心", cut_all=False)  

  6. print("Default Mode: " + "/ ".join(seg_list))  # 精确模式  

  7.   

  8. seg_list = jieba.cut("我来到北京清华大学,感到非常开心")  

  9. print("/ ".join(seg_list))  # 默认精确模式  

  10.   

  11. seg_list = jieba.cut_for_search("烟花从正面看,还是从侧面看呢?")   # 搜索引擎模式  

  12. print("/ ".join(seg_list))  

注:Python join() 方法用于将序列中的元素以指定的字符连接生成一个新的字符串。

str.join(sequence)


seq = ["C", "h", "i", "n", "a"] # 字符串序列

print ("/".join( seq ))

print ("-*-".join( seq ))

输出结果:

C/h/i/n/a

C-*-h-*-i-*-n-*-a


练习2:将
"北京故宫是中国明清两代的皇家宫殿,旧称为紫禁城,位于北京中轴线的中心,是中国古代宫廷建筑之精华。北京故宫以三大殿为中心,占地面积72万平方米,建筑面积约15万平方米,有大小宫殿七十多座,房屋九千余间。是世界上现存规模最大、保存最为完整的木质结构古建筑之一。"
分词。并显示。

附件
声明:本内容系学者网用户个人学术动态分享,不代表平台立场。

广东外语外贸大学 信息科学与技术学院
近期热门动态
2018中国大学生计算机设计大赛、广东省大学生计算机设计大赛校内选拔赛通知
7436 2018-03-03 17:13:58
Lesson 17----NLTK 句法分析
5925 2018-05-27 11:25:43
Lesson 18 命名实体识别 & 关系抽取
4414 2018-06-04 12:05:29
Lesson 19 ------nltk VS antconc
4068 2018-06-05 20:21:20
#
2724 2012-05-29 21:38:25
SCHOLAT.com 学者网
免责声明 | 关于我们 | 联系我们
联系我们:
返回顶部