0
点赞
0
评论
0
转载

Practice 1 分词及应用

练习1:制作文字云

step 1: 获得文本。本例的歌词文本见页面底部的附件: "分词素材"。

step 2: 分词。在线分词网站:http://www.78901.net/participle/

step 3: wordart制作文字云。https://wordart.com/


-------------------------------------------------------------------------------------------

英文分词:

string.split()

words=nltk.corpus.gutenberg.words('austen-emma.txt')

----------------------------------------------------------------------

中文分词

用的工具是Python里面的中文JIEBA分词工具。

安装jieba

pip install jieba

先进入anaconda的Prompt界面如下图:


 jieba的教程:https://www.cnblogs.com/jiayongji/p/7119065.html

https://blog.csdn.net/qq_27882113/article/details/78126952?locationNum=4&fps=1


  1. import jieba  

  2. seg_list = jieba.cut("我来到北京清华大学,感到非常开心", cut_all=True)  

  3. print("Full Mode:"+"/".join(seg_list))  # 全模式  

  4.   

  5. seg_list = jieba.cut("我来到北京清华大学,感到非常开心", cut_all=False)  

  6. print("Default Mode: " + "/ ".join(seg_list))  # 精确模式  

  7.   

  8. seg_list = jieba.cut("我来到北京清华大学,感到非常开心")  

  9. print("/ ".join(seg_list))  # 默认精确模式  

  10.   

  11. seg_list = jieba.cut_for_search("烟花从正面看,还是从侧面看呢?")   # 搜索引擎模式  

  12. print("/ ".join(seg_list))  

注:Python join() 方法用于将序列中的元素以指定的字符连接生成一个新的字符串。

str.join(sequence)


seq = ["C", "h", "i", "n", "a"] # 字符串序列

print ("/".join( seq ))

print ("-*-".join( seq ))

输出结果:

C/h/i/n/a

C-*-h-*-i-*-n-*-a


练习2:将
"北京故宫是中国明清两代的皇家宫殿,旧称为紫禁城,位于北京中轴线的中心,是中国古代宫廷建筑之精华。北京故宫以三大殿为中心,占地面积72万平方米,建筑面积约15万平方米,有大小宫殿七十多座,房屋九千余间。是世界上现存规模最大、保存最为完整的木质结构古建筑之一。"
分词。并显示。

附件

广东外语外贸大学 信息科学与技术学院
SCHOLAT.com 学者网
免责声明 | 关于我们 | 联系我们
联系我们:
返回顶部