笔记来源
本文内部图片大多来自课程课件,侵权请告知1979409875@qq.com
jieba库概述
jieba库是一个优秀的中文分词第三方库
中文文本需要通过分词才可以获得单个词语
jieba库提供了三种分词模式
jieba库利用一个中文词库来确定每个中文字符的关联概率,并以此为依据组成词语,用户还可以添加自定义的词组(jieba.add_word(w))
jieba库的三种模式
精确模式
把文本精确地切分开,不存在冗余单词
jieba.lcut(s)
全模式
把文本中所有可能词语都扫描出来,存在冗余
jieba.lcut(s, cut_all = True)
搜索引擎模式
在精确模式的基础上,对长词进行再次切分
jieba.lcut_for_search(s)