Jieba库

笔记来源

北理——Python语言程序设计

本文内部图片大多来自课程课件,侵权请告知1979409875@qq.com

jieba库概述

jieba库是一个优秀的中文分词第三方库

中文文本需要通过分词才可以获得单个词语

jieba库提供了三种分词模式

jieba库利用一个中文词库来确定每个中文字符的关联概率,并以此为依据组成词语,用户还可以添加自定义的词组(jieba.add_word(w))

jieba库的三种模式

精确模式

把文本精确地切分开,不存在冗余单词

jieba.lcut(s)

全模式

把文本中所有可能词语都扫描出来,存在冗余

jieba.lcut(s, cut_all = True)

搜索引擎模式

在精确模式的基础上,对长词进行再次切分

jieba.lcut_for_search(s)

Licensed under CC BY-NC-SA 4.0
comments powered by Disqus
Built with Hugo
主题 StackJimmy 设计