jieba库词频统计_jieba分词器(应用及字典的补充)及文档高频词提取实战

jieba分词器是Python中最好的中文分词组件,本文讲解一下jieba分词器及其应用。

1、jieba分词器的分词模式

jieba分词器提供了三种常用的分词模式

1、精确模式:将句子按照最精确的方法进行切分,适合用于进行文本分析;

2、全模式:将句子当中所有可以成词的词语都扫描出来,分词速度很快但容易产生歧义;

3、搜索引擎模式:在精确模式分词的基础上,将长的句子再次进行切分,提高召回率,适用于搜索引擎的分词。

注:jieba也支持对繁体字进行分词。

在jieba中我们可以使用jieba.cut和jieba.cut_for_search来进行中文分词,我们可使用 for 循环来获得分词后得到的每一个词语。

下面通过代码来实现以下jieba的使用。

jieba库词频统计_jieba分词器(应用及字典的补充)及文档高频词提取实战_第1张图片

分词后的结果如下:

jieba库词频统计_jieba分词器(应用及字典的补充)及文档高频词提取实战_第2张图片

2、jieba分词器字典的补充

jieba分词器有两种补充字典的形式,一种是自定义文件导入的静态补

你可能感兴趣的:(jieba库词频统计)