ik分词和jieba分词哪个好_Jieba&IK Analyzer——分词工具的比较与使用

现有的分词工具包概览

现有的分词工具包种类繁多,我选取了几个比较常见的开源中文分词工具包进行了简单的调查。有感兴趣的同学可以通过下表中的Giuthub链接进行详细地了解。

常见开源的中文分词工具

接下来,我具体介绍Jieba和IK Analyzer的使用。

一、jieba的分词使用

1、安装jieba

安装jieba

2、三种分词模式及比较

编写代码对 “古蜀青铜艺术与蜀绣非遗技艺结合创新的探讨——现代首饰设计” 进行分词

import jieba

seg_list1 = jieba.cut("古蜀青铜艺术与蜀绣非遗技艺结合创新的探讨——现代首饰设计", cut_all=True) # 全模式

seg_list2 = jieba.cut("古蜀青铜艺术与蜀绣非遗技艺结合创新的探讨——现代首饰设计", cut_all=False) # 精确模式

seg_list3 = jieba.cut_for_search("古蜀青铜艺术与蜀绣非遗技艺结合创新的探讨——现代首饰设计") # 搜索引擎模式

print("Full Mode: " + "/ ".join(seg_list1)) # 全模式

print("Default Mode: " + "/ ".join(seg_list2)) # 精确模式

print(", ".join(seg_list3)) # 搜索引擎模式

结果如下图所示:

分词结果1

可以看到精确模式与搜索引擎模式的分词结果比全模式更准确。

3、添加自定义词典

在对“互联网+背景下古代娱乐项目综合体验平台的设计与实现——基于微信小程序和Web网页”这一文本进行分词的时候,发现“互联网+”与“微信小程序”没有被正确分出来,如下图所示:

添加词典前

添加自定义词典的方式帮助jieba正确地分出这些新词。

①载入词典

用法: jieba.load_userdict(file_name) # file_name 为文件类对象或自定义词典的路径

自定义词典格式和 dict.txt 一样,一个词占一行&

你可能感兴趣的:(ik分词和jieba分词哪个好)