中文分词在线工具比较

一、现有分词工具包

Paste_Image.png

详情： http://blog.csdn.net/sunfoot001/article/details/51523741

Analyzer在线工具

IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。

Paste_Image.png

采用了特有的“正向迭代最细粒度切分算法“，具有50万字/秒的高速处理能力。

采用了多子处理器分析模式，支持：英文字母（IP地址、Email、URL）、数字（日期，常用中文数量词，罗马数字，科学计数法），中文词汇（姓名、地名处理）等分词处理。

优化的词典存储，更小的内存占用。支持用户词典扩展定义

针对Lucene全文检索优化的查询分析器IKQueryParser；采用歧义分析算法优化查询关键字的搜索排列组合，能极大的提高Lucene检索的命中率。

Analyzer在线工具窗口：

Paste_Image.png

百度在线切词

百度分词算法，实现精确切词匹配。基于主特征空间相似度计算的切分算法及切分框架。构建切分的上下文环境，并且巧妙地把统计特征投影到其主特征空间。（特征空间是由一个矩阵的所有特征向量张成的空间，主特征空间是有该矩阵的主要特征向量张成的空间。相比较特征空间，主特征空间可以覆盖特征空间大部分信息，并且可以辅助相关应用进行有效的降维、除噪和数据变换等)，计算相似度，配合主特征空间的维度进行切分。

百度在线切词窗口

Paste_Image.png

由图可知，用户可自行选择切分的精度，其中包括歧义处理、新词识别、多元切分等。

该算法一个核心的要点为主特征空间维度k的确定。换个角度讲，对于给定一个待处理串，如果事先知道切分的片段数，利用一些简单的统计策略如MI已经可以较好的做切分。

该切分算法根据数据分布入手，由切分片段特征展开假设，通过基本token在一定相关语义下统计分布而进行切分。相对基于EM/HMM等模型的无监督切分算法，该方法一个明显的优点是充分考虑了整个切分片段的信息，而不是相邻token之间的统计量；同时，该方法通过空间变换等手段，有效的进行数据除燥等策略，从而是数据分布更趋于真实情况。