中文分词工具

jieba

“结巴”中文分词:是广泛使用的中文分词工具,具有以下特点

1)三种分词模式:精确模式,全模式和搜索引擎模式

2)词性标注和返回词语在原文的起止位置( Tokenize)

3)可加入自定义字典

4)代码对 Python 2/3 均兼容

5)支持多种语言,支持简体繁体

顷目地址:https://github.com/fxsjy/jieba

Stanford NLP

Stanford NLP提供了一系列自然语言分析工具。它能够给出基本的词形,词性,不管是公司名还是人名等,格式化的日期,时间,量词,并且能够标记句子的结构,语法形式和字词依赖,指明那些名字指向同样的实体,指明情绪,提取发言中的开放关系等。

1.一个集成的语言分析工具集;

2.进行快速,可靠的任意文本分析;

3.整体的高质量的文本分析;

4.支持多种主流语言;

5.多种编程语言的易用接口;

6.方便的简单的部署web服务。

•Python 版本stanford nlp 安装

•1)安装stanford nlp自然语言处理包: pip install stanfordcorenlp

•2)下载Stanford CoreNLP文件 https://stanfordnlp.github.io/CoreNLP/download.html

•3)下载中文模型jar包, http://nlp.stanford.edu/software/stanford-chinese-corenlp-2018-02-27-models.jar,

•4)把加压后的Stanford CoreNLP文件夹和下载的stanford-chinese-corenlp-2018-02-27-models.jar放在同一目录下

•5)在Python中引用模型:

•from stanfordcorenlp import StanfordCoreNLP

•nlp = StanfordCoreNLP(r‘path', lang='zh')

Hanlp

HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

功能:中文分词 词性标注 命名实体识别 依存句法分析 关键词提取 新词发现 短语提取 自动摘要 文本分类 拼音简繁

Hanlp环境安装

•1、安装Java和Visual C++:我装的是Java 1.8和Visual C++ 2015。

•2、安裝Jpype,conda install -c conda-forge jpype1

•3、测试是否按照成功:

from jpype import *

startJVM(getDefaultJVMPath(), "-ea")

java.lang.System.out.println("Hello World")

shutdownJVM()

比如data目录是/Users/hankcs/Documents/data,那么root=/Users/hankcs/Documents

你可能感兴趣的:(中文分词工具)