python 英语分词_自然语言处理 | NLTK英文分词尝试

NLTK是一个高效的Python构建的平台,用来处理自然语言数据,它提供了易于使用的接口,通过这些接口可以访问超过50个语料库和词汇资源(如WordNet),还有一套用于分类、标记化、词干标记、解析和语义推理的文本处理库。NLTK可以在Windows、Mac OS以及Linux系统上使用。

1.安装NLTK

使用pip install nltk命令安装NLTK库,NLTK中集成了语料与模型等的包管理器,通过在python解释器中执行以下代码

import nltk

nltk.download()

便会弹出包管理界面,在管理器中可以下载语料,预训练的模型等。

除了一些个人数据包还可以下载整个集合(使用“all”),或者仅下载书中例子和练习中使用到的数据(使用“book”),或者仅下载没有语法和训练模型的语料库(使用“all-corpora”)。

2.简单文本分析

分词

词性标注

命名实体识别

import nltk

#先分句再分词

sents = nltk.sent_tokenize("And now for something completely different. I love you.")

word = []

for sent in sents:

word.append(nltk.word_tokenize(sent))

print(word)

#分词

text = nltk.word_tokenize("And now for something completely different.")

print(text)

#词性标注

tagged = nltk.pos_tag(text)

print (tagged[0:6])

#命名实体识别

entities = nltk.chunk.ne_chunk(tagged)

print (entities)

>>>[['And', 'now', 'for', 'something', 'completely', 'different', '.'], ['I', 'love', 'you', '.']]

>>>['And', 'now', 'for', 'something', 'completely', 'different', '.']

>>>[('And', 'CC'), ('now', 'RB'), ('for', 'IN'), ('something', 'NN'), ('completely', &

你可能感兴趣的:(python,英语分词)