RNN做中文分词

一、中文分词的本质:寻找词边界

中文与英文不同,词与词之间没有空格分隔。分词就是要在连续的字符流中找出正确的词边界。 示例

  • 原始文本:"自然语言处理很有趣"
  • 正确分词:"自然/语言/处理/很/有趣"
  • 错误分词:"自然语言/处理/很有/趣"(不合理)

分词的核心是判断每个字符是否是词的边界

二、序列标注:将分词转化为标签预测

最常用的分词标注方案是 BIOES 标签体系:

  • B(Begin):词的开始
  • I(Inside):词的中间
  • E(End):词的结束
  • S(Single):单字成词
  • O(Outside):通常用于命名实体识别,分词中很少用

示例

  • 文本:"我爱北京天安门"
  • 分词:"我/爱/北京/天安门"
  • 对应标签:['S', 'S', 'B', 'E', 'B', 'I', 'E']

分词任务就变成了:给每个字符预测一个 BIOES 标签

三、RNN 如何处理序列数据?

循环神经网络(RNN)的核心优势是处理序列中的时序依赖。在中文分词中,每个字符的标签不仅取决于自身,还与前后文相关。

1. 字符表示:从文字到向量

每个中文字符需要先转换为数字向量(Embedding):

  • 例如,使用预训练词向量(

你可能感兴趣的:(rnn,中文分词,人工智能)