自然语言处理——7.7 词性标注概述

面临的问题

词性(part-of-speech, POS)标注(tagging)的主要任务是消除词性兼类歧义。在任何一种自然语言中,词性兼类问题都普遍存在。例如:

  • 在英语中
    (1) Time flies like an arrow.
    (2) I want you to web our annual report.
    对 Brown 语料库的统计,55%词次兼类。汉语中常用词兼类现象严重,《现代汉语八百词》兼类占 22.5%。
  • 在汉语中
    (1) 形同音不同,如:“好(hao3,形容词)、好(hao4,动词)”
    这个人什么都好,就是好酗酒。
    (2) 同形、同音,但意义毫不相干,如:“会(会议,名词)、会(能够、动词)”
    每次他都会在会上制造点新闻。
    (3) 具有典型意义的兼类词,如:“典型(名词或形容词)”、“教育(名词或动词)”
    用那种方式教育孩子,简直是对教育事业的侮辱。
    (4) 上述情况的组合,如:“行(xing2,动词/形容词;hang2,名词/量词)”
    每当他走过那行白杨树时,他都感觉好像每一棵树都在向他行注目礼。

标注集的确定原则

不同语言中,词性划分基本上已经约定俗成。
自然语言处理中对词性标记要求相对细致。

  • 一般原则
    · 标准性: 普遍使用和认可的分类标准和符号集;
    · 兼容性: 与已有资源标记尽量一致,或可转换;
    · 可扩展性:扩充或修改。
  • UPenn Treebank 的词性标注集确定原则
    • 可恢复性(recoverability):从标注语料能恢复原词汇或借助于句法信息能区分不同词类;
    • 一致性(consistency):功能相同的词应该属于同一类;
    • 不明确性(indeterminacy):为了避免标注者在不明确的条件下任意决定标注类型,允许标注者给出多个标记(限于一些特殊情况)。
  • UPenn Treebank 的词性标注集
    • 33 类
    • NN 名词、NR 专业名词、NT 时间名词、VA可做谓语的形容词、VC “是”、VE“有”作为主要动词、VV 其他动词、AD副词、M 量词,等等。

  • 北大计算语言学研究所的词性标注集
    • 26个基本词类代码,74个扩充代码,标记集中共有106个代码。
    名词(n)、时间词(t)、处所词(s)、方位词(f)、数词(m)、量词(q)、区别词(b)、代词(r)、动词(v)、形容词(a)、状态词(z)、副词(d)、介词(p)、连词(c)、助词(u)、语气词(y)、叹词(e)、拟声词(o)、成语(i)、习用语(l)、简称(j)、前接成分(h)、后接成分(k)、语素(g)、非语素字(x)、标点符号(w)

你可能感兴趣的:(自然语言处理——7.7 词性标注概述)