2021-03-01 ner最新进展

2021.3.1

1.ACL2020 | TriggerNER:高效命名实体识别框架

摘要:本文由南加州大学和亚马逊联合发布,文章题目为《TriggerNER: Learning with Entity Triggers as Explanations for Named Entity Recognition 》,已经被ACL2020录用。文章针对命名实体识别中存在的需要大量耗时耗力的人工标注工作现状提出了方法TriggerNER,利用一种能够帮助人们找到实体的触发器entity trigger,通过Trigger Matching Network学习到相关触发器的信息以及触发器跟句子之间的匹配程度,从而更有利于标注。在实验上发现,使用20%的带有触发器的数据训练模型,其能力能够媲美使用70%原始数据训练的模型。

主要贡献:

  1. 提出“entity trigger”的概念,这是命名实体识别问题的一种解释性注释的新颖形式。在两个流行的数据集上众包并公开发布了14k带注释的实体触发器:CoNLL03(通用域),BC5CDR(生物医学域)。2. 提出一种新颖的学习框架,称为“Trigger Matching Network”,该框架对实体触发器进行编码,并柔化未标记的句子,以提高基础实体标记器的效率。3. TMN使用原始CoNLL03数据集中20%的触发器注释语句达到了使用70%的注释语句训练传统模型的性能。
image

概念实体触发器,entity trigger,指的是一组能够在一个完整句子帮助解释实体识别的词语。例如图2,“have…lunch at”跟“where the food”是跟把实体Rumble Fist识别为Restaurant相关联的两个实体触发器。(我的通俗理解应该是动词,谓词,比如轨道交通规范中的采用了,应设置...)

实验对比


成本效益研究

BLSTM-CRF与TMN的劳动效率研究

2.哈工大 | 在NER数据标注中验证标签一致性

贡献:提出了一个实证方法来探讨标签一致性与NER模型性能之间的关系。它可以用于验证多组NER数据注释中的标签一致性(或捕获不一致)。

数据标注在确保指定实体识别(NER)项目得到正确信息的训练方面起着至关重要的作用。由于标注的复杂性,生成最准确的标签是一项挑战。数据标注的多个子集(如训练集和测试集,或多个训练子集)之间的标签不一致是标签错误的一个指标。在本研究中,我们提出了一个实证方法来探讨标签一致性与NER模型性能之间的关系。它可以用于验证多组NER数据注释中的标签一致性(或捕获不一致)。在实验中,我们的方法识别了SCIERC和CoNLL03数据集测试数据的标签不一致(标签错误分别为26.7%和5.4%)。它验证了两个数据集的修正版本的一致性。

3.Tencent Lab | 命名实体识别中未标注实体问题的实证分析

【论文标题】 Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition
【作者团队】Yangming Li,Lemao Liu,Shuming Shi
【发表时间】2020/12/11
【论文链接】https://arxiv.org/abs/2012.05426
【推荐理由】针对句子实体可能没有被完全标注影响模型性能的情况,提出了一种能够消除未标记实体带来的误导的通用方法。
【摘要】在许多场景中,命名实体识别(NER)模型存在未标记实体问题,即句子的实体可能没有被完全标注。通过对综合数据集的实证研究,我们发现了导致性能下降的两个原因。一种是减少带标注的实体,另一种是将未标记的实体视为负面实例。第一个原因的影响小于第二个原因,可以通过采用训练前的语言模型加以缓解。二是严重误导训练模式,严重影响训练效果。基于上述观察,我们提出了一种能够消除未标记实体带来的误导的通用方法。其核心思想是使用负抽样来保持训练未标记实体的概率在一个非常低的水平上。在综合数据集和真实数据集上的实验表明,该模型对未标记实体问题具有较强的鲁棒性,且优于先验基线。在注释良好的数据集上,我们的模型与最先进的方法是SOTA的。

4.ACL 2020 基于机器阅读理解框架的命名实体识别方法

【论文标题】 A Unified MRC Framework for Named Entity Recognition
【作者团队】Xiaoya Li, Jingrong Feng, Jiwei Li
【发表时间】2020/12/11
【论文链接】https://arxiv.org/pdf/1910.11476.pdf
【摘要】本文提出使用基于机器阅读理解(Machine Reading Comprehension, MRC) 的框架代替序列标注模型(sequence labeling) 统一处理嵌套与非嵌套命名实体识别问题。该方法解决了序列标注模型无法处理嵌套命名实体识别的缺陷,在8个中英数据集(OntoNotes4.0/5.0、ACE2004/2005、GENIA、KBP17、MSRA、CoNLL)上取得接近或超过当前最佳效果的表现,尤其是在嵌套任务上大幅超越之前最优结果。
【代码链接】https://github.com/ShannonAI/
mrc-for-flat-nested-ner.
5.[基于专家系统和IM的建筑设计合规性自动检查系统研究]
我的理解:
规则模块:人为指定的实体类别和实体
BIM信息模块:是BIM构建的信息实体类别与实体
然后输入BIM模型具体实体(入户门)的宽度,可以查找出规则中的这条规范,然后通过匹配判断符合还是不符合,输出审查结果。

image.png

你可能感兴趣的:(2021-03-01 ner最新进展)