面向中国企业关系抽取的双向门控递归单元神经网络

面向中国企业关系抽取的双向门控递归单元神经网络

论文原文:论文原文
摘要:为了帮助金融从业人员有效识别高风险企业、法人或股东,国内外学者构建了风险预警的企业知识图谱。从财经新闻等非结构化数据中提取企业关系是构建企业知识图的重要手段,但其数据结构的不规则性和处理工具的匮乏给关系提取带来了挑战。针对这一问题,本文提出了SDP-BGRU模型,从非结构化数据中提取企业关系,将企业关系提取视为一个分类问题。该模型利用两个实体之间的最短依赖路径(SDP),通过双向门控循环单元(BGRU)网络和支持向量机作为分类器获取特征向量。实验结果表明,该模型在试验数据上取得了较好的效果。

介绍

企业的数量在逐渐增加,企业的违法和不可信行为也在增加。此外,由于当前投资主体的多元化和企业集团管理的发展,企业之间的关系变得越来越复杂,子公司也变得越来越隐蔽。金融从业人员很难掌握相关企业的真实信息,增加了工作量。为了帮助他们有效识别高风险、问题企业、法人或股东,全面了解企业信息,学者或机构构建企业知识图谱进行关联分析、风险预测等研究。谷歌在2012年提出了知识图谱的概念,它可以分为开放领域知识图谱垂直领域知识图谱。企业知识图谱是金融领域的垂直领域知识图谱。构建企业知识图谱,从图中呈现公司、个人、组织、行业等实体信息以及实体关系信息,帮助金融机构更直观地了解和检索相关实体,并进行风险预警。相关企业及其他应用。例如招商银行为了加强风险应对策略,将企业知识图谱融入信贷业务,对客户关系进行调查,全面掌握信息。非结构化数据,如金融新闻、公司公告和社区讨论,包含大量的企业实体和企业关系。从这些非结构化数据中提取企业关系对于构建企业知识图具有重要作用。然而,这些数据结构是不规则的,处理工具也很少。它远低于手动从这些数据中获取关系来更新这些非结构化数据的速度。幸运的是,它可以转化为自然语言处理中的关系抽取任务。
关系抽取是信息抽取的关键任务之一,其目的是识别自然语言文本中两个实体(e1, e2)之间的语义关系。例如“阿里巴巴还在今年4月宣布将以约10亿美元收购东南亚最大电商Lazada ,并将天猫系统的产品出口到东南亚”这句话中,e1和e2的关系是“收购”。早期关系提取主要采用基于特征的方法和基于核的方法。基于特征的方法依赖于使用自然语言处理工具来获取特征,如POS、实体类型、依赖树等。基于核函数的方法取决于核函数的设计。如果特征选择不当或内核函数设计不合理,将难以提高系统的性能。近年来,深度学习作为一种新的机器学习工具和方法,在各个方面都有突出的表现,许多学者逐渐将深度学习应用到关系提取中。与传统的实体关系提取方法相比,基于深度学习的关系提取方法有了很大的改进。神经网络可以自动学习句子中的重要信息,Zeng等人使用位置嵌入和词嵌入作为CNN的输入进行关系提取。DOS Santos等对CNN网络进行了改进,命名为CRCNN,用基于排名的损耗函数代替了softmax损耗函数,提高了精度。但是CNN无法学习远程的语义信息,RNN可以可以利用历史性信息并且考虑词的顺序。Ebrahimi等人提出了利用双向递归神经网络的BRNN模型,Rui Cai等人将CNN和RNN与最短相关路径(SDP)信息相结合。虽然RNN可以学习上下文信息,但由于梯度问题的消失,上下文范围受到限制,因此除了CNN和RNN之外,还有许多优秀的网络,如长短期记忆(Long - term Memory, LSTM)、双向长短期记忆(双向长短期记忆,BLSTM)、门控递归单元(Gated recurunit, GRU)等。Yan等人提出了SDP-LSTM模型。网络通过单向LSTM网络学习了两个实体之间的最短依赖路径信息以及路径上的POS、WordNet超名词等特征,而使用单向网络只能利用序列当前位置的历史信息,而未来的信息也有助于当前位置的输出。因此,Zhou等提出了双向长短期记忆(BLSTM)来提取关系,与Yan中的复杂特征相比,该模型仅使用单词嵌入和PI (Position indicator)作为输入,并增加了注意机制。结果表明,利用双向网络和注意机制可以提高模型的性能。注意机制可以赋予重要信息更多的权重,提高系统性能。Lin等人还为模型构建了句子级注意机制,用于动态地降低那些噪声实例的权重。GRU模型是LSTM模型的一种变体,比LSTM网络结构简单,参数少。Zhang等人使用带有双层注意机制的BGRU提取字符关系,但忽略了句子成分之间的依赖关系。Zhou等人采用带注意机制的BGRU模型对实体和实体关系进行联合提取,但联合提取模型实现复杂。Yan等人构建了ERE-GRU模型进行企业关系提取,在其网络中增加了6个特征,这些特征数量较多,增加了向量表示的维数。
依赖分析是自然语言处理的关键技术之一,它可以确定句子的句法结构或句子中单词之间的依赖关系。通过句法分析得到实体之间最短的依赖路径,该路径集中了实体关系的大部分关键信息。证明了最短依赖路径在关系抽取任务中的有效性。受到上述思想的启发,**本文提出了用于企业关系抽取的SDP-BGRU模型。**该模型利用两个实体之间的最短路径和句子级注意机制来消除冗余和噪声数据,BGRU网络充分学习最短依赖路径中包含的信息,从而实现对信息的全面学习,采用支持向量机分类器来提高系统的性能。

方法

本文提出的模型包括五个部分:最短相关路径获取、词嵌入、BGRU、注意力和SVM分类器。给定两个实体和包含两个实体的句子,模型输出两个实体之间存在一定关系的概率。图1是模型的总体框架。
面向中国企业关系抽取的双向门控递归单元神经网络_第1张图片

最短的依赖路径

依赖解析树自然适合于关系分类,因为它关注的是句子中的动作和代理。此外,如前所述,最短的依赖路径浓缩了最具启发性的实体关系信息。因为如果实体e1和e2是相同谓词的参数,则它们之间最短的依赖路径将传递谓词,如果e1和e2属于共享相同参数的不同谓词参数结构,则路径将传递参数[9]。使用最短的依赖路径可以去除句子中大量的冗余组件。例如,“作为中国电商巨头,阿里巴巴在今年4月宣布将以约10亿美元收购东南亚最大的电商Lazada ,并将天猫系统的产品出口到东南亚”。通过相关性分析,可以得到如图2所示的依赖树。
面向中国企业关系抽取的双向门控递归单元神经网络_第2张图片
从依赖解析树中可以看出,阿里巴巴与Lazada之间的最短路径是“阿里巴巴宣布收购Lazada”,这条最短依赖路径包含了关系抽取的重要信息,句子中有大量无用的成分。

词嵌入

当使用深度学习进行语言处理时,语言必须以数学形式表达。本文采用了词语嵌入。给定一个由T个单词组成的句子,每个单词xi通过单词嵌入矩阵w转换为实值向量 W w o r d = R d w ∣ V ∣ W^{word}=R^{d^w|V|} Wword=RdwV。其中v代表固定大小的词汇表,wd是单词嵌入的大小。在本文中,我们使用word2vec工具来训练中文维基百科语料上的词嵌入。这个句子被转换成{ e 1 , e 2 , e 3 , … … , e T e_{1},e_{2},e_{3},……,e_{T} e1,e2,e3,,eT}进入下一层

BGRU

GRU网络是LSTM网络的一种变体,在许多任务中取得了巨大的成功。LSTM通过三个门来解决长期依赖问题:遗忘门、输入门和输出门。遗忘门决定从细胞状态中丢弃什么信息,输入门决定允许输入多少新信息,输出门决定输出值。GRU网络的结构比LSTM网络简单,它将LSTM中的三个门转换为两个门,更新门和重置门,如果
X i X_{i} Xi表示当前时刻的输入, h t − 1 h_{t-1} ht1 表示之前时刻的输出, W 1 , W 2 , W 3 , W 4 W^1,W^2,W^3,W^4

你可能感兴趣的:(自然语言处理,神经网络,知识图谱,人工智能)