论文理解—— Disentangle-based Continual Graph Representation Learning

EMNLP 2020 Disentangle-based Continual Graph Representation Learning

链接: https://arxiv.org/abs/2010.02565

研究背景:

多关系数据表示真实世界中实体和实体之间的关系,其中的节点表示实体,边代表实体之间的关系,比如常见的知识图谱和信息网络等。利用图表示学习方法对多关系图建模一直是学术界和业界关注的热点。图表示学习目的是将图中的节点和/或边嵌入到一个低维语义空间中,使神经模型能够有效地利用多关系数据,更好的用于问答、对话系统等下游NLP任务中。

然而,大多数现有的图表示学习工作忽略了在真实场景中数据是不断到来的特性。因此,这些模型必须从头再训练以反映数据的变化,这在计算上是很昂贵的。为了解决这一问题,我们在本文中研究“图表示学习的可持续性研究”(CGRL)问题。持续学习的目标是避免在学习新数据时灾难性地忘记旧数据。NLP中有两种主流的连续学习方法:(1)基于正则化的方法,它们在学习新数据时,动态调整旧数据的重要模型参数;(2)基于内存的方法,这些方法记住了一些旧的例子,并和新数据一起学习。尽管这些方法在分类任务上取得了良好的效果,但它们在图表示学习上的有效性尚未得到验证。因为现有的NLP上的方法都是基于分类模型,而分类模型的特点是不同的数据之间是离散的独立的,可以分别进行处理。但是在多关系图中的节点和边是相互关联的,直接在多关系数据上使用现有的连续学习方法效果上并不好。
论文理解—— Disentangle-based Continual Graph Representation Learning_第1张图片

在认知心理学中,程序性知识是指一组操作步骤。它的最小单位是产生式,多个产生式可以完成一系列的认知活动。人类在学习新的程序性知识时,只会更新一些相关的结果,而不会对其他的结果进行更新。直观上,可以模仿这样的过程,将每一个新数据都视为一种新的程序性知识,学习不断增长的多关系数据。
如图所示是以用户为节点组成的一种多关系图。我们已知用户节点Barack Obama和Michelle Obama的一些相关三元组主要与三个概念有关:“家庭”,“职业”和“地点”。 如果在对话中出现了一条新的关系三元组信息(Michelle Obama,Daughter, Malia Ann Obama)时,我们只需要更新和Barack Obama中与“家庭”相关的一些信息即可,对于他的“职业”或者“地点”等信息不需要再进行学习和更新。在更新后,我们可以进一步推断出三元组(Barack Obama,Daughter,Malia Ann Obama)也是成立的。

受程序性知识学习的启发,我们提出了一个基于就耦合的持续图表示学习框架DiCGRL。我们提出的DiCGRL由两个模块组成:(1)解耦合模块。它将图中的关系三元组按照语义方面分离成多个独立的组件,并利用已有的知识图嵌入(KGE)和网络嵌入(NE)两种典型方法学习解耦合的图嵌入;(2)更新模块。当新的关系三元组到达时,它选择相关的旧关系三元组,只更新它们的图嵌入的对应组件。与基于记忆的保存固定的旧数据集的连续学习方法相比,我们的模型可以根据新数据动态地选择重要的旧数据来,使我们的模型能够更好地建模复杂的多关系数据流。

相关工作:

论文旨在提升多关系图上可持续学习的效果,因此分别从图表示学习技术和可持续学习技术两方面阐述现有技术方案:
(1)图表示学习技术:图的表示学习又叫做图嵌入,这类方法主要是将多关系图中的实体(和关系)用低维向量或矩阵来表示。现实世界中,典型的多关系图主要分为两类:知识图谱(KG)和信息网络。 GE主要包括知识图谱嵌入(KGE)和信息网络嵌入(NE),我们的DiCGRL框架可以同时应用在上述两类典型的GE方法上,这也证明了我们的框架的泛化能力是比较好的。
KGE最近是一个比较活跃的研究领域,在应用到下游的链接预测任务上时可以主要可以分为两类工作。第一类技术利用了重建的方式。他们使用KG三元组中的关系和尾部(或头部)嵌入来重建头部(或尾部)的嵌入,例如,TransE[1],RotatE[2],ConvE[3],ConvKB[4]等模型。第二类技术是基于双线性的模型,他们将知识图谱的链接预测任务视为语义匹配问题。具体方式是将头部,关系和尾部的嵌入作为输入,并使用双线性变换(例如,DistMult[5],ComplEx[6],SimplE[7], CapsE[8],KBGAT[9]等模型)来得到每个三元组的语义匹配分数。
除了KGE,NE在学术界和工业界也得到了广泛的探索。早期的一些方法,例如,致力于学习信息图上的静态节点嵌入。最近,图神经网络(例如,DeepWalk[10],LINE[11]等模型)引起了广泛的关注,并在学习网络嵌入方面取得了显著成功。

(2)持续学习技术:持续学习又叫做终身学习技术,目的是对不断到来的流数据进行增量训练,而且可以有助于减轻灾难性的遗忘之前学过的知识。自然语言处理(NLP)领域中的持续学习方法主要可分为两类:基于正则化的方法(例如EWC[12]等模型),它通过减慢参数更新的速度来保留旧知识;以及基于内存的方法(例如,R-EWC[13],DGR[14],GEM[15],EMR[16]等模型),该方法通过保留旧数据中的一部分示例,并且和新数据一起学习来达到减轻遗忘的效果。
现有的大多数GE模型都假设训练数据是静态的,忽略了真实世界中数据是不断增加的特性,这使得它们在实际应用中不切实际。在论文中,我们研究了多关系图上可持续学习的问题,目的是希望让已有的一些GE方法(包括KGE和NE)能够在不断来的新数据上可以持续的学习,同时尽量不会忘记旧的已学到的知识。
尽管在NLP(例如,LAMAL[17]等模型)和计算机视觉领域(例如EWC[12]等模型)中已经对持续学习进行了广泛的研究,但在多关系图嵌入方面的探索却相对较少。 DySAT[18]方法试图在不断增加的图数据上学习表示。但是,它假定了时间戳信息是事先已知的,这妨碍了将其直接应用于其他任务。论文提出的模型在两个方面与先前的工作不同:(1)DiCGRL不需要预先定义好的时间戳,这使其在各种类型的多关系图中更加可行; (2)DiCGRL利用了解耦合的技术来在图上进行持续学习并可以取得较好的效果。

模型设计:

一、问题的形式化定义

论文所研究的多关系图可以形式化地表示为 G = ( V , E ) G=(V,E) G=(V,E),其中V和E分别表示图上的节点集和边集。给定G中三元组 ( u , r , v ) ⊆ V × E × V {(u,r,v)}⊆V×E×V (u,r,v)V×E×V,我们将它们的嵌入表示为 u , v ∈ R d , r ∈ R l u,v∈R^d,r∈R^l u,vRd,rRl,其中d和l表示向量维度。
论文提出的持续多关系图表示学习是在不断增长的多关系数据上训练图嵌入(GE)的一种模型,其中第i份多关系数据具有自己的训练集 T i T_i Ti,验证集 V i V_i Vi,测试集 Q j Q_j Qj。第i份训练集定义为一组关系三元组,即 T i = { ( u 1 T i , r 1 T i , v 1 T i ) , … , ( u N T i , r N T i , v N T i ) } \mathcal{T}_{i} = \{(u_1^{\mathcal{T}_{i}},r_1^{\mathcal{T}_{i}},v_1^{\mathcal{T}_{i}}),\ldots,(u_N^{\mathcal{T}_{i}},r_N^{\mathcal{T}_{i}}, v_N^{\mathcal{T}_{i}})\} Ti={(u1Ti,r1Ti,v1Ti),,(uNTi,rNTi,vNTi)},其中N是T_i的实例总数。第i份验证集和测试集的定义与训练集类似。通常,在第i份数据集上,GE模型将在 T i T_i Ti上进行训练,以学习新的三元组的表示。随着新的关系三元组的出现,持续的图表示学习要求GE模型在所有先前的验证集上都取得良好的结果。因此,在对第i份训练集 T i T_i Ti进行训练之后,将在 Q ~ i = ⋃ j = 1 i Q j \tilde{\mathcal{Q}}_{i}=\bigcup_{j=1}^{i}\mathcal{Q}_{j} Q~i=j=1iQj

你可能感兴趣的:(网络表示学习,图表示学习,知识图谱,持续学习)