Analysis of Negative Sampling Methods for Knowledge Graph Embedding

摘要

负采样是一种用于加速知识图嵌入学习和最大化嵌入模型在链接预测和实体解析等支持任务中的有效性的方法。负采样对于提高准确性、减少偏差、提高效率和改善代表性至关重要。本文仔细研究了在基准数据集Fb15k上,张量分解和平移嵌入模型的两种基本负采样技术增加每正负采样数量的后果。对于均匀抽样和伯努利抽样,值得注意的是,基于每阳性负的数量增加而显示性能变化的模式。

我们的目标是确定不同的负采样参数对张量分解模型和平移模型的结果

II. RELATED WORK

B. Negative Sampling

负样本在kg机器学习模型的训练中发挥着至关重要的作用,有助于这些模型的准确性、效率和可扩展性。通过产生高质量的负样本,可以提高对模型性能的评估,这也可以作为更好的训练数据的基础,并且可以提高链接预测和实体解析等任务的性能。负抽样是优化KG训练中机器学习模型效率的一种有价值的技术,存在不同的负抽样技术,可以与千克训练模型配对。下面列出了一些有助于开辟另一条道路的办法:

KG中的均匀抽样[4]是指从KG中以等概率随机选择三元组的过程,不偏向于特定的实体或关系。为了确保用于训练的数据反映了整个KG,而不是偏向于任何特定区域,这种采样技术经常用于KGE模型训练。均匀抽样是直接和有效的,但可能不能像更复杂的抽样方法那样有效地捕捉到KG的潜在结构和模式。

“Translating embeddings for modeling multi-relational data

KG中的伯努利抽样[5]是指以与KG中关系的频率成比例的概率从KG中随机选择三元组的过程。这种抽样方法旨在解决KG中数据不平衡的问题,其中一些关系比其他关系更频繁。通过对频率较低的关系进行更多的三元组采样,模型可以更好地学习这些关系的表示。伯努利采样计算效率高,但可能需要事先了解相关频率,这可能并不总是可用的。

Knowledge graph embedding by translating on hyperplanes

在KG中,NSCaching[9]指的是缓存实体或关系的最近邻居,以加快相似性分数或预测的计算。这种缓存方法涉及在内存中存储每个实体或关系的k个最近邻居,这可以用于快速计算出相似性得分或新查询的预测,而无需执行昂贵的计算。NSCaching是一种常用的加速KGE模型推理的技术,可以显著减少进行预测所需的时间。

NSCACHING: Simple and efficient negative sampling for knowledge graph embedding

IGAN (inductivegenerative Adversarial Networks) [7] KG中的负采样技术是指使用生成式对抗网络(Generative Adversarial network, GAN)生成负样本用于训练的过程。GAN通过学习负三元组在KG中的分布来训练生成似是而非的负样本,而鉴别器网络被训练来区分真实样本和生成的负样本。生成的负样本用于训练KGE模型,该模型学习区分正负三元组。IGAN负抽样是解决KGE中数据稀疏性和类不平衡问题的有效方法,可以增强KGE模型的执行力。

Incorporating gan for negative sampling in knowledge representation learning

KBGAN (Knowledge Base Generative Adversarial Network,知识库生成对抗网络)[8]是一个术语,用于描述为使用GAN训练KGE模型而创建负样本的过程。当鉴别器网络被训练来区分真实和生成的负样本时,GAN被训练来通过学习负三元组在KG中的分布来产生可信的负样本。利用生成的负样本和二元交叉熵损失函数对KGE模型进行训练。KBGAN负采样可以通过解决图类不平衡和数据稀疏性问题来提高KGE模型的性能。

KBGAN: Adversarial learning for knowledge graph embeddings

KG中的结构感知负抽样(Structure-aware negative sampling, SANS)[10]技术是指考虑到KG的结构信息,生成负样本用于训练KGE模型的过程。该技术涉及对违反KG结构约束的负三元组进行采样,例如传递性和对称性。通过结合这种结构信息,模型可以学习更有效地区分真假三元组或事实。结构感知负抽样是解决图中数据稀疏和类不平衡问题的一种有效方法,可以优化KGE模型的效率.

Structure aware negative sampling in knowledge graphs

8888888888888888888888888888888888888888888888888888888888888888888888888888

IV. RESULTS AND DISCUSSION

表III显示了使用均匀采样和伯努利采样对每一个正的1、5、10、15个负的张量分解和平动模型的研究。随着负号值的增加,可以明显看出平移模型中的TransE和TransR以及张量分解模型中的ComplEx在性能上都有明显的提高。显示出性能的明显提高,因为每一个阳性的阴性数量从1增加到15。其他人也表现出一些差异,尽管有些低调。均匀抽样和伯努利抽样都允许对此进行类似的观察。

你可能感兴趣的:(知识图谱负采样,知识图谱,embedding,人工智能)