BugLess++

多重关系抽取（Multiple-Relations）的一些最新顶会论文（海量论文，干货满满）

文章目录

0. 引言
1. A Novel Cascade Binary Tagging Framework for Relational Triple Extraction（ACL 2020）
- 1.1 摘要
- 1.2 动机
- 1.3 贡献
- 1.4 方法论
- - 1.4.1 BERT Encoder
  - 1.4.2 Cascade Decoder
- 1.5 实验结果
2. MrMep: Joint Extraction of Multiple Relations and Multiple Entity Pairs Based on Triplet Attention(ACL 2019)
- 2.1 摘要
- 2.2 动机
- 2.3 贡献
- 2.4 方法论
- - 2.4.1 Encoder
  - 2.4.2 Multiple Relation Classifiers
  - 2.4.3 Variable-length Entity Pair Predictor
  - 2.4.4 Training
- 2.5 实验结果
3. Extracting Multiple-Relations in One-Pass with Pre-Trained Transformers(arxiv 2019)
- 3.1 摘要
- 3.2 动机
- 3.3 贡献
- 3.4 方法论
- - 3.4.1 Structured Prediction with BERT for MRE
  - 3.4.2 Self-Attention based on Relative Distance
- 3.5 实验结果
4. GraphRel: Modeling Text as Relational Graphs for Joint Entity and Relation Extraction(ACL 2019)
- 4.1 摘要
- 4.2 动机
- 4.3 贡献
- 4.3 方法论
- - 4.3.1 1st-phase Prediction
  - 4.3.2 2nd-phase Prediction
- 4.5 实验结果
5. Jointly Extracting Multiple Triplets with Multilayer Translation Constraints (AAAI2019)
- 5.1 摘要
- 5.2 动机
- 5.3 贡献
- 5.4 方法论
- - 5.4.1 Tri-part Tagging Scheme
  - 5.4.2 Multi-layer Translation Mechanism
  - 5.4.3 Margin-based Relation Ranker
- 5.5 实验结果
6. Multi-Labeled Relation Extraction with Attentive Capsule Network (AAAI2019)
- 6.1 摘要
- 6.2 动机
- 6.3 贡献
- 6.4 方法论
- - 6.4.1 Feature Extracting Layer
  - 6.4.2 Feature Clustering Layer
  - 6.4.3 Relation Predicting Layer
- 6.5 实验结果
7. Learning the Extraction Order of Multiple Relational Facts with Reinforcement Learning (EMNLP 2019)
- 7.1 摘要
- 7.2 动机
- 7.3 贡献
- 7.4 方法论
- - 7.4.1 Seq2Seq Model with Copy Mechanism
  - 7.4.2 Reinforcement Learning Process
  - 7.4.3 Training
- 7.5 实验结果

0. 引言

1. A Novel Cascade Binary Tagging Framework for Relational Triple Extraction（ACL 2020）

1.1 摘要

从非结构化文本中提取关系三元组是构建大规模知识图的关键。然而，现有的研究在**解决同一句子中的多个关系三元组共享相同实体的重叠三元组问题**上很少有出色的成果。在这项工作中，我们引入了一个新的视角来重新审视关系三元提取任务，并提出了一个新的级联二元标记框架(CASREL)，该框架源于一个原则性的问题公式。我们的新框架不像以前那样把关系当作离散的标签来处理，而是将关系建模为将句子中的主语映射到主语的函数，这样自然就处理了重叠的问题。实验表明，即使CASREL框架的编码器模块使用了一个随机初始化的BERT编码器，它的性能也已经超过了最新的方法，这表明了这个新的标签框架的强大能力。当使用一个预先训练好的BERT编码器时，它的性能得到了进一步的提升，在两个公共数据集NYT和WebNLG上，它的F1-score的绝对增益分别超过最强基线17.5和30.2。对重叠三元组的不同场景的深入分析表明，该方法在所有这些场景中提供一致的性能增益。

1.2 动机

但是，大多数现有的方法不能有效地处理一个句子包含多个相互重叠的关系三元组的场景。图1演示了这些场景，三元组在一个句子中共享一个或两个实体。这个重叠的三重问题直接挑战了传统的序列标签模式，即每个标记只包含一个标签。

尽管他们取得了成功，但以前提取重叠三元组的工作仍有很多不足之处。具体地说，它们都把关系当作离散的标签，分配给实体对。该公式使关系分类成为一个困难的机器学习问题。第一，类别分布高度不平衡。在所有被提取的实体对中，大多数都没有形成有效的关系，产生了太多的负面示例。第二,分类器可以混淆在相同的实体参与多个有效的关系(重叠的三元组)。如果没有足够的训练实例，分类器很难分辨出实体参与了哪种关系。因此，所提取的三元组通常是不完整和不准确的。

1.3 贡献

在这项工作中，我们从关系三元提取的原则公式开始，就在三元层。这就产生了一个通用的算法框架，通过设计来处理重叠的三重问题。该框架的核心是一种新的视角，即不再将关系视为实体对上的离散标签，而是将关系建模为将主语映射到宾语的函数。

传统的做法是 $f (s, o) - r$ ，我们的做法是 $f_r(s)-o$ 。每个识别的对象(s)给定的主题在一个特定的关系;or不返回对象，表示不存在具有给定主语和关系的三元组。在这个框架下，三重提取是一个两步的过程:首先，我们确定句子中所有可能的主语;然后对每个主体应用特定关系标记来同时识别所有可能的关系和对应的对象。

CASREL是一个端到端的级联二进制标记框架。工作有以下主要贡献：

我们引入了一个新的视角来重新审视关系三元提取任务与原则问题公式，这意味着一个通用的算法框架，解决重叠三元问题的设计。
我们实例化上述框架作为一个新型级联二元标记模型的变压器编码器。这使得模型能够将新的标记框架的能力与预先训练好的大规模语言模型中的先验知识结合起来。
在两个公共数据集上进行的大量实验表明，所提出的框架在F1-score上分别获得17.5和30.2的绝对增益，远远超过了目前最先进的方法。详细的分析表明，我们的模型在所有场景中都获得了一致的改进。

1.4 方法论

我们的目标是最大化训练集D的数据似然性:

Eq.(2)运用了概率链式法则。Eq.(3)利用了一个关键事实，即对于一个给定的主语s，任何与s相关的关系都将导致句子中相应的宾语，而所有其他关系在句子中必然没有宾语，即一个“空”宾语。

这种公式有几个好处。首先, 这种似然所对应的优化直接优化最终三元组的评估标准；其次，它在设计上处理了重叠三元组的问题；第三，对式(3)的分解启发了一种新的三元关系提取标记方案:我们学习了一个识别句子中主语实体的主语标记器p(s|xj);对于每个关系r，我们学习一个对象标记器pr(o|s, xj)，它识别给定主题的特定关系对象。通过这种方式，我们可以将每个关系建模为一个将主题映射到对象的函数，而不是将(主题、对象)对的关系分类。

实际上，这种新的标记方案允许我们一次提取多个三元组:我们首先运行主语标记器来查找句中的所有可能的主语，然后针对每个找到的主语，应用特定关系的宾语标记器来查找所有相关的关系和对应的宾语。

1.4.1 BERT Encoder

编码器模块从句子 $x_j$ 中提取特征信息 $X_j$ ，并将其提供给后续的标签解码模块。我们使用预先训练好的BERT模型对上下文信息进行编码。

1.4.2 Cascade Decoder

基本思想是在两个级联步骤中提取三元组。首先，我们从输入的句子中检测主语。然后对于每一个候选主语，我们检查所有可能的关系，看看是否有一个关系可以把句子中的宾语和主语联系起来。级联解码器与上述两个步骤相对应，由图2所示的两个模块组成:主体标记器;以及一组特定于关系的对象标记器。
Subject Tagger
底层标注模块通过直接解码由n层BERT编码器产生的编码向量 $h_n$ 来识别输入句子中所有可能的主语。更准确地说，它采用两个相同的二进制分类器，通过给每个token分配一个二进制标记(0/1)来分别检测subject的起始位置和结束位置，表示当前token对应的是subject的起始位置还是结束位置。主题标记器对每个令牌的详细操作如下:

对于多subject检测，采用最接近的起始和结束对匹配原则，根据起始和结束位置标记器的结果来确定任意subject的长度。

在给定一个句子表示 $x$ 的情况下，主语标记者优化了下列似然函数来识别主语的span:

Relation-specific Object Taggers
高级标记模块同时识别在低级标记中获得的object及其与被标记对象之间的关系。如图2所示，它由一组关系特定的对象标记器组成，对于所有可能的关系，它与底层模块中的主题标记器具有相同的结构。所有对象标记器将同时为每个检测到的主体识别对应的object，特定于关系的对象标记器对每个令牌的详细操作如下：

关系r的对象标记器优化了以下似然函数，以确定给定句子表示 $x$ 和主语 $s$ 的对象 $o$ 的span：

1.5 实验结果

2. MrMep: Joint Extraction of Multiple Relations and Multiple Entity Pairs Based on Triplet Attention(ACL 2019)

2.1 摘要

本文主要研究如何从非结构化文本中提取多个关系事实。神经编解码器模型为联合提取关系和实体对提供了一种可行的新方法。然而，这些模型要么不能处理关系事实之间的实体重叠，要么忽略了生成整个实体对。在这项工作中，我们提出了一种新颖的架构，以两种优雅的方式扩充编码器和解码器。首先，我们对每个关系使用一个二元CNN分类器，它识别文本中保留的所有可能的关系，同时保留目标关系表示，以帮助识别实体对。其次，我们对文本执行多头注意和三元组注意，目标关系与文本的每个token交互，以一种连续的方式精确地产生所有可能的实体对。三个基准数据集实验表明,我们方法成功地解决了多个关系和多个实体对的问题，即使是复杂的重叠情况。

2.2 动机

联合提取关系和实体对并不是一项简单的任务，因为文本中可能存在多个关系，而每个目标关系可能对应多个实体对。这个问题更具有挑战性的方面是，不同的三胞胎之间可能存在复杂的重叠。如下图所示：

现有的一些方法存在一定的缺陷，为了为一个关系类型提取多个实体对，CopyR和HRL都必须在多次传递中重复预测关系类型，这在计算上效率很低。

2.3 贡献

我们提出了一种联合提取多个关系和多个实体对(MrMep)的新方法，既简单又有效。MrMep利用一个三元组注意力来利用关系之间的连接和它相应的实体对。它首先预测所有可能的关系，然后对于每个目标关系，它使用指针网络的一个变体依次生成所有头和尾实体的边界(开始/结束位置)，以此模型生成所有可能的实体对作为答案。这样，对于每个候选关系类型，只需要执行一次关系检测，就可以提取出所有可能的实体对，避免了CopyR和HRL都采用的关系识别的重复过程。此外，我们通过指针网络的一种变体来处理实体重叠问题。它可以顺序地在文本中的任意位置生成实体边界。因此，它允许实体自由地参与不同的三元组。

提出了一种新的神经网络方法MrMep，该方法首先提取所有可能的关系，然后对每个目标关系提取所有可能的实体对，然后将这两个过程打包成一个联合模型，联合训练。
MrMep采用三元组注意加强了关系对和实体对之间的连接，对于复杂的重叠三元组，即使在轻量级的网络架构下，计算效率也很高。
通过在三个基准数据集上的广泛实验，我们证明了MrMep在F1得分上分别比最具竞争力的先进方法提高了7.8%、7.0%和9.9%。

2.4 方法论

下图显示了提议的MrMep的总体架构。它由编码器、多关系分类器和变长实体对预测器三个主要部分组成。编码器预处理源文本和提取sequence-level特性使用很LSTM。多个关系分类器预测所有可能的关系, 变长实体对预测对于每个可能的关系类型，顺序生成所有可能的实体对。

2.4.1 Encoder

2.4.2 Multiple Relation Classifiers

关系分类器的目的是识别文本中包含的关系类型。由于一个文本可能包含多个关系，受多标签分类思想的启发，我们分别设计了基于M CNN (Kim, 2014)的二进制分类器，其输出是对应关系是否是可能关系的概率分布。

为了更好的利用LSTM和CNN所提取的特征，在编码器的最后一个字表示 $x_n$ 和CNN的文本嵌入 $Q$ 之间使用一个拼接算子，得到一个融合向量：

第 $j$ 种关系类型的二值分类器如下(省略偏差 $b$ 进行简化)：

如果文本中包含第 $j$ 种关系类型，则将 $R_j$ 输入变长实体对预测器中帮助识别实体对。

2.4.3 Variable-length Entity Pair Predictor

给定一个文本，以及由关系分类器输出的目标关系类型，变长实体对预测器的目标是提取其所有可能的实体对。基于指针网络，我们通过识别文本中单词的开始和结束位置索引来确定一个实体。如图2所示，实体对是由一系列索引生成的。每两个索引可以识别一个实体，每两个实体按顺序形成一个实体对。我们的模型可以一次性探索所有可能的关系，并通过轻量级序列解码器预测给定关系的所有可能的实体对。
Multi-head Attention

Triplet Attention
在文本的每个位置，通过注意机制得到一个加权值，该加权值表示标记与目标关系类型的匹配程度。由于其目的是为目标关系提取候选实体对，因此我们将此注意称为三元注意。我们研究了实现三重关注的两种不同模式:并行模式和分层模式。
Paralleled Mode：

Layered Mode：

2.4.4 Training

联合训练模型，得到损失 $L$ :

2.5 实验结果

关系重叠vs实体对重叠：根据重叠是关系重叠还是实体对重叠，我们从测试集得到两个子集:(1)关系重叠:一个关系连接两个或两个以上不同的实体对(NYT测试集中有462个文本);(2)实体对重叠:一个实体对连接两个或两个以上的关系(NYT测试集中969个文本)。

3. Extracting Multiple-Relations in One-Pass with Pre-Trained Transformers(arxiv 2019)

3.1 摘要

从输入段落文本提取多个实体关系的最先进的解决方案总是需要对输入进行多次编码。本文提出了一种新的解决方案，可以完成多实体关系的提取任务，只需对输入语料库进行一次编码，并取得了新的最高水平的精度性能，如ACE 2005基准证明。我们的解决方案建立在预训练的自注意模型(Transformer)之上。由于我们的方法使用一次遍历来计算所有的关系，它可以很容易地扩展到更大的数据集;这使得它在实际应用中更有用。

3.2 动机

RE的一种特殊类型是多重关联提取(MRE)，其目的是识别来自输入段落的多个实体提及对之间的关系。在实际应用中，由于输入段主要包含多个实体对，因此有效解决MRE问题具有更重要和更实际的意义。然而，几乎所有现有的MRE任务方法采用单一关联抽取方法的一些变体，该方法将每一对提及的实体视为一个独立实例，并要求对多对实体进行多次编码。这种方法的缺点是很明显的——它的计算成本很高，而且当输入段落很大时，这个问题会变得更加严重，当编码步骤涉及深度模型时，这个解决方案就不可能实现。

3.3 贡献

本文提出了一种解决方案，通过对输入进行一次编码，解决了现有MRE解决方案中多次传递效率低的问题，极大地提高了效率和可扩展性。在本文中，我们使用BERT作为编码器，但该解决方案并不仅限于使用BERT。对原BERT体系结构进行了两种新的改进:(1)引入了一个结构化预测层，用于预测不同实体对的多重关系;(2)我们使自注意层意识到所有实体的位置。就我们所知，这项工作是第一个有意义的解决方案，可以解决MRE任务具有如此高的效率(编码输入在一次通过)和效率(实现一个新的最先进的性能)，在ACE 2005基准证明。

3.4 方法论

本节描述了所提出MRE解决方案。该解决方案建立在基于BERT的结构化预测层上，利用one-pass编码实现对多个关系的预测，并建立实体感知的自注意机制，将多个实体的关系信息注入每个隐藏状态层。该框架如下图所示。

3.4.1 Structured Prediction with BERT for MRE

原始模型中使用的最终预测层并不适用于MRE任务。MRE任务本质上要求对以实体作为节点的图执行边预测。我们提出可以先使用BERT对输入段进行编码。因此，对实体提及 $e_i、e_j)$ 的表示可以分别表示为 $o_i$ 和 $o_j$ 。在提到多个隐藏状态的情况下(由于字节对编码)， $o_i$ 通过平均池聚合在上一个BERT层对应token的隐藏状态上。然后我们将其传递给一个线性分类器来预测它们之间的关系。

3.4.2 Self-Attention based on Relative Distance

关键概念是使用单词和实体之间的相对距离来编码每个实体的位置信息。这些信息通过注意力机制在不同的层进行传播。

我们认为，如果距离超过一定的阈值，相对距离信息将没有帮助。因此，我们首先定义距离函数为:

这个距离定义将所有距离剪辑到一个区域 $[- k, k]$ 。

如上面定义的，如果标记 $x_i,x_j$ 属于一个实体，我们将根据它们的距离引入相对位置表示。距离是以实体为中心的方式定义的，因为我们总是计算从提到的实体到另一个令牌的距离。如果实体均未提及，则显式地为分配一个零向量。

3.5 实验结果

4. GraphRel: Modeling Text as Relational Graphs for Joint Entity and Relation Extraction(ACL 2019)

4.1 摘要

本文提出了一种利用图卷积网络(GCNs)联合学习命名实体和命名关系的端到端关系提取模型GraphRel。与之前的基线相比，我们通过关系加权GCN考虑命名实体和关系之间的交互，以更好地提取关系。利用线性结构和依赖结构提取文本的序列特征和区域特征，利用完整的词图提取文本所有词对之间的隐含特征。使用基于图的方法，对重叠关系的预测比以前的顺序方法有了很大的改进。我们在两个公共数据集:NYT和WebNLG上评估GraphRel。比之前的工作性能提高了3.2%和5.8% (F1得分)。

4.2 动机

当前关系抽取有下面两个问题一直还没有充分掌握：1. 对重叠关系的预测，即共同提及的关系; 2. 考虑关系之间的相互作用，特别是重叠关系。

关系提取的一个挑战是如何考虑关系之间的交互，这对于重叠关系，即共享公共实体提及的关系尤为重要。

For example, (BarackObama, PresidentOf, UnitedStates) can be inferred from (BarackObama, Governance, UnitedStates); the two triplets are said to exhibit EntityPairOverlap. Another case is that the former triplet could also be inferred from (BarackObama, LiveIn, WhiteHouse) and (WhiteHouse, PresidentialPalace, UnitedStates), where the latter two are said to exhibit SingleEntityOverlap.

4.3 贡献

本文首先提出了一种用于实体识别和关系提取的神经端到端联合模型GraphRel，该模型处理了关系提取的三个关键方面。GraphRel学会通过叠加Bi-LSTM句子编码器和GCN 依赖树编码器，自动提取每个单词的隐藏特征。然后GraphRel 标记实体并预测连接实体的关系三元组，这称为第一阶段预测。

为了优雅地预测关系三元组，同时考虑到它们之间的交互，我们在GraphRel中添加了一个新的2阶段关系加权GCN。在实体loss和关系loss的指导下，在建立新的带关系加权边的全连通图时，第一阶段GraphRel沿着语义依赖提取节点隐藏特征。然后，通过对中间图进行操作，在对每条边进行最终分类之前，第2阶段GCN有效地考虑了实体之间的交互和(可能是重叠的)关系。

该方法考虑了线性结构和依赖结构，以及文本中词对(word-pair)之间的隐含特征。
我们在考虑所有词对(word-pair)进行预测，对实体和关系进行端到端的联合建模。
仔细考虑实体和关系之间的相互作用。

4.3 方法论

我们不仅堆叠了Bi-LSTM和GCN来考虑线性和依赖结构，而且采用了2nd-phase的关系加权GCN来进一步建模实体和关系之间的交互。

图2展示了所提出的包含两阶段预测的GraphRel的总体架构。在第1阶段，我们采用bi-RNN和GCN来提取序列和区域依赖词特征。给定单词特征，我们预测每个单词对的关系和所有单词对应的实体。

然后在第二阶段，在预测的第一阶段关系的基础上，为每个关系建立完整的关系图，并对每个图应用GCN来整合每个关系的信息，进一步考虑实体和关系之间的交互。

4.3.1 1st-phase Prediction

Bi-LSTM
对于每个单词，我们结合单词嵌入和词性嵌入作为初始特征:
Bi-GCN
们使用依赖解析器为输入语句创建依赖树。我们使用依赖树作为输入句子的邻接矩阵和使用GCN提取区域依赖特性。
最初的GCN是为无向图设计的。为了同时考虑输入和输出的单词特性，我们实现bi-GCN，我们将输出和输入的单词特征连接起来作为最终的单词特征。

Extraction of Entities and Relations

利用bi-RNN和bi-GCN中提取的词特征，预测词的实体，提取每个词对之间的关系。对于单词实体，我们根据1层LSTM以上的单词特征对所有单词进行预测，并使用分类损失对其进行训练。

对于关系提取，我们删除依赖边，并对所有词对做预测：

对于词对 $(w 1, w 2)$ ，我们计算所有词对的关系趋势得分，包括非关系，表示为 $S (w 1, n u l l, w 2)$ 。我们对 $S (w 1, r, w 2)$ 应用softmax函数，得到 $P r (w 1, w 2)$ ，它表示每个关系 $r$ 对 $(w 1, w 2)$ 的概率。

4.3.2 2nd-phase Prediction

在第一阶段中提取的实体和关系不考虑彼此。考虑命名实体和关系之间的相互作用,同时考虑到词对文本中的隐藏特征,我们提出一个新颖的第二步关系加权GCN来进一步提取。

经过一轮预测后，我们为每个关系 $r$ 构建完整的关系加权图，其中 $(w 1, w 2)$ 的边为 $P r (w 1, w 2)$ ，如图3所示：

第二阶段在每个关系图上采用bi-GCN，考虑不同关系的不同影响程度，并将聚合作为综合词特征。

第二阶段的bi-GCN进一步考虑了关系加权传播，并为每个单词提取更充分的特征。利用第二阶段的新单词特征，再次对命名实体和关联进行分类，以提高关联预测的鲁棒性。

4.5 实验结果

对于GraphRel，由于我们预测所有单词对的关系，所以所有单词都可以与其他单词有关系:因此实体重叠不是问题。

5. Jointly Extracting Multiple Triplets with Multilayer Translation Constraints (AAAI2019)

5.1 摘要

从非结构化文本语料库中获取结构化信息，三元组提取是构建自动知识库的关键步骤。传统的提取模型采用命名实体识别和关系分类的方式分别提取实体和关系，忽略了两个任务之间的联系。最近，一些基于神经网络的模型被提出来解决这个问题，并取得了最先进的性能。然而，它们中的大多数都无法从一个句子中提取出多个三元组，而这在现实生活场景中却很常见。为了弥补这一不足，本文提出了一种提取多三元组的联合神经提取模型，即TME，该模型能够通过翻译排序机制，自适应地同时发现句子中的多个三元组。在实验中，TME表现出了优越的性能，在F1得分上比最先进的竞争对手提高了37.6%。

5.2 动机

RC分类器的精度相对较低，但召回率较高，这是因为它被许多属于other类别的对所误导（在RC中，other表示实体之间不存在语义关系，或者不存在给定的目标关系集）。
综上所述，现有的联合模型要么用非实用的约束抽取有限的关系(一个句子的关系，或者只与前面的一个实体相关)，要么为RC(所有可能的实体对的关系)产生太多的候选关系。彻底调查表明，主要原因在于他们忽视了多个三元组的影响，而这在现实生活场景中却很常见。

5.3 贡献

直观上，一个好的多重三元组提取器可以：
(1)明智地区分可能涉及到目标关系的候选实体;
(2)学习每个句子的实体和关系的完整特征;
(3)减轻other对RC的影响，同时加强提取器的训练。

综上所述，我们提出研究一个新的多重三元组提取问题，这个问题有实际意义，但在很大程度上被忽视了，本文的贡献至少有四个：

我们提出了一种联合多三联提取器TME，它采用了一种新的多层嵌入转换模型，试图保留实体在提取三联时所拥有的关系特征;
我们设计了一个量身定制的三部分标记方案，严谨地区分候选实体，这有助于减少来自无关实体的噪音;
我们提出通过对候选关系排序来进行关系提取，同时使用指定的关系特征向量来强制执行基于平移的约束;
经过负采样训练，TME通过综合实验证明，在单三联和多三联提取方面都优于竞争对手。

5.4 方法论

5.4.1 Tri-part Tagging Scheme

们提出了一种基于Bi-LSTM+CRF的三部分标记方案(TTS)，目的是给句子中的每个单词一个唯一的标记，用于提取实体特征。它由三个部分组成:

位置部分(PP)中，我们使用“BIO”对单词关于一个实体的位置信息进行编码:“B”表示单词位于一个实体的第一个位置;“I”表示它位于实体第一个后的位置;“O”表示它位于一个非实体的位置。
类型部分(TP)中，我们将单词与实体的类型信息联系起来，例如，在图1中，“PER”、“LOC”和“ORG”分别表示一个人、一个位置和一个组织。
关系部分(RP)中，我们注释句子中的一个实体是否涉及任何关系:“R”表示该实体在句子中涉及某些关系;而N表示不参与任何想要的关系。

5.4.2 Multi-layer Translation Mechanism

我们构造了一个多层模型来获取关系特征。具体表示分为以下三层，分别是embedding、lstm 和反向lstm：

我们要求 $e_1$ 加上 $r$ 接近 $e_2$ 。score函数描述为：

5.4.3 Margin-based Relation Ranker

我们通过排序来完成候选实体对之间关系的决策，即适当的关系会被排得比其他关系高。为了更好地训练我们的关系排序器，我们构造了一个负的样本集T0，它是由原来正确的三元组实体对和替换的关系组成的：

为了训练关系嵌入并鼓励正三元组和负三元组之间的区分，我们在embedding层中将基于边缘的排序(rank)损失函数在训练集上最大化：

Multi-triplets Extraction
进行多三联提取时，对于给定的一句话，我们首先预测得到标签序列。进行关系三三元组提取时，当 $f$ 大于关系专用阈值才是一个候选人三元组。阈值取决于验证集。后来,我们所有候选三元组的前n个三元组视为提取的三元组。

5.5 实验结果

6. Multi-Labeled Relation Extraction with Attentive Capsule Network (AAAI2019)

6.1 摘要

从一个句子中揭示重叠的多重关系仍然是一个挑战。最新工作的神经模型不方便地假设每个句子是显式映射到一个关系的标签,不能妥善处理多个关系的重叠特征关系要么是忽略或很难识别。针对这个新问题，我们提出了一种利用胶囊网络提取多标记关系的新方法。在识别单个句子内高度重叠的关系方面，胶囊网络比目前的卷积网络或循环网络表现得要好得多。为了更好地聚类特征，精确地提取关联，我们进一步设计了基于注意力的路由算法和滑动边缘损失函数，并将它们嵌入到我们的胶囊网络中。实验结果表明，该方法确实能够提取高度重叠的特征，并且在关系提取方面比现有的方法有显著的性能提高。

6.2 动机

之前的神经模型在句子有多个关系标签的情况下不太可能work，并且面临提取高度重叠和离散的关系特征的挑战，主要有以下两个缺点:

首先，一个实体对可以在一个句子中表达多个关系，这将严重影响句子的结构。这些句子包含了多种难以明确识别的关系特征。一个高层次的关系向量还不足以准确表达多个关系。
其次，现有的方法忽略了关系特征的离散化。例如，如图1所示，所有的句子都用离散分布在句子中的几个有意义的单词(图中标记为斜体)来表达它们之间的关系。而常用的神经网络方法处理结构固定的句子，很难收集到不同位置的关系特征。

6.3 贡献

在本文中，为了提取重叠和离散的关系特征，我们提出了一种新的方法，即使用一个关注的胶囊网络进行公式化标签关系提取。如图1所示，本文方法的关系提取器由特征提取、特征聚类和关系预测三个主要层组成。第一种方法抽取低层语义。第二层将低级特征聚类为高级关系表示，最后一层预测每个关系表示的关系类型。

我们首先通过聚类关系特征，将胶囊网络应用于多标记关系提取。
我们提出了一种基于注意力的路由算法来精确提取关系特征，以及滑动边缘损失函数来很好地学习多个关系。
我们在两个基准测试上的实验表明，我们的方法提供了新的最先进的性能。

6.4 方法论

6.4.1 Feature Extracting Layer

6.4.2 Feature Clustering Layer

6.4.3 Relation Predicting Layer

6.5 实验结果

7. Learning the Extraction Order of Multiple Relational Facts with Reinforcement Learning (EMNLP 2019)

7.1 摘要

多重关系提取任务试图从一个句子中提取所有关系。现有的研究没有考虑句子中关系事实的提取顺序。在本文中，我们认为提取顺序是重要的。为了考虑提取顺序，我们将强化学习应用到一个序列到序列的模型中。该模型可以自由地生成关系。在两个公共数据集上进行的大量实验证明了该方法的有效性。

7.2 动机

现有的工作都没有考虑到句子中多个三元组的提取顺序。本文讨论了句子中三元组的提取顺序的重要性。以图1为例。提取F1很困难，因为我们一开始就不知道“Arros negre”是什么。f2的提取比较直接，因为句子中的关键词“dish”、“region”是有帮助的。F2可以帮助我们提取f1，因为我们现在相信“arrosneft”是一种食品，所以这个“成分”是“Arrosnegre”和“Cubanelle”之间的一种合适的关系。从这个直观的示例中，我们可以看到被提取的三元组可能会影响其余三元组的提取。

7.3 贡献

为了自动学习句子中多个关系事实的提取顺序，我们提出了一个序列到序列的模型，并在该模型上应用了强化学习。我们之所以遵循生成类型，是因为这样的模型可以以不同的顺序提取三胞胎，便于我们探究三胞胎提取顺序的影响。我们的模型读取一个未加工的句子并一个接一个地生成三胞胎。因此，可以提取句子中的所有三胞胎。为了考虑三元组的提取顺序，我们将三元组的生成过程转换为一个RL过程。序列到序列模型被视为RL策略。动作是我们在每个时间步长中产生的。我们假设更好的生成顺序可以生成更有效的三胞胎。RL奖励与生成的三胞胎有关。一般来说，正确产生的三胞胎越多，奖励就越高。与负对数似然(NLL)损失的监督学习不同，它迫使模型按照ground truth的顺序生成三胞胎，强化学习允许模型自由生成三胞胎以获得更高的奖励。

讨论了多关系抽取任务中的三胞胎抽取顺序问题。据我们所知，这个问题以前从未被解决过。
我们在序列到序列模型上应用强化学习方法来处理这个问题。
我们在两个公共数据集上进行广泛的实验。实验结果表明，该方法的性能优于强基线，分别提高3.4%和5.5%

7.4 方法论

首先介绍了我们的基本模型，然后介绍了如何在其上应用RL。与我们的神经模型也是一个具有复制机制的序列-序列模型。它读取一个原始句子并一个一个地生成三胞胎。我们没有训练NLL损失模型，而是将三联的生成过程作为一个RL过程，并使用reinforcement 算法对模型进行优化。因此，我们不必预先确定每个句子的三胞胎顺序，而是让模型自由地生成三胞胎。

7.4.1 Seq2Seq Model with Copy Mechanism

该模型包括两个组件:编码器和解码器。该编码器是一种双向递归神经网络。我们表示编码器的输出为: $O^E= [o^E_1，…，o^E_n]$ ，其中 $o^E_i$ 等于编码器第 $i$ 个字的输出， $n$ 为句子长度。

生成一个三重值需要三次的步骤。即，在时间步长 $t (t = 1, 2, 3 ， \dots ， T)$ ，如果 $\%3 = 1$ ，我们预测这个关系。如果 $t\%3 = 2$ ，我们复制第一个实体，如果 $t$ ，我们复制第二个实体。 $T$ 是最大的解码时间步。注意 $T$ 总是能被3整除。

假设预定义有m个有效关系，在时间步长t (t = 1,4,7，…)中，计算每个有效关系的置信分数:

为了让模型生成NA-triplet，我们还计算了NA的置信值：

为了复制时间步t (t = 2,5,8，…)中的第一个实体，我们计算源句中每个单词的置信度得分:

同样，为了考虑NA-triplet，我们也计算了NA实体的置信分数。时间步t中的第二个实体(t = 3,6,9，…)与第一个实体几乎相同。唯一的区别是我们还应用了MASK，以避免复制的两个实体是相同的。

7.4.2 Reinforcement Learning Process

模型读取原始句子并生成输出序列。然后我们从输出序列中获得三胞胎并基于它们计算奖励。最后，利用增强算法对模型进行了优化。
State

Action
动作是我们在每个时间步骤中预测(或复制)的。在时间步长t和t%3 = 1中，需要模型(策略)确定三元关系;在时间步骤t中，t%3 = 2或0，模型需要确定从源语句复制的第一个或第二个实体。因此，作用空间A在不同的时间步长t中是变化的：

Reward
我们可以在每三步中得到一个三元组。一旦我们得到了一个三元组，我们就可以把它和ground truth进行比较，从而知道这个三元组是好是坏。一个良好生成的三元组意味着它与一个ground truth相同，而与任何已经生成的三胞胎不同。当我们经过三个步骤得到一个好的三元组时，我们给这三个步骤中的每一个分配奖励1。否则，我们给他们奖励0。在生成有效的三胞胎之后，我们可能需要生成NA -三胞胎。如果我们正确地生成了NA-triplet，我们将奖励0.5分配给这三个步骤中的每一个，否则奖励0。

7.4.3 Training

该模型可以采用监督学习损失和强化学习损失两种方式进行训练。然而，监督学习迫使模型，按照ground truth的顺序生成三胞胎，而强化学习允许模型自由生成三胞胎。

NLL Loss

RL Loss

7.5 实验结果

你可能感兴趣的:(NLP的知识库,算法,人工智能,深度学习,知识图谱,自然语言处理)

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
x86-64汇编语言训练程序与实战十除以十等于一
本文还有配套的精品资源，点击获取简介：汇编语言是一种低级语言，与机器代码紧密相关，特别适用于编写系统级代码及性能要求高的应用。nasm编译器是针对x86和x86-64架构的汇编语言编译器，支持多种语法风格和指令集。项目Euler提供数学和计算机科学问题，鼓励编程技巧应用，前100个问题的答案可共享。x86-64架构扩展了寄存器数量并引入新指令，提升了数据处理效率。学习汇编语言能够深入理解计算机底层
男士护肤品哪个牌子好？十大男士护肤品排行榜高省APP珊珊
很多男生意识到护肤的必要性，开始着手护肤，但不知道该选哪个男士护肤品品牌使用好。目前市面上很多男士护肤品品牌，可谓琳琅满目，让人眼花缭乱。男士挑选护肤品时，根据自己皮肤需求去正规渠道挑选合适的知名护肤品比较放心靠谱。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入
三菱PLC全套学习资料及应用手册 good2know
本文还有配套的精品资源，点击获取简介：三菱PLC作为工业自动化领域的核心设备，其系列产品的学习和应用需要全面深入的知识。本次资料包为学习者提供从基础到进阶的全方位学习资源，包括各种型号PLC的操作手册、编程指南、软件操作教程以及实际案例分析，旨在帮助用户系统掌握PLC的编程语言、指令系统及在各类工业应用中的实施。1.三菱PLC基础知识入门1.1PLC的基本概念可编程逻辑控制器（PLC）是工业自动化
2022-10-20 体力劳动者
不因感觉稍纵即逝就不加记录。在女儿睡觉后我记下今天的小故事。接手新班级后，今天是第二次收到家长的感谢信（微信）。是我表扬次数最多的两位学生家长致来的感谢，他们明显感受到孩子自信、阳光了不少，写作业由被动变为了主动，家庭氛围也由鸡飞狗跳变成了其乐融融。在被顽皮的学生气得头晕之后，我感到了久违的价值感，责任感甚至使命感，我回复家长这样一句话：我们也需要家长的反馈好让我们的教育工作更有劲头。我也认识到，
程翔授《评价一篇记叙文》行吟斯基
桂林十一中高一2中学生自读程老师学生文章板书课题师巡看。看完举手。问：它是记叙文。不商量。独立打分。学生评价打分。师：高低都正常，不受干扰。师巡，略评。打完举手。调查：分层次举手——高分先举手。最低分。最高95分。最低45分。女：差距太大！师：同一篇，相差55分。若是你的文章，愿落谁手？男：身临其境感觉。师：你有此经历？没也没关系。女：不优美……，结尾无升华……无感悟……师：辞藻不美？(师追问)男
《玉骨遥》：大司命为什么不杀朱颜？原因没那么简单 windy天意晚晴
《玉骨遥》里，朱颜就是时影的命劫之人。重明与时影早就知道，他们一直瞒着大司命，如今大司命也知道了真相。可是大司命却没有杀朱颜，而是给朱颜下了诛心咒，还说时影的命劫已经破了，真的如此吗？1、计划总是赶不上变化的大司命从目前剧情来说，大司命还不如时影，他信心十足的事情总会有纰漏。他不让时影见命劫之女，结果时影还是遇上了。他想让时影走火入魔，一心复仇，结果时影在朱颜的劝说下放下了仇恨。大司命让时影开山收
移动端城市区县二级联动选择功能实现包 good2know
本文还有配套的精品资源，点击获取简介：本项目是一套为移动端设计的jQuery实现方案，用于简化用户在选择城市和区县时的流程。它包括所有必需文件：HTML、JavaScript、CSS及图片资源。通过动态更新下拉菜单选项，实现城市到区县的联动效果，支持数据异步加载。开发者可以轻松集成此功能到移动网站或应用，并可基于需求进行扩展和优化。1.jQuery移动端解决方案概述jQuery技术简介jQuery
日更006 终极训练营day3 懒cici
人生创业课（2）今天的主题：学习方法一：遇到有用的书，反复读，然后结合自身实际，列践行清单，不要再写读书笔记思考这本书与我有什么关系，我在哪些地方能用到，之后我该怎么用方法二：读完书没映像怎么办?训练你的大脑，方法：每读完一遍书，立马合上书，做一场分享，几分钟都行对自己的学习要求太低，要逼自己方法三：学习深度不够怎么办？找到细分领域的榜样，把他们的文章、书籍、产品都体验一遍，成为他们的超级用户，向
自律打卡第四天：比昨天进步一点点花儿的念想
今天新闻我们县城又确诊了一例，截止目前已经确诊的三例了，打开，看了一篇简友写的武汉的真实情况，有病住不了院，还没等到床位已经去世的消息，心里更加的难受，武汉尚且这样，如果是我们这没有高速没有火车的十八线的小县城发生这种情况，那情况将是更加的不堪设想，不敢想，唯有祈求灾难早点快去，平安才是最大的福气。突然觉得我的自律打卡，比昨天进步一点点。更希望疫情战争每一天都要比昨天好一点，希望一觉醒来听到的是好
15个小技巧，让我的Windows电脑更好用了！曹元_
01.桌面及文档处理第一部分的技巧，主要是围绕桌面的一些基本操作，包括主题设置、常用文档文件快捷打开的多种方式等等。主题换色默认情况下，我们的Win界面可能就是白色的文档界面，天蓝色的图表背景，说不出哪里不好看，但是就是觉得不够高级。imageimage说到高级感，本能第一反应就会和暗色模式联想起来，如果我们将整个界面换成黑夜模式的话，它会是这样的。imageimage更改主题颜色及暗色模式，我们
（二）SAP Group Reporting (GR) 核心子模块功能及数据流向架构解析
数据如何从子公司流转到合并报表的全过程，即数据采集→合并引擎→报表输出，特别是HANA内存计算如何优化传统ETL瓶颈。SAPGroupReporting(GR)核心模块功能及数据流向的架构解析，涵盖核心组件、数据处理流程和关键集成点，适用于S/4HANA1809+版本：一、核心功能模块概览模块功能关键事务码/FioriApp数据采集(DataCollection)整合子公司财务数据（SAP/非SA
9、汇编语言编程入门：从环境搭建到简单程序实现神经网络酱汇编语言 MEPIS GNU工具链
汇编语言编程入门：从环境搭建到简单程序实现1.数据存储介质问题解决在处理数据存储时，若要使用MEPIS系统，需确保有其可访问的存储介质。目前，MEPIS无法向采用NTFS格式（常用于Windows2000和XP工作站）的硬盘写入数据。不过，若硬盘采用FAT32格式，MEPIS就能进行写入操作。此外，MEPIS还能将文件写入软盘和大多数USB闪存驱动器。若工作站连接到局域网，还可通过FTP协议或挂载
月光下的罪恶（5）允歌玖沐
5.被孤立顾纨是转校过来的，进入学校后，回头率很高“诶诶诶，你看那女生，哪个系的？”“不知道没见过。”“看那样，一看就是个胆小的货。”顾纨当做没听到，更狠的话她都听过，更何况女生们耍心眼？“他爸爸是做黑生意的，估计女儿也不是什么好的，你以后离他一家子远点。”她走向自己要上课的教室，一进门，所有人的目光看向她，顾纨若无其事的走进教室，开始上课。下课，一群人站起来，但是很显然，她周围的一圈人都不愿意和
day15｜前端框架学习和算法 universe_01 前端算法笔记
T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
贝多芬诞辰250周年纪念万千星河赴远方
就算不是古典音乐爱好者，你也一定听说过贝多芬。作为古典音乐史上最伟大的音乐家之一，他不仅是古典主义风格的集大成者，同时也是浪漫主义风格的开创者。贝多芬肖像画（1813年）贝多芬的一生共创作了9部交响曲、36首钢琴奏鸣曲、10部小提琴奏鸣曲、16首弦乐四重奏、1部歌剧及2部弥撒曲等等。数量虽然不及前辈海顿、莫扎特多，但他几乎改造了当时所有的音乐表达形式，赋予了它们全新的价值，对后世音乐的发展产生了极
IK分词初心myp
实现简单的分词功能，智能化分词添加依赖配置：4.10.4org.apache.lucenelucene-core${lucene.version}org.apache.lucenelucene-analyzers-common${lucene.version}org.apache.lucenelucene-queryparser${lucene.version}org.apache.lucenel
三件事—小白猫·雨天·八段锦咸鱼月亮
1.最近楼下出现一只非常漂亮的粘人小白猫，看着不像是流浪猫，非常亲人。眼睛比蓝球的还大，而且是绿色的，很漂亮。第一次遇到它，它就跟我到电梯口，如果我稍微招招手，肯定就跟我进电梯了。后来我喂过它几次，好可惜不能养它，一只蓝球就是我的极限了。2.下雨天就心烦，好奇怪。明明以前我超爱看窗外的雨和听雨声，看来近来的心情不够宁静了。3.最近在练八段锦，从第一次就爱上了这个运动，很轻松缓慢，但是却出汗。感觉可
25-1-2019 树藤与海岛呢
hello八月来报道了今天看到了一篇文章就只想记下那两句话：良田千顷不过一日三餐广夏万间只睡卧榻三尺大概的意思就是要珍惜当下不要等来不及的时候才珍惜分享今天的两餐最近没有时间运动呢下个月补回好了说完了哈哈goodnight图片发自App图片发自App
《极简思维》第三部分小洋苏兮
整理你的人际关系如何改善人际关系？摘录：因为人际关系问题是人们生活中不快乐的主要原因。感想：感觉这个说的挺对，之前我总是埋头学习，不管舍友不管自己的合作伙伴的一些事情，但实际上，这学期关注了之后好多了摘录：“亲密关系与社交会让你健康而快乐。这是基础。太过于关注成就或不太关心人际关系的人都不怎么快乐。基本上来说，人类就是建立在人脉关系上的。”感想：但是如果有时想的太多就不太好，要以一个开放的心态跟别
力扣热题100-------54. 螺旋矩阵海航Java之路力扣 leetcode 矩阵 java
给你一个m行n列的矩阵matrix，请按照顺时针螺旋顺序，返回矩阵中的所有元素。示例1：输入：matrix=[[1,2,3],[4,5,6],[7,8,9]]输出：[1,2,3,6,9,8,7,4,5]示例2：输入：matrix=[[1,2,3,4],[5,6,7,8],[9,10,11,12]]输出：[1,2,3,4,8,12,11,10,9,5,6,7]提示：m==matrix.lengthn
我不懂什么是爱，但我给你全部我拥有的香尧
因为怕黑，所以愿意陪伴在夜中行走的人，给他一点点的安全感。因为渴望温柔与爱，所以愿意为别的孩子付出爱与温柔。因为曾遭受侮辱和伤害，所以不以同样的方式施于其他人。如果你向别人出之以利刃，对方还了你爱与包容，真的不要感激他，真的不要赞美他。每一个被人伤害过的人心里都留下了一颗仇恨的种子，他也会想要有一天以眼还眼，以牙还牙。但他未让那颗种子生根发芽，他用一把心剑又一次刺向他自己，用他血荐仇恨，开出一朵温
你要记住，最重要的是:随时做好准备，为了你可能成为更好的自己，放弃现在的自己。霖霖z
打卡人:周云日期:2018年11月09日【日精进打卡第180天】【知～学习】《六项精进》0遍共214遍《通篇》1遍共106遍《大学》2遍共347遍《坚强工作，温柔生活》ok《不抱怨的世界》104-108页《经典名句》你要记住，最重要的是:随时做好准备，为了你可能成为更好的自己，放弃现在的自己。【行～实践】一、修身：（对自己个人）1、坚持打卡二、齐家：（对家庭和家人）打扫卫生，接送孩子，洗衣做饭，陪
SpringMVC执行流程（原理），通俗易懂国服冰 SpringMVC spring mvc
SpringMVC执行流程（原理），通俗易懂一、图解SpringMVC流程二、进一步理解Springmvc的执行流程1、导入依赖2、建立展示的视图3、web.xml4、spring配置文件springmvc-servlet5、Controller6、tomcat配置7、访问的url8、视图页面一、图解SpringMVC流程图为SpringMVC的一个较完整的流程图，实线表示SpringMVC框架提
C++ 计数排序、归并排序、快速排序每天搬一点点砖 c++数据结构算法
计数排序：是一种基于哈希的排序算法。他的基本思想是通过统计每个元素的出现次数，然后根据统计结果将元素依次放入排序后的序列中。这种排序算法适用于范围较小的情况，例如整数范围在0到k之间计数排序步骤：1初始化一个长度为最大元素值加1的计数数组，所有元素初始化为02遍历原始数组，将每个元素值作为索引，在计数数组中对应位置加13将数组清空4遍历计数器数组，按照数组中的元素个数放回到元数组中计数排序的优点和
现在发挥你的优势爱生活的佑嘉
来和我做咨询的一些朋友，涉及到定位的，都会说，我不知道我的优势是什么，你能不能帮我看看？还有一些朋友，喜欢做各种测试来了解自己，测试过后，然并卵。今天，我想来聊聊优势，如何能了解自己的优势是什么。首先，我们要知道，如果要成为“不一般”的人，我们所做的事情，就要基于自身的优势。我做管理者十多年，看到每个员工都有不同的特长，有的擅长数字，有的擅长人际，有的擅长写作。这些知道自己优势并且在这方面刻意练习
2023-11-02 一帆f
发现浸润心田的感觉：今天一个机缘之下突然想分享我的婆媳关系，我一边分享一边回忆我之前和儿媳妇关系的微妙变化，特别是分享到我能感受到儿媳妇的各种美好，现在也能心平气和的和老公平等对话，看到自己看到老公，以己推人以人推己自然而然的换位思考，心中有一种美好的能量在涌动，一种浸润心田的感觉从心胸向全身扩散，美好极了……我很想记住这种感觉，赶紧把它写下来以留纪念，也就是当我看见他人的美好，美好的美妙的浸润心
贫穷家庭的孩子考上985以后会怎样？ Mellisa蜜思言
我出生在一个贫穷的农村家庭，据我妈说，我出生的时候才4斤多，而她生完我以后月子里就瘦到70斤。家里一直很穷，父母都是在菜市场卖菜的，家里还有几亩地种庄稼的。我很小开始就要去帮忙，暑假的生活就是帮忙去卖菜和割稻谷，那时候自己对于割稻谷这种事情有着莫名的恐惧，生怕自己长大以后还是每年都要过着割稻谷这种日子。父母因为忙于生计无暇顾及我的学习，幸好我因为看到他们这样子的生活，内心里有深深的恐惧感，驱使着我
实时数据流计算引擎Flink和Spark剖析程小舰 flink spark 数据库 kafka hadoop
在过去几年，业界的主流流计算引擎大多采用SparkStreaming，随着近两年Flink的快速发展，Flink的使用也越来越广泛。与此同时，Spark针对SparkStreaming的不足，也继而推出了新的流计算组件。本文旨在深入分析不同的流计算引擎的内在机制和功能特点，为流处理场景的选型提供参考。（DLab数据实验室w.x.公众号出品）一.SparkStreamingSparkStreamin
48. 旋转图像 - 力扣（LeetCode） Fiee-77 #数组 leetcode 算法 python 数据结构数组
题目：给定一个n×n的二维矩阵matrix表示一个图像。请你将图像顺时针旋转90度。你必须在原地旋转图像，这意味着你需要直接修改输入的二维矩阵。请不要使用另一个矩阵来旋转图像。示例1：输入：matrix=[[1,2,3],[4,5,6],[7,8,9]]输出：[[7,4,1],[8,5,2],[9,6,3]]示例2：输入：matrix=[[5,1,9,11],[2,4,8,10],[13,3,6,
html页面js获取参数值 0624chenhong html
1.js获取参数值js function GetQueryString(name) { var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = windo
MongoDB 在多线程高并发下的问题 BigCat2013 mongodb DB 高并发重复数据
最近项目用到 MongoDB , 主要是一些读取数据及改状态位的操作. 因为是结合了最近流行的 Storm进行大数据的分析处理，并将分析结果插入Vertica数据库，所以在多线程高并发的情境下, 会发现 Vertica 数据库中有部分重复的数据. 这到底是什么原因导致的呢？笔者开始也是一筹莫展，重复去看 MongoDB 的 API , 终于有了新发现： com.mongodb.DB 这个类有
c++ 用类模版实现链表(c++语言程序设计第四版示例代码) CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T> class Node { private: Node<T> * next; public: T data;
最近情况麦田的设计者感慨考试生活
在五月黄梅天的岁月里，一年两次的软考又要开始了。到目前为止，我已经考了多达三次的软考，最后的结果就是通过了初级考试（程序员）。人啊，就是不满足，考了初级就希望考中级，于是，这学期我就报考了中级，明天就要考试。感觉机会不大，期待奇迹发生吧。这个学期忙于练车，写项目，反正最后是一团糟。后天还要考试科目二。这个星期真的是很艰难的一周，希望能快点度过。
linux系统中用pkill踢出在线登录用户被触发 linux
由于linux服务器允许多用户登录，公司很多人知道密码，工作造成一定的障碍所以需要有时踢出指定的用户 1/#who 查出当前有那些终端登录（用 w 命令更详细） # who root pts/0 2010-10-28 09:36 (192
仿QQ聊天第二版肆无忌惮_ qq
在第一版之上的改进内容: 第一版链接: http://479001499.iteye.com/admin/blogs/2100893 用map存起来号码对应的聊天窗口对象,解决私聊的时候所有消息发到一个窗口的问题. 增加ViewInfo类,这个是信息预览的窗口,如果是自己的信息,则可以进行编辑. 信息修改后上传至服务器再告诉所有用户,自己的窗口
java读取配置文件知了ing
1，java读取.properties配置文件 InputStream in; try { in = test.class.getClassLoader().getResourceAsStream("config/ipnetOracle.properties");//配置文件的路径 Properties p = new Properties()
__attribute__ 你知多少？矮蛋蛋 C++gcc
原文地址: http://www.cnblogs.com/astwish/p/3460618.html GNU C 的一大特色就是__attribute__ 机制。__attribute__ 可以设置函数属性（Function Attribute ）、变量属性（Variable Attribute ）和类型属性（Type Attribute ）。 __attribute__ 书写特征是：
jsoup使用笔记 alleni123 java 爬虫 JSoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式，
JAVA中的集合 Collectio 和Map的简单使用及方法百合不是茶 list map set
List ,set ,map的使用方法和区别 java容器类类库的用途是保存对象，并将其分为两个概念： Collection集合：一个独立的序列，这些序列都服从一条或多条规则;List必须按顺序保存元素，set不能重复元素；Queue按照排队规则来确定对象产生的顺序（通常与他们被插入的
杀LINUX的JOB进程 bijian1013 linux unix
今天发现数据库一个JOB一直在执行，都执行了好几个小时还在执行，所以想办法给删除掉系统环境： ORACLE 10G Linux操作系统操作步骤如下：第一步.查询出来那个job在运行，找个对应的SID字段 select * from dba_jobs_running--找到job对应的sid &n
Spring AOP详解 bijian1013 java spring AOP
最近项目中遇到了以下几点需求，仔细思考之后，觉得采用AOP来解决。一方面是为了以更加灵活的方式来解决问题，另一方面是借此机会深入学习Spring AOP相关的内容。例如，以下需求不用AOP肯定也能解决，至于是否牵强附会，仁者见仁智者见智。 1.对部分函数的调用进行日志记录，用于观察特定问题在运行过程中的函数调用
[Gson六]Gson类型适配器(TypeAdapter) bit1129 Adapter
TypeAdapter的使用动机 Gson在序列化和反序列化时，默认情况下，是按照POJO类的字段属性名和JSON串键进行一一映射匹配，然后把JSON串的键对应的值转换成POJO相同字段对应的值，反之亦然，在这个过程中有一个JSON串Key对应的Value和对象之间如何转换(序列化/反序列化)的问题。以Date为例，在序列化和反序列化时，Gson默认使用java.
【spark八十七】给定Driver Program，如何判断哪些代码在Driver运行，哪些代码在Worker上执行 bit1129 driver
Driver Program是用户编写的提交给Spark集群执行的application，它包含两部分作为驱动： Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身，当计算任务在Worker执行时，执行计算逻辑完成application的计算任务
nginx 经验总结 ronin47 nginx 总结
　　　深感nginx的强大，只学了皮毛，把学下的记录。　　　获取Header 信息，一般是以$http_XX（ＸＸ是小写）获取body,通过接口，再展开，根据Ｋ取Ｖ　　　获取uri,以$arg_XX &n
轩辕互动-1.求三个整数中第二大的数2.整型数组的平衡点 bylijinnan 数组
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class ExoWeb { public static void main(String[] args) { ExoWeb ew=new ExoWeb(); System.out.pri
Netty源码学习-Java-NIO-Reactor bylijinnan java 多线程 netty
Netty里面采用了NIO-based Reactor Pattern 了解这个模式对学习Netty非常有帮助参考以下两篇文章： http://jeewanthad.blogspot.com/2013/02/reactor-pattern-explained-part-1.html http://gee.cs.oswego.edu/dl/cpjslides/nio.pdf
AOP通俗理解 cngolon spring AOP
1.我所知道的aop 初看aop,上来就是一大堆术语，而且还有个拉风的名字，面向切面编程，都说是OOP的一种有益补充等等。一下子让你不知所措，心想着：怪不得很多人都和我说aop多难多难。当我看进去以后，我才发现：它就是一些java基础上的朴实无华的应用，包括ioc，包括许许多多这样的名词，都是万变不离其宗而已。 2.为什么用aop&nb
cursor variable 实例 ctrain variable
create or replace procedure proc_test01 as type emp_row is record( empno emp.empno%type, ename emp.ename%type, job emp.job%type, mgr emp.mgr%type, hiberdate emp.hiredate%type, sal emp.sal%t
shell报bash: service: command not found解决方法 daizj linux shell service jps
今天在执行一个脚本时，本来是想在脚本中启动hdfs和hive等程序，可以在执行到service hive-server start等启动服务的命令时会报错，最终解决方法记录一下：脚本报错如下： ./olap_quick_intall.sh: line 57: service: command not found ./olap_quick_intall.sh: line 59
40个迹象表明你还是PHP菜鸟 dcj3sjt126com 设计模式 PHP 正则表达式 oop
你是PHP菜鸟，如果你：1. 不会利用如phpDoc 这样的工具来恰当地注释你的代码2. 对优秀的集成开发环境如Zend Studio 或Eclipse PDT 视而不见3. 从未用过任何形式的版本控制系统，如Subclipse4. 不采用某种编码与命名标准，以及通用约定，不能在项目开发周期里贯彻落实5. 不使用统一开发方式6. 不转换（或）也不验证某些输入或SQL查询串（译注：参考PHP相关函
Android逐帧动画的实现 dcj3sjt126com android
一、代码实现： private ImageView iv; private AnimationDrawable ad; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout
java远程调用linux的命令或者脚本 eksliang linux ganymed-ssh2
转载请出自出处： http://eksliang.iteye.com/blog/2105862 Java通过SSH2协议执行远程Shell脚本(ganymed-ssh2-build210.jar) 使用步骤如下： 1.导包官网下载: http://www.ganymed.ethz.ch/ssh2/ ma
adb端口被占用问题 gqdy365 adb
最近重新安装的电脑，配置了新环境，老是出现： adb server is out of date. killing... ADB server didn't ACK * failed to start daemon * 百度了一下，说是端口被占用，我开个eclipse，然后打开cmd，就提示这个，很烦人。一个比较彻底的解决办法就是修改
ASP.NET使用FileUpload上传文件 hvt .net C#hovertree asp.net webform
前台代码： <asp:FileUpload ID="fuKeleyi" runat="server" /> <asp:Button ID="BtnUp" runat="server" onclick="BtnUp_Click" Text="上传" />
代码之谜（四）- 浮点数（从惊讶到思考） justjavac 浮点数精度代码之谜 IEEE
在『代码之谜』系列的前几篇文章中，很多次出现了浮点数。浮点数在很多编程语言中被称为简单数据类型，其实，浮点数比起那些复杂数据类型（比如字符串）来说，一点都不简单。单单是说明 IEEE浮点数就可以写一本书了，我将用几篇博文来简单的说说我所理解的浮点数，算是抛砖引玉吧。一次面试记得多年前我招聘 Java 程序员时的一次关于浮点数、二分法、编码的面试，多年以后，他已经称为了一名很出色的
数据结构随记_1 lx.asymmetric 数据结构笔记
第一章 1.数据结构包括数据的逻辑结构、数据的物理/存储结构和数据的逻辑关系这三个方面的内容。 2.数据的存储结构可用四种基本的存储方法表示，它们分别是顺序存储、链式存储、索引存储和散列存储。 3.数据运算最常用的有五种，分别是查找/检索、排序、插入、删除、修改。 4.算法主要有以下五个特性：输入、输出、可行性、确定性和有穷性。 5.算法分析的
linux的会话和进程组网络接口 linux
会话：一个或多个进程组。起于用户登录，终止于用户退出。此期间所有进程都属于这个会话期。会话首进程：调用setsid创建会话的进程1.规定组长进程不能调用setsid，因为调用setsid后，调用进程会成为新的进程组的组长进程.如何保证？先调用fork，然后终止父进程，此时由于子进程的进程组ID为父进程的进程组ID，而子进程的ID是重新分配的，所以保证子进程不会是进程组长，从而子进程可以调用se
二维数组元素的连续求解 1140566087 二维数组 ACM
import java.util.HashMap; public class Title { public static void main(String[] args){ f(); } // 二位数组的应用 //12、二维数组中，哪一行或哪一列的连续存放的0的个数最多，是几个0。注意，是“连续”。 public static void f(){
也谈什么时候Java比C++快 windshome java C++
刚打开iteye就看到这个标题“Java什么时候比C++快”，觉得很好笑。你要比，就比同等水平的基础上的相比，笨蛋写得C代码和C++代码，去和高手写的Java代码比效率，有什么意义呢？我是写密码算法的，深刻知道算法C和C++实现和Java实现之间的效率差，甚至也比对过C代码和汇编代码的效率差，计算机是个死的东西，再怎么优化，Java也就是和C