Kindle君

【CNN基础】Attention机制的梳理（一）——What is Attention in NLP？

Attention机制梳理（一）——What is Attention in NLP？
Attention机制梳理（二）——How do Attention derive BERT？
Attention机制梳理（三）——What is Attention in CV？
Attention机制梳理（四）——How to conbine Attention in both NLP and CV？

文章目录

〇、带着问题上路

NLP的一些基本概念，如分词 (Tokenization)、词干提取 (Stemming)
Attention的推导

1. query, key, value的理解，跟self-attention的关系？
2. Attention内部mask的物理含义
3. Multi-Head Attention是如何引入的？
4. Attention到底是什么？

Representing The Order of The Sequence Using Positional Encoding

5. src_mask的制作和理解
decoder的shifted right？
decoder的具体训练过程？是否可以并行？它的input是挨个词还是直接进去一个矩阵？
6. `class Batch:`中src和tgt的shape跟src_mask的shape不一致，光看ipynb代码不太好追溯，要用pycharm去debug一下就能很好的理解了
7. Positional Encoding的理解
8. `class Batch:`self.trg和self.trg_y的含义
9. Attention提出的意义在哪里，为什么可以解决数据并行化的问题
10. 输入序列和输出序列中任意位置组合之间的这些路径越短，学习长期依赖关系就越容易。这是啥？

一、Network的理解
二、Dataset的理解

2.1 Data Loading

2.1.1 安装数据：
2.1.2 读取数据
2.1.3 数据形式

2.2 Make Batch
2.3 Synthetic Data

三、Regularization的理解(或Loss的理解)

3.1 Residual Dropout
3.2 Label Smoothing

3.2.1 参数设置
3.2.2 Label Smoothing的理解
3.2.3 示例
3.2.4 代码

四、Optimizer部分学习率的理解

4.1 原文：
4.2 解释
4.3 推导
4.4 示例
4.5 代码

五、Results
六、Examples

6.1 A First Example
6.2 A Real World Example

七、Additional Components: BPE, Search, Averaging

Attention Visualization

本文用到的参考资料：

The Annotated Transformer：Attention代码介绍，网上很多翻译版本都是基于此文章得到的
The Annotated Transformer全文翻译：The Annotated Transformer的翻译版本
Models of The Annotated Transformer：The Annotated Transformer中用到的Model
The Illustrated Transformer：详细地用图片展示了transformer模型的细节，有助于加深对模型的理解
tensorflow-attention is all you need：A TensorFlow Implementation of Attention Is All You Need
Attention Is All You Need全文翻译：Attention Is All You Need的中文翻译
深度学习中的注意力机制：深入浅出阐释什么是Attention，讲的很好！
[论文笔记]Attention is All You Need：一位同事总结的，有自己一定的理解。
深度学习：transformer模型：对论文中的图表加入了自己的理解，可以用浅显的语言讲清楚，同时也会给重点部分加入代码，辅助理解。

〇、带着问题上路

这里列出自己在看论文撸代码时碰到一些问题，希望帮助到跟我一样的NLP小白用户，带着问题上路，更有助于思考

NLP的一些基本概念，如分词 (Tokenization)、词干提取 (Stemming)

《自然语言处理(NLP)的基本概念》

Attention的推导

1. query, key, value的理解，跟self-attention的关系？

【CNN基础】Attention机制的梳理（一）——What is Attention in NLP？_第1张图片

还可以从另一个角度看Attention，那就是键值查询。键值查询应该有三个基本元素：索引（Query），键（Key）和值（Value），你可以理解为这是一个查字典的过程，Key-Value对构成一个字典，用户给一个Query，系统找到与之相同的Key，返回对应的Value。那么问题来了，字典里没有与Query相同的Key怎么办？答案是分别计算Query和每一个已有的Key的相似度 $w$ ，作为权重分配到所有的Value上，并返回它们的加权求和。对应到上面机器翻译的例子，输出序列的局部信息是Query，输入序列的局部信息是Key， $w$ 是二者的相似度，而Value设为1即可。从上面的分析看出，Attention也可以理解为某种相似性度量。（引用自《深度学习中的注意力机制》中“Attention Mechanism”章节中“键值查询”的介绍。深入浅出，值得学习。）

【CNN基础】Attention机制的梳理（一）——What is Attention in NLP？_第2张图片

【CNN基础】Attention机制的梳理（一）——What is Attention in NLP？_第3张图片

在看上面两张图，结合《Transformer模型笔记》中“2. 细节: Multi-Head Attention 与 Scaled Dot-Product Attention”的query, key, value介绍。右图输入input由n个tokens（分词）构成，经过线性变换得到n个Embedding向量，这几个向量分别跟 $W^{O}$ 、 $W^{K}$ 、 $W^{V}$ 相乘得到左图的Q、K、V，Q与K相乘再经过Scale、Mask和SoftMax操作得到相似度得分 $w$ ，作为权重分配到对应的V上，并返回它们的加权求和。前文提到，“对应到上面机器翻译的例子，输出序列的局部信息是Query，输入序列的局部信息是Key， $w$ 是二者的相似度”，而这里的Q和K对应的都是输入序列的局部信息，因此这种Attention可以理解为Self-Attention，这样encoder的每个位置都能去关注前一层encoder输出的所有位置，最终学习的是不同句子内部的联系（语法结构等）。引入Self-Attention的好处在于可以在O(1) 的代价联系序列中两个长期依赖的特征，对于RNN结构可能需要累积更多的时间步骤才能反应过来，因此Self-Attention能够提升网络的可并行性。

2. Attention内部mask的物理含义

第一个问题“query, key, value的理解” 解决了Q、K、V的困惑，那么，Scaled Dot-Product Attention结构中的Mask又有什么作用呢？这里参考Transformer模型笔记中“attention map”的介绍，来回答一下这个问题。

【CNN基础】Attention机制的梳理（一）——What is Attention in NLP？_第4张图片

【CNN基础】Attention机制的梳理（一）——What is Attention in NLP？_第5张图片

【CNN基础】Attention机制的梳理（一）——What is Attention in NLP？_第6张图片

【CNN基础】Attention机制的梳理（一）——What is Attention in NLP？_第7张图片

注意 $\text { Attention }(Q, K, V)=\operatorname{softmax}\left(\frac{Q K^{T}}{\sqrt{d_{k}}}\right) V$ 这个公式， $Q K^{T}$ 其实就会组成一个word2word的attention map！(加了softmax之后就是一个和为1的权重了)。比如说你的输入是一句话 “i have a dream” 总共4个单词，这里就会形成一张4x4的注意力机制的图（或者NxN的Attention Map，N表示序列的长度或者分词的个数）。注意encoder里面是叫self-attention（应该是未使用Mask），decoder里面是叫masked self-attention，这里的masked就是要在做language modelling（或者像翻译）的时候，不给模型看到未来的信息。
具体地， $I$ 作为第一个单词，只能有和 $I$ 自己的attention。 $h a v e$ 作为第二个单词，有和 $I$ 、 $h a v e$ 两个attention。 $a$ 作为第三个单词，有和 $I$ 、 $h a v e$ 、 $a$ 前面三个单词的attention。到了最后一个单词 $d r e a m$ 的时候，才有对整个句子4个单词的attention。

3. Multi-Head Attention是如何引入的？

【CNN基础】Attention机制的梳理（一）——What is Attention in NLP？_第8张图片

【CNN基础】Attention机制的梳理（一）——What is Attention in NLP？_第9张图片

前两个问题就Scaled Dot-Product Attention中的Q、K、V和Mask做了详细的分析，接下来，我们分析一下Multi-Head Attention是如何引入的？

a. self-attention中，如果输入的句子特别长，那就为形成一个 NxN的attention map，这就会导致内存爆炸。

为此，文章提出使用Multi-Head Attention机制来提升Attention的性能，具体表现在两个方面：

扩展了模型关注不同位置的能力，例如上面左图** $\mathbf{z}_{1}$ 都包含了其对应的Thinking**之外其他单词的encoding信息，但主要还是包含了自身单词本身的信息。Multi-Head的引入，是的不同的Head可以关注不同位置的信息，从而达到扩展了模型关注不同位置的能力的目的。例如， “The animal didn’t cross the street because it was too tired”这个句子，我们往往会想知道“it”到底指代什么东西。
Multi-Head Attention让attention layer可以表达出多个表示层子空间。例如，Transformer会使用8个attention head的8组Query/Key/Value权重矩阵对同一个输入进行处理，其中每一组矩阵采用随机初始化。经过训练后，每一组权重矩阵都会将input embedding投射到不同的表示层子空间。

b. 问题又来了：feed-forward层并不希望有8个矩阵作为输入，这时候该怎么将{ $\mathbf{z}_{0}$ ，…， $\mathbf{z}_{7}$ }压缩一下呢？

如上面右图图所示，采用 $W^{o}$ 乘上concat后的矩阵{ $\mathbf{z}_{0}$ ，…， $\mathbf{z}_{7}$ }，得到 $\mathbf{z}$ 即可.

c. 下面，我们来看看Multi-Head Attention的完整过程：

【CNN基础】Attention机制的梳理（一）——What is Attention in NLP？_第10张图片

d. 本文使用的是Multi-Head Attention，具体体现在三个方面。

decoder的encoder-decoder attention层，query为上一层decoder的输出，key和value来自encoder的输出。它又可以学习到输入在所有位置上的信息。
encoder包含self-attention层，在self-attention层中所有的key、value和query都来自前一层的encoder。这样encoder的每个位置都能去关注前一层encoder输出的所有位置。
decoder包含self-attention层，其功能跟encoder中的self-attention类似。且decoder中的Masked Multi-head Attention层，利用前面decoder block中所有位置上的信息，得到query。为了让我们的query仅从前面的已知的词得出，完全不受后面词的影响，可以加一个mask，也就是把矩阵中对应位置的结果设置为 $\infty$ 。比如，输入“我爱喝可乐”，在翻译出“I like”之后，attention层根据“I like”学习出query(next-token probability)(比如后面应该接一个名词)，从encoder结果中学习出key和value（比如喝）。此时mask避免了后面“drink cola”对这一级的干扰。（这个例子举得不是很好，没有把Masked Multi-head Attention当中Mask的作用讲清楚，应该要结合“2. Attention内部mask的物理含义”中“I have a dream”的例子去理解）（引用自[论文笔记]Attention is All You Need）

4. Attention到底是什么？

深度学习中的注意力机制对attention理解的非常到位，这里忍不住引用过来，记录一下，关于更多细节，请跳转至原作者的博客。

首先，从数学公式上和代码实现上Attention可以理解为加权求和。
其次，从形式上Attention可以理解为键值查询。
最后，从物理意义上Attention可以理解为相似性度量。

Representing The Order of The Sequence Using Positional Encoding

“变形金刚”为何强大：从模型到代码全面解析Google Tensor2Tensor系统
深度学习：transformer模型
a. Positional Encoding要解决什么问题？
到目前为止，我们的Transformer模型还不具备捕捉输入序列中单词顺序的能力。Self-Attention机制建模序列的方式，既不是RNN的时序观点，也不是CNN的结构化观点，而是一种词袋（bag of words）的观点。进一步阐述的话，应该说该机制视一个序列为扁平的结构，因为不论看上去距离多远的词，在self-attention机制中都为1。这样的建模方式，实际上会丢失词之间的相对距离关系。举个例子就是，“牛吃了草”、“草吃了牛”，“吃了牛草”三个句子建模出来的每个词对应的表示，会是一致的，也就是说无论句子的结构怎么打乱，Transformer都会得到类似的结果。

b. 如何用Position Vector来表征序列单词的顺序呢？
为了解决“Transformer模型不具备捕序列捉顺序的能力”的问题，transformer会以input embedding $\mathbf{w}=\left(w_{1}, \dots, w_{m}\right)$ 作为输入，让模型学习出某种特殊表征，得到一个Position Vector $\mathbf{p}=\left(p_{1}, \dots, p_{m}\right)$ ，直觉告诉，最简单的方式是，通过加和得到一个input element的表征向量 $\mathbf{e}=\left(w_{1}+p_{1}, \ldots, w_{m}+p_{m}\right)$ 。如下图所示：

【CNN基础】Attention机制的梳理（一）——What is Attention in NLP？_第11张图片

【CNN基础】Attention机制的梳理（一）——What is Attention in NLP？_第12张图片

上面提到的`Position Vector`，究竟表征的是啥呢？ - position of each input elements or words - distance between different words in the sequence

至此，我们熟悉了positional embedding的通用定义，更多细节请参考文章：（Convolutional Sequence to Sequence Learning）

c. paper中的Positional Encoding又是如何得到Position Vector的呢？
首先，看一下Position Vector究竟长什么样？
下图展示了由20个单词通过positional encoding得到的Position Vector $\mathbf{p}=\left(p_{1}, \dots, p_{m}\right)$ ，这是一个20x512的矩阵，20行分别对应20个不同的单词，图中每行都表示对应单词通过positional encoding得到的对应20行Position Vector，其embedding size=512，值域为[-1,1]。

【CNN基础】Attention机制的梳理（一）——What is Attention in NLP？_第13张图片

其次，为什么这20个单词的Position Vector Matrix在中间看起来断裂了呢？
这是因为左边是通过sine函数产生，右边是通过cosine函数产生。这里难以理解的一个点是，横坐标仅仅表示有512个位置，但并不是跟position一一对应，即左图是用 $d_{m o d e l}=2i$ 的位置，通过sin函数得到，右图是用 $d_{m o d e l}=2i+1$ 的位置，通过cosine函数得到，最后再将这两个图片表示的向量拼接到一起，而非按照 ${1,2,...,512}$ 这样顺序排列。，另一种解释是“还需要指出的是，论文中根据维度下标的奇偶性来交替使用sin和cos函数的说法，在代码中并不是这样实现的，而是前一半的维度使用sin函数，后一半的维度使用cos函数，并没有考虑奇偶性”（引用自Tensor2Tensor系统解析）。
最后，给出得到Position Vector的计算公式：
$\begin{array}{l}{P E_{(p o s, 2 i)}=\sin \left(\operatorname{pos} / 10000^{2 i / d_{m o d e l}}\right)} \\ {P E_{(p o s, 2 i+1)}=\cos \left(p o s / 10000^{2 i / d_{m o d e l}}\right)}\end{array}$
其中， $p o s$ 是word所在位置， $i$ 表示单词的维度， $d_model$ 表示embedding维度512。当然了，最后别忘了加和操作 $\mathbf{e}=\left(w_{1}+p_{1}, \ldots, w_{m}+p_{m}\right)$

d. 为什么sin和cos可以表征位置信息呢？

该公式的设计非常先验，尤其是分母部分，不太好解释。从笔者个人的观点来看，一方面，三角函数有很好的周期性，也就是隔一定的距离，因变量的值会重复出现，这种特性可以用来建模相对距离；另一方面，三角函数的值域是[-1,1]，可以很好的提供embedding元素的值。（引用自Tensor2Tensor系统解析）
任意位置的 $PE_{pos+k}$ 都可以被 $PE_{pos}$ 的线性函数表示。考虑到在NLP任务中，除了单词的绝对位置，单词的相对位置也非常重要。根据公式 $sin(\alpha+\beta) = sin \alpha cos \beta + cos \alpha sin\beta$ 以及 $cos(\alpha + \beta) = cos \alpha cos \beta - sin \alpha sin\beta$ ，这表明位置 k+p 的位置向量可以表示为位置 k 的特征向量的线性变化，这为模型捕捉单词之间的相对位置关系提供了非常大的便利，即可以表征位置信息
如果是学习到的positional embedding，可能会像词向量一样受限于词典大小。也就是只能学习到“位置2对应的向量是(1,1,1,2)”这样的表示。所以用三角公式明显不受序列长度的限制，也就是可以对“比所遇到序列的更长的序列”进行表示。(引用自深度学习：transformer模型)

关于位置编码，作者还尝试了learned positional embedding的方法，所得结果几乎相同。作者最终选择了这种正弦曲线编码的方式是因为，这种方式还适用于test中句子比train中长的情况。(在BERT中使用的是learn的方法)。（引用自[论文笔记]Attention is All You Need）

这里记录一个未理解到位的问题：
为什么positional embedding受限于词典大小，而三角公式明显不受序列长度的限制，可以对“比所遇到序列的更长的序列”进行表示？

e. Position Encoding的具体代码实现，过几天再理解一下
关于位置编码的实现可在Google开源的算法中get_timing_signal_1d()函数和 The Annotated Transformer找到对应的代码，这里摘录如下，注释有删减：

# tensorflow version
def get_timing_signal_1d(length,
                         channels,
                         min_timescale=1.0,
                         max_timescale=1.0e4,
                         start_index=0):
                         position = tf.to_float(tf.range(length) + start_index)
  num_timescales = channels // 2
  log_timescale_increment = (
      math.log(float(max_timescale) / float(min_timescale)) /
      (tf.to_float(num_timescales) - 1))
  inv_timescales = min_timescale * tf.exp(
      tf.to_float(tf.range(num_timescales)) * -log_timescale_increment)
  scaled_time = tf.expand_dims(position, 1) * tf.expand_dims(inv_timescales, 0)
  signal = tf.concat([tf.sin(scaled_time), tf.cos(scaled_time)], axis=1)
  signal = tf.pad(signal, [[0, 0], [0, tf.mod(channels, 2)]])
  signal = tf.reshape(signal, [1, length, channels])
  return signal
  
# pytorch version
class PositionalEncoding(nn.Module):
    "Implement the PE function."
    def __init__(self, d_model, dropout, max_len=5000):
        super(PositionalEncoding, self).__init__()
        self.dropout = nn.Dropout(p=dropout)
        
        # Compute the positional encodings once in log space.
        pe = torch.zeros(max_len, d_model)
        position = torch.arange(0, max_len).unsqueeze(1)
        div_term = torch.exp(torch.arange(0, d_model, 2) *
                             -(math.log(10000.0) / d_model))
        pe[:, 0::2] = torch.sin(position * div_term)
        pe[:, 1::2] = torch.cos(position * div_term)
        pe = pe.unsqueeze(0)
        self.register_buffer('pe', pe)
        
    def forward(self, x):
        x = x + Variable(self.pe[:, :x.size(1)], 
                         requires_grad=False)
        return self.dropout(x)

5. src_mask的制作和理解

decoder的shifted right？

decoder的具体训练过程？是否可以并行？它的input是挨个词还是直接进去一个矩阵？

6. `class Batch:`中src和tgt的shape跟src_mask的shape不一致，光看ipynb代码不太好追溯，要用pycharm去debug一下就能很好的理解了

7. Positional Encoding的理解

8. `class Batch:`self.trg和self.trg_y的含义

9. Attention提出的意义在哪里，为什么可以解决数据并行化的问题

10. 输入序列和输出序列中任意位置组合之间的这些路径越短，学习长期依赖关系就越容易。这是啥？

一、Network的理解

二、Dataset的理解

2.1 Data Loading

2.1.1 安装数据：

#!pip install torchtext spacy
#!python -m spacy download en
#!python -m spacy download de

2.1.2 读取数据

# For data loading.
from torchtext import data, datasets

if True:
    import spacy
    spacy_de = spacy.load('de')
    spacy_en = spacy.load('en')

    def tokenize_de(text):
        return [tok.text for tok in spacy_de.tokenizer(text)]

    def tokenize_en(text):
        return [tok.text for tok in spacy_en.tokenizer(text)]

    BOS_WORD = ''
    EOS_WORD = ''
    BLANK_WORD = ""
    SRC = data.Field(tokenize=tokenize_de, pad_token=BLANK_WORD)
    TGT = data.Field(tokenize=tokenize_en, init_token = BOS_WORD, 
                     eos_token = EOS_WORD, pad_token=BLANK_WORD)

    MAX_LEN = 100
    train, val, test = datasets.IWSLT.splits(
        exts=('.de', '.en'), fields=(SRC, TGT), 
        filter_pred=lambda x: len(vars(x)['src']) <= MAX_LEN and 
            len(vars(x)['trg']) <= MAX_LEN)
    MIN_FREQ = 2
    SRC.build_vocab(train.src, min_freq=MIN_FREQ)
    TGT.build_vocab(train.trg, min_freq=MIN_FREQ)

2.1.3 数据形式

之前看代码的时候一直困惑数据到底长啥样，debug模式下终于拨开了云雾。

2.2 Make Batch

class Batch:
    "Object for holding a batch of data with mask during training."
    def __init__(self, src, trg=None, pad=0):
        self.src = src
        self.src_mask = (src != pad).unsqueeze(-2)
        if trg is not None:
            self.trg = trg[:, :-1]
            self.trg_y = trg[:, 1:]
            self.trg_mask = \
                self.make_std_mask(self.trg, pad)
            self.ntokens = (self.trg_y != pad).data.sum()
    
    @staticmethod
    def make_std_mask(tgt, pad):
        "Create a mask to hide padding and future words."
        tgt_mask = (tgt != pad).unsqueeze(-2)
        tgt_mask = tgt_mask & Variable(
            subsequent_mask(tgt.size(-1)).type_as(tgt_mask.data))
        return tgt_mask
        
def rebatch(pad_idx, batch):
    "Fix order in torchtext to match ours"
    src, trg = batch.src.transpose(0, 1), batch.trg.transpose(0, 1)
    return Batch(src, trg, pad_idx) #调用Batch制作数据

2.3 Synthetic Data

这里通过Fake数据的合成，加深对NLP数据格式的理解

def data_gen(V, batch, nbatches):
    "Generate random data for a src-tgt copy task."
    for i in range(nbatches):
        data = torch.from_numpy(np.random.randint(1, V, size=(batch, 10)))
        data[:, 0] = 1
        src = Variable(data, requires_grad=False)
        tgt = Variable(data, requires_grad=False)
        yield Batch(src, tgt, 0)

三、Regularization的理解(或Loss的理解)

我们在训练中采用三种正则化方法。

3.1 Residual Dropout

我们将dropout应用于每个子层的输出，然后将其添加到子层输入，并进行正则化。我们还将dropout应用于编码器和解码器堆栈中嵌入和位置编码的总和。对于基本的模型，我们使用 $P_{d r o p}=0.1$ 。

3.2 Label Smoothing

这里LabelSmoothing求的是KL散度值。

3.2.1 参数设置

During training, we employed label smoothing of value $\epsilon_{ls}=0.1$ (cite). This hurts perplexity, as the model learns to be more unsure, but improves accuracy and BLEU score.

We implement label smoothing using the KL div loss. Instead of using a one-hot target distribution, we create a distribution that has confidence of the correct word and the rest of the smoothing mass distributed throughout the vocabulary.

3.2.2 Label Smoothing的理解

Label smoothing actually starts to penalize the model if it gets very confident about a given choice.

label_smoothing的理解
label函数图理解
label_smoothing的paper

3.2.3 示例

这里的图片不是很理解???

#Example of label smoothing.
crit = LabelSmoothing(5, 0, 0.4)
predict = torch.FloatTensor([[0, 0.2, 0.7, 0.1, 0],
                             [0, 0.2, 0.7, 0.1, 0], 
                             [0, 0.2, 0.7, 0.1, 0]])
v = crit(Variable(predict.log()), 
         Variable(torch.LongTensor([2, 1, 0])))

# Show the target distributions expected by the system.
plt.imshow(crit.true_dist)
None

crit = LabelSmoothing(5, 0, 0.1)
def loss(x):
    d = x + 3 * 1
    predict = torch.FloatTensor([[0, x / d, 1 / d, 1 / d, 1 / d],
                                 ])
    #print(predict)
    return crit(Variable(predict.log()),
                 Variable(torch.LongTensor([1]))).data[0]
plt.plot(np.arange(1, 100), [loss(x) for x in range(1, 100)])
None

3.2.4 代码

# pytorch version
class LabelSmoothing(nn.Module):
    "Implement label smoothing."
    def __init__(self, size, padding_idx, smoothing=0.0):
        super(LabelSmoothing, self).__init__()
        self.criterion = nn.KLDivLoss(size_average=False)
        self.padding_idx = padding_idx
        self.confidence = 1.0 - smoothing
        self.smoothing = smoothing
        self.size = size
        self.true_dist = None
        
    def forward(self, x, target):
        assert x.size(1) == self.size
        true_dist = x.data.clone()
        true_dist.fill_(self.smoothing / (self.size - 2))
        true_dist.scatter_(1, target.data.unsqueeze(1), self.confidence)
        true_dist[:, self.padding_idx] = 0
        mask = torch.nonzero(target.data == self.padding_idx)
        if mask.dim() > 0:
            true_dist.index_fill_(0, mask.squeeze(), 0.0)
        self.true_dist = true_dist
        return self.criterion(x, Variable(true_dist, requires_grad=False))
# tensorflow version
# please refer to 
https://github.com/tensorflow/cleverhans/blob/f70ca7e000dadd6ace5aeff15bba0e960e8c1384/cleverhans_tutorials/mnist_tutorial_tf.py#L126

四、Optimizer部分学习率的理解

4.1 原文：

We used the Adam optimizer (cite) with $\beta_1=0.9$ , $\beta_2=0.98$ and $\epsilon=10^{-9}$ . We varied the learning rate over the course of training, according to the formula:
$\text {lrate}=d_{\text { model }}^{-0.5} \cdot \min \left(\operatorname{ste}p_{-} n u m^{-0.5}, \text { ste} p_{-} n u m \cdot \operatorname{warmu} p_{-} \text {steps}^{-1.5}\right)$ This corresponds to increasing the learning rate linearly for the first $warmup\_steps$ training steps, and decreasing it thereafter proportionally to the inverse square root of the step number. We used $warmup\_steps=4000$ .

4.2 解释

我们使用了Adam优化器， $\beta_1=0.9$ , $\beta_2=0.98$ and $\epsilon=10^{-9}$ 。根据公式，我们在整个训练过程中改变了学习率。根据公式，我们在整个训练过程中改变了学习率。这对应于在第一个warmup_steps 训练steps中线性的增加学习率，然后与步数的平方成比例地减少学习率。

4.3 推导

令 $\operatorname{ste}p_{-} n u m^{-0.5} >\text { ste} p_{-} n u m \cdot \operatorname{warmup}_{-} \text {steps}^{-1.5}$ ，推出 $\operatorname{warmu} p_{-} \text {steps}^{3/2} > \operatorname{ste}p_{-}n u m^{3/2}$ => $\operatorname{warmup}_{-} \text {steps} > \operatorname{ste}p_{-} n u m$ ，即
$\text {lrate}= \left\{\begin{array}{l}{d_{\text { model }}^{-0.5} \cdot\text { ste} p_{-} n u m \cdot \operatorname{warmup}_{-} \text {steps}^{-1.5}, \text { if } \operatorname{ste}p_{-} n u m < \operatorname{warmup}_{-} \text {steps} } \\ {d_{\text { model }}^{-0.5} \cdot \operatorname{ste}p_{-} n u m^{-0.5} , \text { if } \operatorname{ste}p_{-} n u m < \operatorname{warmup}_{-} \text {steps}} \end{array}\right.$

4.4 示例

4.5 代码

	# pytorch version
	# refer to "Optimizer" part of https://github.com/harvardnlp/annotated-transformer/blob/master/The%20Annotated%20Transformer.ipynb
	def rate(self, step = None):
        "Implement `lrate` above"
        if step is None:
            step = self._step
        return self.factor * \
            (self.model_size ** (-0.5) *
            min(step ** (-0.5), step * self.warmup ** (-1.5)))
            
    # tensorflow version
    # refer to https://github.com/Kyubyong/transformer/blob/6715edcb79022b1a92ba7b9edd1b3c6b53cebf28/modules.py#L303
	def noam_scheme(init_lr, global_step, warmup_steps=4000.):
    	'''Noam scheme learning rate decay
    	init_lr: initial learning rate. scalar.
    	global_step: scalar.
    	warmup_steps: scalar. During warmup_steps, learning rate increases
    	    until it reaches init_lr.
    	'''
    	step = tf.cast(global_step + 1, dtype=tf.float32)
    	return init_lr * warmup_steps ** 0.5 * tf.minimum(step * warmup_steps ** -1.5, step ** -0.5)

五、Results

the Transformer (big) model trained for English-to-French used dropout rate Pdrop = 0.1, instead of 0.3.

WMT 2014 English-to-German任务上，提升2.0 BLEU，到state-of-the-art的28.4
即便base model也超越了之前所有的方法
WMT 2014 English-to-French任务上，big model提升到41.8，超出之前所有公开的single model方法，且只花了原先的state-of-the-art方法1/4的时间

六、Examples

6.1 A First Example

We can begin by trying out a simple copy-task. Given a random set of input symbols from a small vocabulary, the goal is to generate back those same symbols.
这里包含

Synthetic Data：Introduce how to generate fake data.
Loss Computation：Introduce how to calcurate loss function.
Greedy Decoding：This code predicts a translation using greedy decoding for simplicity.

For more information, prelase refer to https://github.com/harvardnlp/annotated-transformer/blob/master/The Annotated Transformer.ipynb

6.2 A Real World Example

Data Loading: We will load the dataset using torchtext and spacy for tokenization.
Iterators
Multi-GPU Training
Training the System
For more information, prelase refer to https://github.com/harvardnlp/annotated-transformer/blob/master/The Annotated Transformer.ipynb

七、Additional Components: BPE, Search, Averaging

介绍基于OpenNMT实现的transformer模型的其他特性：

BPE/ Word-piece
Shared Embeddings
Beam Search
Model Averaging
For more information, prelase refer to https://github.com/harvardnlp/annotated-transformer/blob/master/The Annotated Transformer.ipynb

Attention Visualization

你可能感兴趣的:(CNN基础)

三菱PLC全套学习资料及应用手册 good2know
本文还有配套的精品资源，点击获取简介：三菱PLC作为工业自动化领域的核心设备，其系列产品的学习和应用需要全面深入的知识。本次资料包为学习者提供从基础到进阶的全方位学习资源，包括各种型号PLC的操作手册、编程指南、软件操作教程以及实际案例分析，旨在帮助用户系统掌握PLC的编程语言、指令系统及在各类工业应用中的实施。1.三菱PLC基础知识入门1.1PLC的基本概念可编程逻辑控制器（PLC）是工业自动化
《极简思维》第三部分小洋苏兮
整理你的人际关系如何改善人际关系？摘录：因为人际关系问题是人们生活中不快乐的主要原因。感想：感觉这个说的挺对，之前我总是埋头学习，不管舍友不管自己的合作伙伴的一些事情，但实际上，这学期关注了之后好多了摘录：“亲密关系与社交会让你健康而快乐。这是基础。太过于关注成就或不太关心人际关系的人都不怎么快乐。基本上来说，人类就是建立在人脉关系上的。”感想：但是如果有时想的太多就不太好，要以一个开放的心态跟别
Spring进阶 - SpringMVC实现原理之DispatcherServlet处理请求的过程倾听铃的声后端 spring java mvc 开发语言分布式
前文我们有了IOC的源码基础以及SpringMVC的基础，我们便可以进一步深入理解SpringMVC主要实现原理，包含DispatcherServlet的初始化过程和DispatcherServlet处理请求的过程的源码解析。本文是第二篇：DispatcherServlet处理请求的过程的源码解析。@pdaiSpring进阶-SpringMVC实现原理之DispatcherServlet处理请求的
JVM 内存模型深度解析：原子性、可见性与有序性的实现练习时长两年半的程序员小胡 JVM 深度剖析：从面试考点到生产实践 jvm java 内存模型
在了解了JVM的基础架构和类加载机制后，我们需要进一步探索Java程序在多线程环境下的内存交互规则。JVM内存模型（JavaMemoryModel，JMM）定义了线程和主内存之间的抽象关系，它通过规范共享变量的访问方式，解决了多线程并发时的数据一致性问题。本文将从内存模型的核心目标出发，详解原子性、可见性、有序性的实现机制，以及volatile、synchronized等关键字在其中的作用。一、J
Flowable 高级扩展：自定义元素与性能优化实战练习时长两年半的程序员小胡 Flowable 流程引擎实战指南流程图 flowable BPMN 流程引擎 java
在前五篇文章中，我们从基础概念、流程设计、API实战、SpringBoot集成，到外部系统协同，逐步构建了Flowable的应用体系。但企业级复杂场景中，原生功能往往难以满足定制化需求——比如需要特殊的审批规则网关、与决策引擎联动实现动态路由，或是在高并发场景下优化流程引擎性能。本文将聚焦Flowable的高级扩展能力，详解如何自定义流程元素、集成规则引擎，并掌握大型系统中的性能调优策略。一、自定
互信息：理论框架、跨学科应用与前沿进展大千AI助手人工智能 Python #OTHER 人工智能深度学习算法互信息香农通信随机变量
1.起源与核心定义互信息（MutualInformation,MI）由克劳德·香农（ClaudeShannon）在1948年开创性论文《AMathematicalTheoryofCommunication》中首次提出，该论文奠定了现代信息论的基础。互信息用于量化两个随机变量之间的统计依赖关系，定义为：若已知一个随机变量的取值，能为另一个随机变量提供的信息量。数学上，对于离散随机变量XXX和YYY，
车载刷写架构 --- 刷写思考扩展汽车电子实验室电子电器架构——刷写方案架构开发语言关于网关转发性能引起的思考汽车中央控制单元HPC软件架构车载诊断进阶篇
我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：做到欲望极简，了解自己的真实欲望，不受外在潮流的影响，不盲从，不跟风。把自己的精力全部用在自己。一是去掉多余，凡事找规律，基础是诚信；二是系统思考、大胆设计、小心求证；三是“一张纸制度”，也就是无论多么复杂的工作内容，要在一张纸上描述清楚；四是要坚决反对虎头蛇尾，反对繁文缛节，反对老
C++编程基础与面向对象概念解析侯昂面向对象编程 C++语法函数类与对象继承与多态性
C++编程基础与面向对象概念解析背景简介C++是一种广泛使用的面向对象编程语言，它允许开发者创建高效、灵活且功能强大的程序。本文基于《C++Primer》一书的章节内容，深入解析C++的核心概念和面向对象编程原则，旨在帮助读者构建扎实的C++编程基础。面向对象编程的原则软件危机与进化介绍了软件危机的产生和软件进化的必要性，强调了面向对象编程（OOP）在应对这些问题中的优势。面向对象编程范式讨论了面
K8s常用的命令尚未来- 运维 k8s
一、基础命令查看集群信息bashkubectlcluster-info#显示集群端点和服务信息查看节点bashkubectlgetnodes#列出所有节点kubectldescribenode#查看节点详细信息查看命名空间bashkubectlgetnamespaces#列出所有命名空间切换命名空间bashkubectlconfigset-context--current--namespace=二
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
大数据之路：阿里巴巴大数据实践——大数据领域建模综述
为什么需要数据建模核心痛点数据冗余：不同业务重复存储相同数据（如用户基础信息），导致存储成本激增。计算资源浪费：未经聚合的明细数据直接参与计算（如全表扫描），消耗大量CPU/内存资源。数据一致性缺失：同一指标在不同业务线的口径差异（如“活跃用户”定义不同），引发决策冲突。开发效率低下：每次分析需重新编写复杂逻辑，无法复用已有模型。数据建模核心价值性能提升：分层设计（ODS→DWD→DWS→ADS）
学C++的五大惊人好处
为什么要学c++学c++有什么用学习c++的好处有1.中考可以加分2.高考可能直接录取3.就业广且工资高4.在未来30--50年c++一定是一个很受欢迎的职业5.c++成功的例子deepsick等AI智能C++语言兼备编程效率和编译运行效率的语言C++语言是C语言功能增强版,在c语言的基础上添加了面向对象编程和泛型编程的支持既继承了C语言高效，简洁，快速和可移植的传统,又具备类似Java、Go等其
Android 基础知识：Android 应用权限详解流水mpc android
这篇文章为大家系统的梳理一下Android权限相关的知识，在日常开发中，我们都用过权限，但是对于权限的一些细节我们可能掌握的还不够全面，这篇文章会全面的为大家介绍权限相关的知识。当然，本篇文章依然是参考了Google的官方文档：应用权限。本文目录一、认识Android权限（一）Android系统为什么需要权限？Android系统设置权限的目的是保护Android用户的隐私。对于用户的敏感数据And
Selenium基础教程 lemontree1945 selenium python 测试工具
1.Selenium环境安装1.1浏览器安装Chrome和ChromeDriver下载地址:https://googlechromelabs.github.io/chrome-for-testing/注意：驱动版本号要和浏览器版本号一致；安装后关闭浏览器自动更新:services.msc:打开系统服务找到和google相关的服务，全部修改为禁用1.2安装第三方库seleniumpipinstall
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
Android 媒体播放开发完全指南安卓开发者 Android Jetpack android 媒体 python
引言在当今移动应用生态中，媒体播放功能已成为许多应用的核心组成部分。无论是音乐流媒体应用、视频平台、播客客户端还是游戏应用，都需要强大的媒体播放能力。Android平台提供了丰富的API来支持各种媒体播放场景。本文将全面介绍Android媒体播放的开发技术，从基础到高级功能实现。一、Android媒体播放基础1.1支持的媒体格式Android原生支持多种媒体格式：音频：MP3、AAC、FLAC、W
Android通知(Notification)全面解析：从基础到高级应用
一、Android通知概述通知(Notification)是Android系统中用于在应用之外向用户传递信息的重要机制。当应用需要告知用户某些事件或信息时，可以通过通知在状态栏显示图标，用户下拉通知栏即可查看详细信息。这种机制几乎被所有现代应用采用，用于推送新闻、消息、广告等内容3。与Toast相比，Notification的优势在于：可以长时间停留在通知栏，适合内容较多且需要持久展示的信息支持丰
镜中往事（79）大漠雪（上） Drosia
“诸位，目前西都上下都在搜寻我们洪盟成员，我私下见过当今西都主事，对方是一个非常爱民的好官，他一定能够让百姓过上好日子，于是我决定，我们洪盟需要去别处发展壮大。”槲枫的眼中有不容动摇的坚定。几位元老都没有说话。“既然盟主决定迁出西都，那洪盟的未来在哪里呢？”“南下，南方物资丰富，商业城市多，可以为洪盟打下好基础。”在场的人几乎都同意了这个建议。“哥哥，有消息说洪盟要迁出西都？”云芙刚刚从洪盟的工具
免费编程课程大汇总：从入门到精通的一站式资源大力出奇迹985 人工智能大数据
在数字化时代，编程已成为一项至关重要的技能，无论是为了职业发展还是个人兴趣，学习编程都极具价值。本文精心汇总了丰富的免费编程课程资源，涵盖从基础入门到精通的各个阶段。通过全面介绍如Coursera、edX等在线学习平台，Codecademy、freeCodeCamp等交互式学习网站，以及B站、网易云课堂等视频课程平台的免费课程，为编程学习者提供了一站式的资源指南，帮助读者轻松开启编程学习之旅，逐步
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
用 Python 开发小游戏：零基础也能做出《贪吃蛇》
本文专为零基础学习者打造，详细介绍如何用Python开发经典小游戏《贪吃蛇》。无需复杂编程知识，从环境搭建到代码编写、功能实现，逐步讲解核心逻辑与操作。涵盖Pygame库的基础运用、游戏界面设计、蛇的移动与食物生成规则等，让新手能按步骤完成开发，同时融入SEO优化要点，帮助读者轻松入门Python游戏开发，体验从0到1做出游戏的乐趣。一、为什么选择用Python开发《贪吃蛇》对于零基础学习者来说，
文科生转行编程：从月薪 3 千到 2 万的真实经历
在当下就业市场中，文科生往往面临诸多挑战，薪资水平也不尽如人意。然而，有不少勇敢的文科生成功实现了向编程领域的转行，薪资更是实现了从月薪3千到2万的飞跃。本文将深入剖析文科生转行编程的真实经历，从最初对现状的不满萌生出转行念头，到如何艰难地开启学习之旅，克服基础薄弱、思维转换难等重重困难，再到求职时凭借策略与努力获得宝贵机会，以及入职后持续学习保持竞争力。希望通过这些真实历程，为有志于转行编程的文
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
lesson20：Python函数的标注你的电影很有趣 python 开发语言
目录引言：为什么函数标注是现代Python开发的必备技能一、函数标注的基础语法1.1参数与返回值标注1.2支持的标注类型1.3Python3.9+的重大改进：标准集合泛型二、高级标注技巧与最佳实践2.1复杂参数结构标注2.2函数类型与回调标注2.3变量注解与类型别名三、静态类型检查工具应用3.1mypy：最流行的类型检查器3.2Pyright与IDE集成3.3运行时类型验证四、函数标注的工程价值与
K8S 常用命令全解析：高效管理容器化集群恩爸编程 docker kubernetes 容器 k8s常用命令 k8s有哪些常用命令 k8s命令有哪些 K8S常用命令有哪些
K8S常用命令全解析：高效管理容器化集群一、引言Kubernetes（K8S）作为强大的容器编排平台，其丰富的命令行工具（kubectl）为用户提供了便捷的方式来管理集群中的各种资源。熟练掌握K8S常用命令对于开发人员和运维人员至关重要，能够有效提高容器化应用的部署、监控与维护效率。本文将详细介绍一些K8S常用命令及其使用案例。二、基础资源操作命令（一）kubectlcreate功能：用于创建K8
k8s常用基础命令总结 Tony666688888 kubernetes docker 容器 k8s
----------------------k8s常用基础命令---------------------------------获取Pod信息#1.获取k8s的命名空间kubectlgetnamespaces1)获取Pod列表及简要信息：kubectlgetpods2)以YAML格式获取Pod详细信息：kubectlgetpod-oyaml3)获取特定命名空间中的Pod列表kubectlgetpo
python编程第十四课：数据可视化小小源助手 Python代码实例信息可视化 python 开发语言
Python数据可视化：让数据“开口说话”在当今数据爆炸的时代，数据可视化已成为探索数据规律、传达数据信息的关键技术。Python凭借其丰富的第三方库，为数据可视化提供了强大而灵活的解决方案。本文将带你深入了解Matplotlib库的基础绘图、Seaborn库的高级可视化以及交互式可视化工具Plotly，帮助你通过图表清晰地展示数据背后的故事。一、Matplotlib库基础绘图Matplotlib
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
Python数据可视化：用代码绘制数据背后的故事 AAEllisonPang Python 信息可视化 python 开发语言
引言：当数据会说话在数据爆炸的时代，可视化是解锁数据价值的金钥匙。Python凭借其丰富的可视化生态库，已成为数据科学家的首选工具。本文将带您从基础到高级，探索如何用Python将冰冷数字转化为引人入胜的视觉叙事。一、基础篇：二维可视化的艺术表达1.1Matplotlib：可视化领域的瑞士军刀importmatplotlib.pyplotaspltimportnumpyasnpx=np.linsp
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。