Karen_Yu_

【李宏毅机器学习】Transformer 内容补充

视频来源：10.【李宏毅机器学习2021】自注意力机制 (Self-attention) (上)_哔哩哔哩_bilibili

发现一个奇怪的地方，如果直接看ML/DL的课程的话，有很多都是不完整的。开始思考是不是要科学上网。

本文用作Transformer - Attention is all you need 论文阅读-CSDN博客的补充内容，因为发现如果实操还是有不能理解的地方，所以准备看看宝可梦老师怎么说×

Self-attention

引入

到目前为止，我们的network的input都是一个向量，输出可能是一个数值（regression）或者类别（classification）。但是假设我们遇到更复杂的问题呢？如果输入是一排向量，并且输入向量的长度是会改变的呢？

（老师提到在做图像分类任务的时候，假设输入图像的大小是一致的，但是实际上，我们可以不指定卷积核的大小，而通过我们期待的feature map的大小和输入图片的大小来反推卷积核的大小，感兴趣的话可以参考

SPP(Spatial Pyramid Pooling)网络 - 知乎 (zhihu.com)
CNN 在分类图片时图片大小不一怎么办？ - 知乎 (zhihu.com)
[1406.4729] Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition (arxiv.org)当然在SPP出现之前一般采用的策略是裁剪or缩放or填充padding）

假设我们每次输入sequence的数目or长度不一样，怎么办？

但是什么例子是输入的是sequence并且长度会改变呢

比如文字处理。假如我们现在要输入的是一个句子，因为每个句子的长度都不一样（句子中词汇的数目不一样），如果把句子里面的每一个词汇都描述成一个向量，那么model的输入就会是一个vector set，并且这个vector set的大小不一样。

怎么把词汇表示成一个向量呢？最简单的方法是one-hot encoding。搞一个很长很长的向量，向量的长度就是世界上所有的词的数目，每一个位置对应到一个词汇。但是，这种方法有一个问题->假设所有的词汇彼此之间是没有关系的，我们看不出来cat和dog都是动物，cat和Apple一个是动物一个是食物就不太相像->没有语义信息。

另一个方法是Word embedding，这里给每一个词汇的向量就包含了语义的信息，如果画出来的话，会看到相似的概念都团在一起。

一个句子就是一排长度不一的向量

还有一个例子就是声音信号。一段声音信号，取一个范围（Window），把这个Window里面的信息描述成一个向量（frame），这个Window的长度是25ms，有各种各样的方法把声音信号转成frame，然后移动window（通常为10ms）->1s的声音信号又100个frame

还有一个例子是，图。

比如social network就是一个graph，在social network上面每一个节点就是一个人，节点和节点之间的edge就是这两个人的关系，每一个节点都可以看做是一个向量（可以拿每个人的profile的信息用向量表示）

应用：drug discovery

把分子当做模型的输入，一个分子就是一个向量，用one-hot表示原子。

输出是什么？

1. 每一个向量都有一个label
当我们的模型看到输入是4个向量的时候，就要输出4个label，如果label是数值，就是regression问题，如果是class就是classification。
文字处理可能会遇到，比如词性标注，是名词、动词、形容词……
语音，每一个vector都要决定是哪一个Phoneme
给一个social network，决定每一个节点有什么特性，比如会不会买某个商品

2. 一个sequence（有很多的vector）只需要一个输出就好了
比如sentiment analysis，情感分析，即给机器看一段话，让机器判断这一段话是积极地还是消极的->一整个句子只需要一个label。
辨认说话的人
graph，预测一个分子有没有毒性？亲水性怎么样？

3. 不知道输出多少个label，机器需要自己决定要输出多少个label（称为seq2seq）
比如机器翻译，语音识别

本节只focus on 第一个类别，每个vector都输出一个label

这种输入和输出数目一样多的情况又称sequence labeling。

怎么解决这种sequence labeling的问题呢？比较直觉的方法是拿一个fully connected network，虽然输入是一个sequence，我们就直接各个击破，把每一个向量分别输入到fully connected network里面，然后产生正确的输出就OK了。

但是这么做有很大的问题。比如我们要做的是词性标注的任务，比如I saw a saw，对于fully connected network来说，两个saw完全一模一样啊，输出同样的词汇，没可能输出不同的结果啊，但是实际上第一个saw是动词，第二个saw是名词->有没有可能让fully connected network考虑更多的上下文？

有可能的。

把当前向量和前后几个向量都串起来（window），一起丢到fully connected network里面去。

但是这个方法还是有局限，如果我们现在的任务不是考虑一个window就可以解决的，而是要考虑整个sequence呢？可以直接把window开大一点，包含整个句子吗？但是sequence的长度是不确定的，有长有短的。同时开一个超大的window意味着我们的fully connected network需要很多的参数，运算量很大，说不准还容易overfitting。

（弹幕：rnn考虑的是前一个隐藏状态，但是隐藏状态又包含之前的信息

RNN本质上只有短时的记忆，其实也就是前几个输入的信息，再往前的信息根本记不住了已经）

更好的方法->self-attention

self-attention的运作方式是，会吃一整个sequence的信息，然后input几个vector就输出几个vector。比如图中input4个vector就output4个vector。输出的4个vector有什么特别的地方呢？这4个vector都是考虑整个sequence之后才得到的，再把这些考虑了整个sequence的向量丢到fully connected network，再决定最后的output。

现在fully connected network就不是只考虑一个非常小的范围，而是考虑整个sequence的信息再决定输出什么样的结果。

self-attention不是只能用一次，可以叠加很多次。比如之前self-attention的输出经过fully connected network之后的输出再当做输入给另一个self-attention吃，最后再丢给另一个fully connected network，得到输出。

->可以把fully connected network（FC）和self-attention交替使用。self-attention处理整个sequence的信息，FC专注于处理某一个位置的信息

有关self-attention最知名的文章《变形金刚》（×）

self-attention是如何运作的呢？

self-attention的input是一串的vector，这个vector可能是整个network的input，也可能是某个hidden layer的output（所以这里用a表示->表示前面可能已经做过一些处理了）

input一排a向量之后，self-attention要output一排b向量，每一个b都是考虑了所有的a以后才生成出来的。

举例说明，怎么产生b^1向量。

第一个步骤是，根据a^1找出这个sequence里面其他和a^1相关的向量（我们做self-attention的目的是为了考虑整个sequence，但是我们又不想把整个sequence的信息都包在一个window里面）->找出哪些部分对a^1是重要的。

每一个向量和a^1关联的程度，用一个数值α表示。现在给两个向量，比如a^1和a^4，怎么计算这两个有多相关？

（弹幕：注意力就是权重）

怎么计算attention

用两个向量当做输入，直接输出α。那么怎么计算α的数值呢？比较常见的做法是dot-product。

把输入的两个向量分别乘上两个不同的矩阵，图中就是左侧的向量乘以W^q这个矩阵，右侧的向量乘以W^k这个向量。

带入一下刚刚的例子就是：

$a^1\cdot W^q$

$a^4 \cdot W^k$

得到q和k两个向量：

$q = a^1\cdot W^q$

$k = a^4 \cdot W^k$

再把q和k两个向量做点乘（element）得到一个scalar，这个scalar就是α

$\alpha = q \cdot k = (a^1 \cdot W^q) \cdot (a^4 \cdot W^k )$

除此之外，还有其他的方式，比如右侧的additive方法，这里是把q和k加起来，过一个activation function，再过一个transform得到α

后续的讨论都focus on dot-product方法（常用）了。

知道单个的计算方法之后，我们就要拿a^1和后面的a^2 a^3 a^4都分别计算关联性（α）。

也就是我们先把W^q乘上a^1得到q^1，这个q^1我们叫做query，就像是我们使用搜索引擎的时候，用来搜的关键字。

剩下a^2 a^3 a^4都要给乘上W^k，得到key。

把q^1和k^2算inner product得到alpha

$\alpha_{1,2}=q^1 \cdot k^2$

这里用1,2表示query是1提供的，key是2提供的，这个α称为attention score。

同样的方法我们也要对a^3 a^4做，得到相应的key

在实际操作的时候a^1也会算和自己的关联性（还有k^1）

我们计算出a^1和每一个向量的关联性之后，会做一个softmax（这个softmax和分类的时候用的softmax是一模一样的）exp(α)，然后在normalize（除以所有exp的和）

softmax的输出就是一排α'

为什么用softmax呢？

不一定要用softmax，用别的激活函数也完全没问题，只是softmax很常用（常用就说明softmax肯定打败了其他的）

怎么抽取信息

得到α'以后就要根据α'去抽取sequence里面重要的信息。根据α，我们已经知道哪些向量和a^1是最相关的，接下来我们要根据关联性（根据attention的分数），来抽取重要的信息。

那么怎么抽取信息呢？

把a^1 a^2 a^3 a^4每一个向量乘上W^v，得到新的向量，即v^1 v^2 v^3 v^4

接下来，把得到的v^1 v^2 v^3 v^4每一个都分别乘对应的α值（attention的分数），然后再加起来

（弹幕：这不就解释了为啥用softmax了比例均匀好加权
所以是因为QVK都是来自自己，所以叫自注意力吗
基于注意力分数获取信息
之前Q，K是经过非线性变换的，主要为了学习不同位置下的关系）

可以想象到，如果某一个向量（比如a^2）得到的分数越高（与a^1关联性很大），那么我们在做weighted sum之后得到的结果就可能比较接近v^2

->谁的attention分数越高，谁的v就会dominate抽出来的结果

现在我们就从一排vector得到了b^1

注意b^1 b^2 b^3 b^4的计算并没有先后关系，是同时被计算出来的

完整的计算流程

现在以a^2为例。

a^2会乘上一个matrix变成q^2

接下来会根据q^2对a^1 a^2 a^3 a^4四个位置计算attention的score（方法，拿q^2和k^i做dot-product），得到四个分数α。

得到四个分数之后，做一个normalization（比如softmax），得到最后的attention score α'

得到attention score α'四个数值之后，分别乘上v^1 v^2 v^3 v^4

全部加起来得到b^2

（弹幕：qkv的值是乘上qkv分别对应的权重矩阵得到的，这些权重矩阵就是神经网络要训练的参数）

_______________________________________

以上是dot-product运算的过程

以下是从矩阵乘法的角度看dot-product

——————————————————————

现在我们已经知道a^1 a^2 a^3 a^4每个都要分别产生q k v，如果用矩阵运算表示这个操作：

$\begin{bmatrix} q^1 &q^2 &q^3 &q^4 \end{bmatrix} =W^q \begin{bmatrix} a^1 &a^2 &a^3 &a^4 \end{bmatrix}$

这里W^q是矩阵的参数，等下会learn出来的

同理，我们就会得到K和 V

得到Q K V之后，就是每一个Q都会和每一个K去dot-product，计算attention的分数。

所以就是k^1和q^1做inner product得到α_{1,1}

$\alpha_{1,1} = \begin{bmatrix} k_{0}^1 &k_{1}^1 &...... & k_{n}^1 \end{bmatrix} \cdot \begin{bmatrix} q_{0}^1\\ q_{1}^1\\ ...\\ q_{n}^1 \end{bmatrix}$

（介绍一下annotation，这里：

$\alpha_{1,1}$ ：表示的是a^1的query和a^1的key算出来的attention score
$k_{0}^1$ ：表示的是这是k^1向量中的第一个数字
$k_{n}^1$ ：表示的是这是k^1向量中到最后一个数字，并且指明k^1向量的长度为n
$q_{0}^1$ ：表示的是这是q^1向量中的第一个数字
$q_{n}^1$ ：表示的是这是q^1向量中到最后一个数字，并且指明q^1向量的长度为n）

类似的，我们可以把四个分数都表示出来

因此就可以看做是把k^1 k^2 k^3 k^4拼起来和q^1相乘

同理，其他也要算attention

（弹幕：本质上是将所有过程转换成矩阵乘法，然后通过比如动态规划等算法进行加速，实现中通常是由gpu负责）

然后对分数做normalization

下一步就是得到b^1，就是拿出每个a对应的分数，乘以v的值

同理，得到所有的vector b

->其实一连串的操作就是一连串的矩阵乘法而已

只要learn三个矩阵就好啦

Multi-head Self-attention

例子

self-attention有一个进阶的版本叫做multi-head self-attention。有的时候多一点head能得到更好的结果（但是具体用几个head，这又是另外一个hyperparameter了，需要咱们自己调啦）

为什么需要比较多的head呢？

我们在做self-attention的时候，我们就是用q去找相关的k，但是相关有很多不同的定义。所以……也许我们不能只有一个q，用不同的q去负责不同种类的相关性。

所以在做multi-head的时候，我们先把a乘上一个矩阵得到q，接下来再把q成上另外两个矩阵，分别得到q^1和q^2（图中采用的是q^{i,1}，这里i代表位置，1和2代表是这个位置的第几个q）。代表有两个head->认为这个问题里面有两种不同的相关性，来找两种不同的相关性。

同理，k和v也有两个（方法就是得到k v之后再分别乘以两个矩阵，得到k^{i,1} k^{i,2} v^{i,1} v^{i,2}）

同理对另一个位置j我们也做相同的操作。

下一步是做self-attention。

现在的idea是属于类别1的一起做，属于类别2的一起做（看上标是1还是2）。比如q^{i,1}在计算的时候就只关注k^{i,1} k^{j,1}，做dot-product，得到分数。

之后也不用管2，只看1类的v

同理对第2类也做相同的操作

接下来，我们可能会把b^{i,1} b^{i,2}接起来，乘上一个矩阵得到b^i，再送到下一层去

Positional encoding

到目前为止，这个self-attention的layer少了一个可能很重要的信息，位置信息。对一个self-attention layer而言，每一个input是出现在sequence的哪个位置是不知道的。对于self-attention layer来说它并不觉得a^1和a^4就差很远，a^2和a^3就挨着，对它来说所有位置之间的距离都是一样的。

但是位置信息也许很重要啊，比如在做词性标记的时候，可能动词不太容易出现在句首。

所以在做self-attention的时候，如果觉得位置的信息是有用的，可以把位置的信息塞进去。

这里采用的技术称为positional encoding。为每一个位置设定一个vector（称为positional vector，用 e^i表示，i代表位置），每一个不同的位置就有不同的vector。把这个e加到a^i上就可以了

这个positional vector是人设的，所以可能有问题，比如我只设定到128，但是新进来的sequence的长度是129。不过在attention is all you need里面已经没有这个问题了，因为其vector是通过一个规则产生的（是一个sin cos的function）

不过具体怎么做好，还尚待研究（到课程的时间）

应用

也可以用在语音上，如果想把语音信号表示成一个向量，那么这个向量可能非常的长（指向量个数很多），可能会带来计算上的困难（矩阵太大啦）

所以可能需要改改。

这里采用的是truncated self-attention，就是说我们现在不看一整句话，而是看一个范围，具体范围多大，这个是人设定的

还可以被用在图像上。

把每一个位置上的pixel看成是一个三维的向量，所以这里，整个图片就是5×10个向量。

比如：

self-attention v.s. CNN

假设现在我们用self-attention来处理一张图片，假设现在上面的红框框的地方是我们要考虑pixel，那么这个红框产生query，其他（包括其本身）产生key，在做inner product的时候，考虑的就是整张图片。

但是我们在做CNN的时候，会画出一个receptive field，每一个neuron只考虑这个receptive field里面的信息。

->CNN可以看做是一个简化版本的self-attention，只考虑receptive field里面的信息

self-attention可以看做是复杂化的CNN，CNN中receptive field的范围和大小是人决定的，attention就像是receptive field是自己学出来的

CNN其实是self-attention的特例，只要设定合适的参数，self-attention就可以做到和CNN一样的事情（具体数学推理参考图片中的论文）

越flexible的model比较需要更多的data，如果data不够就容易造成overfitting。比较小的/有限制的model就比较适合在data少的时候，如果限制设置的好也会有不错的结果。

self-attention v.s. RNN

RNN基本可以被self-attention取代（什么前浪死在沙滩上的悲惨故事）

https://leemeng.tw/neural-machine-translation-with-transformer-and-tensorflow2.html
提供了一些很好的动图

一个非常显而易见的区别是RNN只考虑了左边的vector，没有看到右边的vector，但是实际上RNN也可以用双向的，这样RNN也可以看到右边的情况

但是对于RNN来说，如果想要最后一个vector还记得第一个输入的vector的信息，就要把这个输入的信息存在memory里面。但是self-attention就完全不需要，它可以自己抽取信息。

另外RNN是没办法平行处理所有的output的。想输出最后一个vector，就要等前面的vector都运算完。

self-attention for Graph

graph也可以看做是一堆vector。

在graph中，我们不止有node（每一个node都可以表示成一个向量），还有edge的信息，需要知道哪些向量是相连的。之前在做self-attention的时候，关联是network自己找出来的，那么这里可能就不需要自己去找。（什么邻接矩阵？）

所以现在完全可以只计算有相连的node的分数。

如果没有向量，就意味着没有关系，没有关系就不用算score了，直接设为0就好了。

self-attention的变形

Transformer

引入

Transformer就是一个seq2seq（input是一个sequence，output也是一个sequence，但是我们不知道output的长度->output的长度由model自己决定）的model

有哪些应用？

语音识别。输入是声音信号，输出是语音识别的结果（输入的声音信号所对应的文字）

机器翻译。读入一个语言的句子，输出另一种语言的句子

语音翻译。输入一段声音信号，直接输出另一种语言的文字
为什么要做语音翻译呢？直接吧上面的语音识别接上机器翻译不可以吗？实际上有很多语言是没有文字的，对于这些没有文字的语言根本没办法做语音识别。

语音合成（语音识别的反面）

聊天机器人（Chatbox）

事实上，seq2seq的model在NLP领域的应用十分广泛。其实很多NLP领域的任务都可以想想成是QA的任务（Question Answering）。所谓QA的任务就是给机器度一段文字，然后问机器一个问题，期待机器给一个正确的答案。比如如果是机器翻译任务，给机器读一篇英语文章，要翻译成德语，这个时候的问题就是这篇文章的德语翻译是什么？或者让机器自动做摘要，这个时候问题就是这篇文章的摘要是什么？或者想让机器做sentiment analysis，这个时候的问题就是这篇文章是正面还是负面的？

输入是问题和文章，输出是答案。

但是对多数NLP的任务而言，为这些任务量身定做的模型会得到更好的结果，不见得非要单独用seq2seq。

用seq2seq硬解的举例。

input 一个sequence，由encoder处理这个sequence，再把处理好的sequence丢给decoder，让decoder决定要输出什么样的sequence。

很早就有应用。

只是现在提到seq2seq基本上都想到的是Transformer

encoder

seq2seq中encoder要做的事情是：给一排向量，输出另一排向量。给一排向量输出另一排向量有很多模型都可以做到。比如前面提到的self-attention，比如RNN、CNN（都能够做到input一排向量，output另外一排同样长度的向量）

在Transformer里面，Transformer的encoder用的就是self-attention。

现在encoder里面会分成很多个block。每一个block都是输入一排向量输出一排向量，最后的一排向量会输出最终的vector sequence。这里每一个block并不是neural network的一层，每一个block在做的事情是好几个layer在做的事情。

在Transformer的encoder里面，每一个block做的事情大概是：先做一个self-attention，得到一排vector（考虑整个sequence的信息）之后，把这些vector丢到FC里，再output另外一排vector，这里output的vector才是block的输出。

实际上，做的事情更复杂。

在Transformer里面加入了一个设计，self-attention的输出是考虑所有input的结果，除了这样输出的vector，额外添加了input（input+self-attention的output得到新的输出）->residual链接

（很好，又是残差）

做了residual之后，再做normalization，这里使用的不是batch normalization（猜测老师提到的原因是因为resnet用的是batch normalization），而是layer normalization。

layer normalization在做的事情是：输入一个向量，输出另一个向量，不用考虑batch。计算输入向量的mean和standard deviation。注意batch normalization是对不同的example的不同的feature的同一个dimension去计算mean和standard deviation，而layer normalization是对同一个feature的同一个example的不同的dimension计算mean和variance

（弹幕：batch norm 是在nbatch降维，而layer norm在seq上）

纠错，这里的把上标prime拿掉->

得到layer normalization的输出之后，才算得到FC的输入（见右下角）

在FC这边也有residual的架构

再把residual的结果再做一次layer normalization

这个normalization的结果才是这个block的输出

图中的Add & Norm就是residual+layer normalization的意思啦

为什么Transformer的encoder要这样设计，不这样设计可以吗？可以，不一定非要按照原始的Transformer的架构（顺序）。

decoder

autoregressive

decoder其实有两种，这里主要介绍autoregressive（AT）

autoregressive的decoder是怎么运作的呢？

以语音识别为例（什么是语音识别？输入一段声音，输出一串文字。所以这里encoder在做的就是输入一段声音，输出一排vector）。

接下来就轮到decoder出场了。decoder要做的事情就是产生输出。那么decoder怎么产生语音识别的结果呢？decoder就是先把encoder的输出读进去。

decoder怎么产生一段文字呢？首先要给decoder一个符号，代表开始（ begin of sentence），接着decoder会吐出一个向量，这个向量的长度=vocabulary的size（词典的长度）。

这里解释一下vocabulary。我们首先要想好decoder输出的单位是什么，假设现在做的是中文的语音识别，输出的是中文，那么这里的vocabulary的size可能就是中文的方块字的数目。常用的中文的方块字的数量大概是2000-3000个。不同的语言的vocabulary的size可能是不同的，比如如果是英语，我们可以用字母，也可以用词汇etc。

那么带入到例子里面，这个vector的长度就和我们希望中文可以输出的方块字的数目相等。这样，每一个方块字都会对应一个数值。在产生这个向量之前，通常都会跑一个softmax->这时这个向量其实就是一个distribution（sum=1）。也就是每一个方块字都有一个分数，分数最高的那个字就是最终的输出。

接下来，我们把“机”当做decoder新的input（开始decoder只有一个input），这里“机”也被表示为一个one-hot的vector，所以现在decoder有两个输入：和“机”。根据这两个输入，得到一个向量，根据这个向量给每一个方块字的打分，决定第二个输出是什么（“器”）。

接下来把“器”也当做decoder的输入，现在decoder有三个输入啦： “机” “器”，再决定输出什么（“学”）

……

这里encoder也有输入，这个稍后讨论

注意这里，decoder看到的输入其实是decoder在前一个时间点自己的输出，decoder会把自己的输出当做接下来的输入。所以当decoder在产生一个句子的时候，有可能看到错误的东西。

decoder内部的结构。先忽略encoder那边。

在Transformer中decoder的结构如上图所示。

看起来比encoder要复杂一点。如果我们把decoder中间的部分盖上，看起来encoder和decoder两遍的结构差不多哎。->除了中间被遮住的部分，并没有太大的差异哎

还有一个区别是在decoder这边的multi-head attention这里还加了一个masked

我们原来的self-attention如上图。input一排vector，output一排vector。output的每一个vector都是看过完整的input以后才做决定的。所以输出b^1的时候实际上是看过a^1到a^4所有的信息才输出的b^1。

在masked attention的时候，我们不能再看全部的的信息啦。在产生b^1的时候只能考虑a^1的信息（不看a^2 a^3 a^4），在产生b^2的时候只能看a^1 a^2的信息

（弹幕：不完全是RNN,这个masked可以主动掩码，可以支持并行计算，RNN必须先计算出前一个才能计算后一个）

讲的更具体一点：

当我们要产生b^2的时候，只拿第二个位置的query去和第一个位置的key和第二个位置的key去计算attention，第三个位置和第四个位置就不去管了（不计算attention）。

（弹幕：因为bert就做了两件事，分别是mask和NSP，mask也就是类似于完形填空
因为后面的结果还没翻译出来啊，怎么计算和后面的相似度）

为什么要加masked呢？

回忆一下decoder的运作方式，输出是一个一个产生的，是先有a^1再有a^2再有a^3再有a^4，这和之前的self-attention是不一样的，之前的self-attention是a^1到a^4一起输进去的。但是在decoder这边，当我们要计算b^2的时候，我们是没有后面的a^3 a^4的，所以也没办法把a^3 a^4考虑进去

（弹幕：因为decoder是RNN模式，分步进行
mask的引入说白了就是避免数据泄露~也就是说，不能使用未来的数据进行预测
相当于你能一眼看到一个句子的所有词汇，但是写的时候只能从前往后一个一个的写
被翻译可以一次获取所有，而翻译成功的要一点点的出
训练的时候你知道后面的a，但你预测的时候后面的a都还没有，你怎么计算？
这个网络的训练方法就是预测下一个会出现的词，如果网络本身就可以获得下一个词的话，那么就只会获得一个一一映射，无法得到训练的目的）

这相当于是告诉我们decoder输出的token是一个一个产生的。所以只能考虑左边的东西而不能考虑右边的东西。

（弹幕：训练的时候decoder的输入是完整的输入，测试的时候才是autoregressive的输入，训练时加了mask为了模拟测试的情况）

到目前为止，还有一个问题，decoder要自己决定输出的sequence的长度

但是到底输出的长度是多少呢？我们没办法轻易的从输入的长度知道输出的长度是多少。并不一定输入是4个向量输出就是4个向量。decoder运作的机制导致decoder并不清楚什么时候应该停下来，比如这里产生“习”之后，还可以继续重复同样的process，比如这里进来一个“习”，下面可能输出一个“惯”。

所以我们需要一个特别的标识符，来断开（END）也就是说除了所有的中文的方块字之外还要有和END（在示例中其实和END用的是同一个符号）

所以我们期待着这样就可以在decoder吃进“习”之后，能够吐出来END，换言之，当把“习”当做输入以后，decoder看到encoder输出的embedding还有 “机” “器” “学” “习”之后，decoder就知道这个语音识别的结果已经结束了，也就不需要产生更多的词汇了，这个时候产生END这个token的概率必须是最大的

（弹幕：训练的时候加end，预测的时候由模型决定，感觉是这样
就是说某一次迭代softmax 输出的分布里 end 对应的概率分数为最大值的时候）

Non-autoregressive（NAT）

NAT不同于AT（一个字一个字往外蹦），是一次把整个句子产生出来

吃一整排BEGIN的token，让一次产生一排token，接结束了

但是不是不知道应该输出多长吗？是的，确实没办法很直接的知道。idea1：另外learn一个classifier，吃encoder的input，输出数字，代表输出的长度，这样decoder就吃这个数字个数的BEGIN。idea2：不在乎。随便输入，但是忽略END之后的输出。

（弹幕：4个begin其实是不同的东西，比如不同的语音片段）

NAT的好处：

1. 平行化（如果想输出100个token的句子，AT就需要做100次的decode，但是NAT不care句子的长度是多少，都是一下出来）

2. 比较能控制输出的长度。比如语音合成，比如现在想讲快一点，就把classifier的output除以2（假设用的是idea1的方法），那么这个时候的语速就是2倍快了，如果想讲慢一点就可以把classifier的output乘以2。

Encoder-Decoder

如图，红框框那里。这里叫做cross attention，是链接encoder和decoder之间的桥梁

从图中可以发现，encoder提供两个输入（来自encoder的那边有两个箭头，蓝色圈圈），decoder提供一个箭头（绿色圈圈）

decoder会先吃BEGIN（）这个特殊的token，然后经过self-attention（含mask，不会吃到后面的输入，这里吃进去多少向量，吐出来多少向量），然后把输出的向量乘上一个矩阵，做transform，得到query（q），再把a^1 a^2 a^3产生key（k^1 k^2 k^3），用q和k计算attention的分数，得到α^1 α^2 α^3（做softmax->α'^1 α'^2 α'^3），接下来再把α'^1 α'^2 α'^3分别乘上v^1 v^2 v^3，再求和得到v，这个v接下来会被丢到FC做后续的处理。这个步骤（q来自decoder，k v来自encoder）称为cross attention。

（弹幕：decoder以某种形式和注意力转移，不断的观察原文，输出翻译后的）

后面也一样，假设现在已经产生了第一个中文的字“机”，现在decoder输入BEGIN “机”，产生一个向量q'，一样和k^1 k^2 k^3计算分数，和v^1 v^2 v^3做weighted sum，得到v'，交给后面的FC

Training

仍然以语音识别为例。做语音识别需要收集什么样的数据？要手机大量的声音信号，每一句声音信号都要找人给打标签（对应的词汇是什么）。那么，怎么让机器学到这件事呢？我们已经知道输入这一段声音信号，输出的第一个字应该是“机”，所以当我们把BEGIN丢给decoder之后得到的第一个输出应该和“机”越接近越好。什么叫和“机”越接近越好？“机”会被表示成一个one-hot vector，只有“机”对应的维度是1，其他都是0（见左上角），我们decoder的输出是一个distribution，是一个概率分布，我们会希望这个输出的概率分布和这个one-hot vector越接近越好。所以我们会去计算这个groundtruth和这个distribution的cross entropy，我们希望这个cross entropy的值越小越好->和分类很像。

所以实际上训练的时候，我们已经知道输出应该是“机器学习”这四个字。现在我们就告诉decoder说，每一次的输出分别应该是“机”“器”“学”“习”这四个字的one-hot vector。所以我们就希望输出和这四个字的one-hot vector越接近越好。

在训练的时候，每一个输出的one-hot vector和它对应的正确答案都会有一个cross entropy，我们希望所有的cross entropy的总和越小越好。

不要忘了这里还有END，假设现在中文的字是4个，但是学的时候，要decoder输出的并不是只有这四个中文的方块字，还要叫decoder记住，输完这四个中文字之后，还要输出END这个特殊符号。->也就是说最终第五个位置输出的向量应该和END的one-hot vector的cross entropy越小越好。

（弹幕：一种损失函数，代表预测值和真实结果的差距。所以越小预测越准【这里在回答前面有人在弹幕中提问为什么要cross entropy越小越好，这里提一句题外话，为什么要用cross entropy我最近才get到一点intuition所以在下面大概写一下】）

这边有一个问题需要注意。decoder的在训练的时候会给看正确答案（输入ground truth），也就是说我们会告诉decoder在已经有BEGIN和“机”的情况下会输出“器”，有BEGIN“机”“器”的情况下会输出“学”……decoder在训练的时候会给输入正确答案->这种做法叫teacher forcing

（弹幕：可以理解成encoder是在找到输入向量之间的相关性，而decoder是借助这种相关性进行预测，再将预测结果和真实值做交叉熵作为训练的目标函数）

Tips

Copy Mechanism

对很多任务而言，我们都要求decoder自己产生输出，但是对某些任务而言，decoder不需要自己创造输出，也许decoder要做的是从输入的东西里面复制一些东西出来。

什么样的任务需要复制一些东西出来呢？一个例子是做聊天机器人。比如在上图的例子里面，“库洛洛”这个人名显然就没必要让decoder自己创造出来（老实说要是能创造不如让decoder自己画下去了）。但是现在decoder学的并不是要产生“库洛洛”，而是看到“我是xxx”就自动把xxx复制出来说“xxx你好”。

或者在做摘要的时候，可能更需要copy的技能。训练的方法就是收集大量的文章，每个文章都有人写的摘要，然后train一个seq2seq的model，这种model需要大量的文章（比如搞一万篇文章就很逊啦）。在做摘要的时候，有很多字直接就是从原来的文章中复制的。

附相关资料

Guided Attention

机器是个黑盒子，所以学到什么我们可能也不太清楚，所以有什么会犯很低级的错误。这里给出的例子是语音合成（TTS，text-to-speech）。完全可以用seq2seq的model，就搜集很多的文字和声音对应关系，告诉这个seq2seq model看到这个句子就输出这个声音。然后硬train一发。

怎么解决这个问题呢？

要求机器在做attention的时候有固定的方式。比如在TTS的时候我们认为应该按照从左到右去看句子。

->把这种限制放到training里面，要求机器学到attention就应该从左向右

Beam Search

有时候有用，有时候没用

sampling

加入一些随机性（加点噪声）可能效果更好

你可能感兴趣的:(自然语言处理,人工智能,transformer)

MotionLCM 部署优化踩坑解决bug AI算法网奇 aigc与数字人深度学习宝典文生motion
目录依赖项windowstorchok：渲染黑白图问题解决：humanml3d：sentence-t5-large下载数据：报错：Nomodulenamed'sentence_transformers'继续报错：fromtransformers.integrationsimportCodeCarbonCallback解决方法：推理相关转mesh：module‘matplotlib.cm‘hasno
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
如何运用深度学习打造高效AI人工智能系统 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习 ai
如何运用深度学习打造高效AI人工智能系统关键词：深度学习、AI系统、神经网络、模型优化、实战开发摘要：本文将从深度学习的核心概念出发，结合生活实例和代码实战，系统讲解如何构建高效AI系统。我们会拆解数据准备、模型设计、训练优化、部署落地的全流程，揭秘“数据-模型-训练-推理”的协同机制，并通过具体案例演示从0到1开发AI系统的关键技巧，帮助开发者掌握打造高效AI系统的底层逻辑。背景介绍目的和范围在
非欧空间计算加速：图神经网络与微分几何计算的GPU优化（流形数据的内存布局优化策略）九章云极AladdinEdu 空间计算神经网络人工智能 gpu算力算法 java 开发语言
一、非欧空间计算的革命性意义与核心挑战在三维形状分析、社交网络建模、分子动力学模拟等领域，非欧几里得空间数据（流形数据）的处理正推动人工智能技术向更复杂的几何结构迈进。传统欧式空间优化方法在处理流形数据时面临根本性局限：黎曼度量导致距离计算失效、局部坐标系动态变化引发内存访问模式混乱、曲率变化影响并行计算效率。本文提出基于分块流形存储（BlockedManifoldStorage,BMS）与层次化
响应式编程实践：Spring Boot WebFlux构建高性能非阻塞服务 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人响应式编程实践：SpringBootWebFlux构建高性能非阻塞服务一、引言在当今数字化时代，互
企业级RAG的数据方案选择 - 向量数据库、图数据库和知识图谱南七小僧 AI技术产品经理网站开发人工智能数据库知识图谱人工智能
如何为企业RAG选择合适的数据存储方式摘要:本文讨论了矢量数据库、图数据库和知识图谱在解决信息检索挑战方面的重要性，特别是针对企业规模的检索增强生成（RAG）。看看海外人工智能企业Writer是如何利用知识图谱增强企业级RAG。要点概要：矢量数据库高效存储数据，但缺乏上下文和关联信息。图数据库优先考虑数据点之间的关系，受益于关系结构。知识图谱在语义存储方面表现出色，由于其能够编码丰富的上下文信息，
【人工智能入门必看的最全Python编程实战（1）】 DFCED 人工智能 python 开发语言深度学习找工作就业
--------------------------------------------------------------------------------------------------------------------1.AIGC未来发展前景未完持续…1.1人工智能相关科研重要性拥有一篇人工智能科研论文及专利软著竞赛是保研考研留学深造以及找工作的关键门票！！！拥有一篇人工智能科研论文
基于深度学习的目标检测算法综述：从RCNN到YOLOv13，一文看懂十年演进！人工智能教程深度学习目标检测算法人工智能自动驾驶 YOLO 机器学习
一、引言：目标检测的十年巨变2012年AlexNet拉开深度学习序幕，2014年RCNN横空出世，目标检测从此进入“深度时代”。十年间，算法从两阶段到单阶段，从Anchor-base到Anchor-free，从CNN到Transformer，从2D到3D，从监督学习到自监督学习，迭代速度之快令人目不暇接。本文将系统梳理基于深度学习的目标检测算法，带你全面了解技术演进、核心思想、代表算法、工业落地与
2025毫米波雷达技术白皮书：智能汽车与物联网的感知核心
随着人工智能、物联网（IoT）和智能汽车产业的迅猛发展，毫米波雷达技术正成为感知领域的核心驱动力。毫米波雷达凭借其高精度、全天候和强抗干扰能力，广泛应用于智能汽车的自动驾驶、物联网的环境感知以及工业自动化。2025年，毫米波雷达技术在性能、应用场景和市场规模上都达到了一个全新的高度。本白皮书将深入探讨毫米波雷达技术的核心优势、发展趋势及其在智能汽车与物联网中的应用前景，同时推荐各大品牌的领先产品方
从零开始构建深度学习环境：基于Pytorch、CUDA与cuDNN的虚拟环境搭建与实践（适合初学者）荣华富贵8 程序员的知识储备2 程序员的知识储备3 深度学习 pytorch 人工智能
摘要：深度学习正在引领人工智能技术的革新，而对于初学者来说，正确搭建深度学习环境是迈向AI研究与应用的第一步。本文将为读者提供一套详尽的教程，指导如何在本地环境中搭建Pytorch、CUDA与cuDNN，以及如何利用Anaconda和PyCharm进行高效开发。内容涵盖从环境配置、常见错误修正，到基础的深度学习模型构建及训练。我们旨在为深度学习零基础的入门者提供一个全面且易于理解的“保姆级”教程，
人工智能概念之九：深度学习概述
文章目录相关文章一、深度学习的定位：AI时代的基石技术1.1技术生态全景图1.2技术革命的催化剂二、深度学习的双面性：性能优势与技术挑战2.1技术优势全景扫描2.2技术挑战深度剖析三、技术演进时间轴：70年的厚积薄发四、主流框架生态对比五、未来演进方向相关文章人工智能概念之二：人工智能核心概念：网页链接一、深度学习的定位：AI时代的基石技术1.1技术生态全景图深度学习处于人工智能（AI）技术金字塔
H800核心技术突破与行业应用实战智能计算研究中心其他
内容概要在人工智能技术持续迭代的背景下，H800芯片凭借自主架构优化与算力跃升，成为推动行业场景化落地的关键驱动力。本文将从技术路径、性能突破与行业应用三个维度，系统解析H800如何在高并发计算与低延时响应领域实现底层架构创新。首先聚焦其自主架构优化的核心技术路径，包括动态资源调度算法与异构计算单元的深度协同设计，揭示其在能效比与计算密度上的突破逻辑；进一步结合算力跃升的具体表现，探讨该芯片如何通
智慧建筑：科技引领房地产与建筑业的未来 RedPhoenix45
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE智慧建筑：科技引领房地产与建筑业的未来随着科技的飞速发展，人工智能（AI）和智能化工具正以前所未有的速度改变着各行各业。在房地产与建筑领域，这种变革尤为显著。从建筑设计到施工管理，再到物业管理，智能化技术正在重塑行业的每一个环节。本文将探讨如何利用先进的智能化工具提升房地产与建筑行业的效率，并介绍一款革命性的开发工具——它
智慧施工：AI技术赋能建筑安全监测新纪元
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！智慧施工：AI技术赋能建筑安全监测新纪元在现代建筑行业中，施工安全始终是核心关注点之一。随着科技的飞速发展，人工智能（AI）和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统，并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
智慧工地系统：建筑行业数字化变革的引领者青云智慧园区 java
在建筑行业积极迈向数字化转型的浪潮中，智慧工地系统凭借“数据驱动、智能管控、协同增效”的核心优势，深度融合物联网、大数据、人工智能等前沿技术，构建起覆盖工程项目全生命周期的精细化管理体系。以下将从系统架构、核心功能模块、应用价值以及未来展望等方面，全方位剖析智慧工地系统如何实现施工全过程的智能化、高效化管理。一、系统架构：打造一体化协同管理平台智慧工地系统采用先进的分层架构设计，以底层的数据采集层
视觉Transformer还有哪些点可以研究？怎么应用？计算机视觉工坊 3D视觉从入门到精通学习算法开源
0.这篇文章干了啥？今天笔者为大家推荐一篇最新的综述，详细总结了Transformer的网络架构、优化策略、发展方向，还会定期更新Github，研究注意力机制的小伙伴一定不要错过。注意机制有助于人类视觉系统有效地分析和理解复杂场景，它能够聚焦于图像的关键区域，同时忽略无关紧要的部分。受此概念启发，注意机制已经被引入到计算机视觉（CV）中，以动态地为图像中的不同区域分配权重。这使得神经网络能够专注于
AGI和AIGC傻傻分不清楚，一篇文章告诉你如何分辨！
Look！我们的大模型商业化落地产品更多AI资讯请关注Free三天集训营助教在线为您火热答疑‍什么是AGI(人工通用智能)?AGI是ArtificialGeneralIntelligence的缩写，中文翻译为“通用人工智能”，该术语指的是机器能够完成人类能够完成的任何智力任务的能力。与狭义的人工智能(ANI)不同，狭义的人工智能是为特定领域或问题而设计的，而AGI旨在实现一般的认知能力，能够适应任
新一代数据库：融合多模智能，重塑数据价值
一、场景重塑产业格局：数据库“融合进化”AI浪潮奔涌而至，数字产业格局加速重构。云计算、移动互联、万物互联（IoT）、人工智能（AI）等技术的深度融合与快速落地，正以前所未有的速度重塑着企业的应用形态。新业务场景层出不穷——从高并发的在线交易、实时精准的分析决策，到海量物联网设备监控、基于图关系的风控反欺诈，再到AI驱动的智能推荐与内容生成，应用场景的多样性与复杂性已突破传统数据库的能力边界。这对
基于知识图谱技术增强大模型RAG知识库应用效果罗伯特之技术屋知识图谱人工智能
【摘要】本文是AI落地实践的优秀案例，利用RAG技术（Retrieval-AugmentedGeneration，检索增强生成）的知识库实践为背景，介绍了RAG技术的发展及存在的不足，以及知识图谱相关的知识，利用RAG技术去完善和智能化知识图谱。在AI技术大量涌现，但应用不足的情况下，指明了现有应用场景、技术与AI结合的具体做法。1.引言随着人工智能技术的加速演进，AI大模型如雨后春笋般纷纷涌现，
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f