【Transformer】Transformer的简单了解：Positional Encoding、Self-attention、Batch 与 Layer Norm 等

自从2017年Transformer模型被提出以来，它已经从论文最初的机器翻译领域，转向语音，图像，视频等等方面的应用。最近的Segment Anything论文提出，阅读论文其中大量的transformer的在图像方面的应用。所以这里还是加紧记录下transformer相关内容。

transformer初了解

Positional Encoding（位置编码）

Self-attention（自注意力机制）

Batch & Layer Norm（批量归一化/层标准化）

transformer的结构

补充：ResNet（残差网络）

一、Transformer的提出

在NLP中，RNN对文本的学习可以考虑词的先后顺序对预测的影响。

运行机制

在RNN当中，tokens是一个一个被喂给模型的。比如在a3的位置，模型要等a1和a2的信息都处理完成后，才可以生成a3。也是这样的机制，有了如下的特点和问题：

特点：

1 顺序处理：句子必须逐字处理

2 RNN指的是一个序列当前的输出与之前的输出也有关，具体的表现形式为网络会对前面的信息进行记忆。
记忆保存在网络的内部状态中，并应用于当前输出的计算中，即隐藏层之间的节点是有连接的，并且隐藏层的输入不仅包含输入层的输出还包含上一时刻隐藏层的输出

3它采取线性序列结构不断从前往后收集输入信息

缺点：

1 无法支持长时间序列（容易梯度消失）

RNN网络中，时间是串联关系，越远的隐藏层的输出对当前隐藏层的输出的影响越小。

2 RNN网络对所有序列输入是平等对待，没有区分信息的重要性：有用、无用、辅助。

3 序列操作和最大路径长度的复杂度，随着序列长度的增加而增加。
后来提出RNN网络的升级版本, LSTM网络能够根据词的重要性有选择性的进行丢弃和记忆。

直到2017年，谷歌提出了transformer，当时主要应用于NLP领域的各个任务中。
其最大特点是抛弃了CNN和RNN，整个网络结构完全由attention机制组成。由于其出色的性能以及对下游任务的友好性，或者说对下游任务仅仅微调即可取得不错的效果，因此，在CV领域，不断有人尝试将transformer引入。比如典型的有目标检领域的dert和可变形dert，分类领域的vision transformer等。

运行机制：如图，浅绿色方框为一个attention模型。

在每个位置，例如在a2处产生b2时，attention将会同时看过a1到a4的每个token。

每个token生成其对应的输出的过程是同时进行的，计算不需要等待。

特点：

可以直接计算每个词之间的相关性，不需要通过隐藏层传递

可以并行计算，可以充分利用GPU资源

transformer论文中的一个重要的结构图：
接下来会记录的内容：

transformer中重要的小模块：Positional Encoding、Multi-Head Attention、Norm。

transformer中的结构：encoder、decoder、整体结构。

二、Positional Encoding（位置编码）

2.1 位置编码的必要性

positional_encoding的添加
在transformer中的encoder和decoder的输入层中，使用了Positional Encoding，使得输入包含了位置信息：
$input_embedding+positional_encoding \text{input = input\_embedding+positional\_encoding}$ 。
这里 input_embedding 为原本正常的输入的 token，是从单词长短转换成d_model维度；positional_encoding 表示词在文本序列的位置。
假设input_enbeddings 的维度为4，则实际的位置编码可如下所示：

positional_encoding的必要性
在原理上Transformer中的 self-attention 是无法隐式学到序列的位置信息的，不会区别输入的前后顺序，这样训练的结果对text中词组顺序的变化无感。比如：“小猫在小狗前面”和“小狗在小猫前面”是同意，显然这样是不行的。
为了可以处理序列问题，Transformer提出者的解决方案是使用位置编码（Position Encode/Embedding，PE），并且为了计算方便使用绝对位置编码，即序列中每个位置都有一个固定的位置向量。

2.2 位置编码的方法 /演变历程

我们想要一种位置表达方式，满足于：
（1）能用来表示一个token在序列中的绝对位置
（2）在序列长度不同的情况下，不同序列中token的相对位置/距离也要保持一致
（3）可以用来表示模型在训练过程中从来没有看到过的句子长度。

可以使用的位置编码形式

【用整型值】
最直接的想法：给第一个token标记1，给第二个token标记2…。但会存在问题：

不利于泛化：模型可能遇到比训练时所用的序列更长的序列

模型的位置无界，不利于收敛：随着序列的增加，位置值会越来越大，网络直接输入无界的数值无法得到很好的收敛。

【用[0,1]范围的list】
为了解决整型值带来的问题，可以之间将值的范围限制在[0,1]之间。0代表第一个token，1代表最后一个token，n个token就用stride=1/(n-1)的list代表。
比如：共3个token对应位置信息为 [0,0.5,1]；共4个token对应位置信息为 [0,0.33,0.69,1]。
依然存在问题：当序列长度不同时，token的相对距离是不一样的。长度的不一致会使得网络无法很好的获取到当前text中的位置信息

【用二进制向量】
可以选择将位置信息添加到input embedding上。比起使用单一的值，使用一个positional encoding来表示，然后与input embedding相加，这样添加的信息更平稳些。能够相加说明两者需要相同的维度，如此二进制编码则被考虑到。

【使用正余弦函数】
在transformer中，位置编码选择了正余弦函数。实现了如下功能：

每个token的向量唯一

位置向量的值是有界的，且在连续的空间中。这样模型在处理位置编码向量时更容易泛化，也就是能够更好的处理长度和训练数据分布不一致的序列。

有公式如下：
$PE(pos,2i)=\sin(\frac{pos}{10000^{2i/d_{model}}}) \\ PE(pos,2i+1)=\cos(\frac{pos}{10000^{2i/d_{model}}})$

PE：位置编码。维度为(n， $d_{model}$ )，其中n为词的个数， $d_{model}$ 为位置编码的维度

pos：当前词在n个词中的序列位置

i：【2i 和 2i+1】表示每个词在维度为 $d_{model}$ 的编码的第i个位置的数值， $i=0,1,2,...,\frac{d_{model}}{2}-1$

2.3 正余弦函数

2.3.1 函数数值的变化

对于上面的公式，个人直接看并不能感受到其变化情况，所以这里做一个曲线的绘制。认知上面公式，我们先了解sin的曲线变化情况 $PE(pos,i)=\sin(\frac{pos}{10000^{i/d_{model}}})\,\,\,\,\,\,i=0,1,2,...,d_{model}-1$

假设通过正余弦位置编码成维度为50的向量，当pos分别为10、20时，则有以下曲线

上图中

绿色曲线： $y=\frac{20}{10000^{i/50}}$ ，也就是pos=20， $d_{model}$ =50

红色曲线： $y=\frac{10}{10000^{i/50}}$ ，也就是pos=10， $d_{model}$ =50

蓝色曲线： $y=\sin(\frac{20}{10000^{i/50}})$

橙色曲线： $y=\sin(\frac{10}{10000^{i/50}})$

可以看到，对于 $y=\frac{pos}{10000^{i/50}}$ ，当 $i = 0$ 时， $y\approx pos$ ，当 $i = 49$ ， $y\approx 0$ ，且在前期快速下降；对应的 $y=\sin(\frac{pos}{10000^{i/50}})$ 会在前期快速震荡，后期趋于稳定。
对于pos，越大时候， $y=\sin(\frac{10}{10000^{i/50}})$ 在初期震荡频率越高，越靠后越趋于稳定。

当有词数量为30时，将其每个词的位置编码绘制成图如下

当我们对位置编码的奇数位置使用cos，偶数位置使用sin，就有了正余弦编码函数 $PE(pos,2i)=\sin(\frac{pos}{10000^{2i/d_{model}}}) \\ PE(pos,2i+1)=\cos(\frac{pos}{10000^{2i/d_{model}}})$ 类似的有：

2.3.2 正余弦函数的性质

正余弦编码具有如下性质：

1 两个位置编码的点积 (dot product) 仅取决于偏移量k，即两个位置编码的点积可以反映出位置间的距离

2 位置编码的点积是无向的，即 $PE^{T}_{t}*PE_{t+k}=PE^{T}_{t+k}* PE_{t}=\sum^{\frac{d}{2}-1}_{j=0}\cos(w_jk)$ 。

简单证明：

$\begin{aligned} PE_{t+k}&=\left( \begin{matrix} sin(w_0(t+k) )\\ cos(w_0(t+k) )\\ ... \\ sin(w_{\frac{d}{2}-1}(t+k))\\ cos(w_{\frac{d}{2}-1}(t+k)) \\ \end{matrix} \right) \\ PE_{t+k}&=\left( \begin{matrix} sin(w_0t))\\ cos(w_0t )\\ ... \\ sin(w_{\frac{d}{2}-1}t)\\ cos(w_{\frac{d}{2}-1}t) \\ \end{matrix} \right) \\ PE^{T}_{t}PE_{t+k}&=PE^{T}_{t+k} PE_{t}\\ &=\sum^{\frac{d}{2}-1}_{j=0}[\sin(w_jt)\sin(w_j(t+k))+\cos(w_jt)\cos(w_j(t+k))] \\ &=\sum^{\frac{d}{2}-1}_{j=0}\cos(w_j(t-(t+k))) \\ &=\sum^{\frac{d}{2}-1}_{j=0}\cos(w_jk) \end{aligned}$
以某个位置编码 $PE_t$ 为基准，去计算它左右距离k的位置编码的点积，可得到如下图。可以发现，当距离k越大时内越小，反之越大。且点积能表示距离，无法表示方向。

2.3.3 正余弦编码在transformer中

对于一个句子中，我们能够很容易的知道词的位置信息，比如“小猫在小狗前面趴着”：
1) 绝对位置信息："小猫"是在第一个位置，"在"是在第二个位置，"小狗"是在第三个位置…
2) 相对位置信息："小狗"在"小猫"后面2位，"趴着"在"小猫"后面4位…

在输入上添加了位置编码，对于self-attention模块我们希望网络在理解绝对位置信息的同时，也能理解词与词之间的相对位置信息，那么这里探究下正余弦位置编码包含相对位置信息吗？通过正余弦函数的性质，我们直到点积能够反映距离但无法反映方向，那经过self-attention模块后，位置编码信息会发生怎样的情况呢？

在self-attention模块中，
$W_q、W_k$ 分别为multi-head attention给每个head的query和key参数（这部分后续会讲）
$E_{xi}、E_{xj}$ 是 $x j$ 和 $x i$ 的词嵌入
$U_i、U_j$ 是第i个位置和第j个位置的位置向量
可得表达式为：
$\begin{aligned} A^{abs}_{i,i}&=(W_q(E_{x_i}+U_i))^T(W_w(E_{x_j}+U_j))\\ &=E^T_{x_i}W^{T}_{q}W_kE_{x_j} + E^T_{x_i}W^{T}_{q}W_kU_{j}+ U^T_iW^{T}_{q}W_kE_{x_j} + U^T_iW^{T}_{q}W_kU_{j} \end{aligned}$
其中，第一项中没有位置编码信息，第二三项只包含一个位置编码信息，所以前三者都不包含相对位置信息。第四项同时包含两个位置编码，是最有可能包含相对位置信息。

对于第四项， $U^T_iW^{T}_{q}W_kU_{j}$ ，随机初始化 $W_q、W_k$ ，然后将 $U_i^TU_j$ ， $U_i^TW^{T}_{q}U_j$ ， $U_i^TW_{k}U_j$ 这三个点积进行比较的下图。可以发现，中间随机的矩阵会破坏点积的相对位置信息，也就是位置编码进入attention中后，相对位置信息会丢失。

后续：
即然相对位置信息在经过attention模块中丢失了，那就在attention模块计算后将相对位置信息添加回来。Transformer改进之相对位置编码这个链接的作者介绍了后续三篇针对该问题改进的论文，这里只做记录链接，不做过多讨论

三、自注意力机制

Attention机制：它使得模型在学会将注意力集中在输入序列的特定部分。
硬性注意力机制：关注某一个输入向量。
软性注意力机制：所有输入向量在注意力分布下的期望。

3.1 硬性注意力（Hard Attention）

有两种实现方式：

选取高概率的一个输入向量 $att(X,q)=x_{\hat{n}}$ ，其中 $\hat{n}=\argmax^N_{n=1}\alpha_n$ 为概率最大的输入向量的下标

通过在注意力分布上随机采样的方式（投掷子）

缺点：

最终的损失函数与注意力分布之间的函数关系不可导，不能反向传播，需要使用强化学习训练。

3.2 软性注意力机制

计算方式：1 在所有输入信息上计算注意力分布；2 根据注意力分布计算输入信息的加权平均

计算注意力分布

用 $X=[x_1, x_2,...,x_n]\in R$ 表示N组输入信息，其中 $x_n ∈R, n ∈ [1, N]$ 表示一组输入信息。
加权的通用表达式 $X^{'}=\alpha_1x_1+\alpha_2x_2+...+\alpha_nx_n$ ，这里注意力分布就是 $\alpha=[\alpha_i,..\alpha_n]$ ，那我们的重点就是计算这个注意力分布 $\alpha$

引入一个和任务相关的查询向量 q，然后用一个打分函数 $S(x_n,q)$ 来计算每个输入向量 $x_n$ 和查询向量之间的相关性(相似度) $s_n$ ， $s_n=S(x_n,q)$ ：

加性模型： $S(x,q)=v^T\tanh(Wx+Uq)$

点积模型： $S(x,q)=x^Tq$

缩放点积模型： $S(x,q)=\frac{x^Tq}{\sqrt{D}}$
当输入向量的维度比较高的时候点积模型容易方差太大，从而导致Softmax函数梯度较小，使用缩放点积模型来解决这个问题；双线性模型是一种泛化的点积模型。也是transformer采用的方式

双线性模型： $S(x,q)=x^TWq$

其中 W、U、v为可学习的参数，D为输入向量的维度

我们将相似度作为权重，来提取每个 $x_n$ 的信息。这样就需要对该权重进行归一化，这里使用 softmax，则最终的权重为 $\alpha_n=softmax(S(x_n,q))=\frac{\exp(S(x_n,q))}{\sum^N_{j=1}\exp(S(x_j,q))}$

加权平均

前面我们得到注意力分布 $\alpha_n$ ：对给定任务进行相关查询 q 时， $\alpha_n$ 为第 n 个输入向量受关注的程度。
然后就可以根据注意力分布，获取对应的关注信息，然后进行加权得到，对于查询Q在整个输入X中提取的信息。
$\begin{aligned} att(X,q) &= \sum^N_{n=1}\alpha_nx_n \\ &= \sum^N_{n=1} softmax(S(x_n,q))x_n \\ &=\sum^N_{n=1} \frac{\exp(S(x_n,q))}{\sum^N_{j=1}\exp(S(x_j,q))}x_n \end{aligned} \tag{1}$

3.3 键值对注意力（key-calue Attention）

是软注意力机制的延伸体。键用来计算注意力分布 attention(X,q)，值用来计算聚合信息。
用 $K,V)=[(k_1,v_1),...,(k_N,v_n)]$ 表示N组输入信息，给定任务相关的查询向量q时，注意力函数为
$\begin{aligned} att((K,V),q) &= \sum^N_{n=1}\alpha_nv_n \\ &= \sum^N_{n=1} softmax(S(k_n,q))v_n \\ &=\sum^N_{n=1} \frac{\exp(S(k_n,q))}{\sum^N_{j=1}\exp(S(k_j,q))}v_n \end{aligned} \tag{2}$ 对比公式(1)(2)，可以看到键值对注意力机制中，K代替了原本注意力机制中计算注意力分布阶段的X；V 代替了原本注意力机制中加权阶段的X。我们将其画成图进行对比如下:

3.3 transformer中的自注意力机制

循环神经网络由于信息传递的容量以及梯度消失问题，实际上也只能建立短距离依赖关系。

为了建立长距离的依赖关系，可以增加网络的层数或者使用全连接网络。但全连接网络无法处理边长的出入序列。另外，不同的输入长度，其连接权重的大小也是不同的。

transformer提出了的自注意力模型，可以输入不同的长度数据。
自注意模型的结构经常采用 QKV (Query-Key-Value)模式。对于已有的特征矩阵X，要通过 $self\_attention((K,V),Q)$ 提取特征H，其中 QKV 皆来自于X。计算过程如下图所示：

假设输入序列 $X=[x_1,...,x_n]\in R^{d_{model}*N}$ ，输出序列为 $H=[h_1,...,h_N]\in R^{d_v*N}$ ，则计算过程如下：

通过 X 获取 QKV
对于每个输入，首先将其映射到三个不同的空间，得到三个向量：查询向量 $q_i\in R^{d_k}$ 、键向量 $k_i\in R^{d_k}$ 、值向量 $v_i \in R^{d_v}$ 。生成方法为当前词的词嵌入表示分别乘以三个矩阵，这些矩阵在训练过程中需要学习。（注意：不是每个词向量独享3个matrix，而是所有输入共享3个转换矩阵）
$Q=W_qX\in R^{d_k*N} \\ K=W_kX\in R^{d_k*N} \\ V=W_vX\in R^{d_v*N}$ 其中， $W_q\in R^{d_k*d_{model}}$ ， $W_k\in R^{d_k*d_{model}}$ ， $W_v\in R^{d_v*d_{model}}$ 分别为现行映射的参数矩阵
$Q=[q_1,...,q_N]$ ， $K=[k_1,...,k_N]$ ， $V=[v_1,...,v_N]$ ，分别为查询向量、键向量、值向量构成的矩阵。

利用键值对注意力机制（公式(2)），对每个查询向量 $q_n$ ，计算对应的输出向量 $h_n$ 。 $\begin{aligned} h_n&=att((K,V),q_n) \\ &= \sum^N_{j=1}\alpha_{nj}v_j \\ &= \sum^N_{j=1} softmax(S(k_j,q_n))v_j \\ \end{aligned} \tag{2}$ 其中， $n,j\in [1,N]$ 为输出和输入向量序列的位置， $\alpha_n$ 表示第n个输出关注到第 j 个输入的权重。
如果使用缩放点积作为注意力打分函数，则输出矩阵可以简写为 $H=softmax(\frac{K^TQ}{\sqrt{D_k}})V$

在transformer论文中，自注意机制还有额外的两个处理：mask的使用、多头的使用

添加mask
矩阵可以简写为 $H=softmax(\frac{K^TQ}{\sqrt{D_k}}×mask)V$

multi-headed的机制

在CNN中：卷积层具体的参数为 $k*k*C_{in}*C_{out}$ ，每一个 $C_{out}$ 关注和转换一种特征信息。在transformer中等同的理解，one-head的self-attention相当于使用一个 $k*k*C_{in}$ ，multi-head 相当于 $C_{out}$ 个 $k*k*C_{in}$ 。

操作过程：设头的数量为 $\text{num}$ 。(1)训练 $n u m$ 个 $W^q、W^k、W^v$ 个矩阵，用于生成 $\text{num}$ 个 Q/K/V，然后计算 $\text{num}$ 个H。(2) 将 $\text{num}$ 个H 进行concat后，使用 $W^o$ 整合下信息，得到最终的H。

QKV的shape：在transformer的工作中，设置了 $\text{num}=8$ ，对每一个模型都使用了 $d_k=d_v=d_{model}/\text{num}=64$ 。这种设置与单头的 $d_k=d_v=d_{model}=512$ 时的总计算量是相似的。

公式为： $\text{MultiHead(Q,K,V)}=\text{Concat(Attention}(QW^Q_i,KW^K_i,VW^V_i),...) W^O$

举例：假设这个句子有两个词为 Thinking Machines，自注意力机制中数值的计算可视流程如下：

四、Batch Normalization 与 Layer Normalization

4.1 Batch Normalization

4.1.1 Internal Covariate Shift 与 BN的提出

1【Internal Covariate Shift 】
Batch Normalization（简称BN）在2015年被提出，主要用于解决深度学习中的Internal Covariate Shift 的问题

Covariate shift：若模型输入层数据发生变化，则模型在该批变化数据上的表现将有所波动，输入层分布的变化成为 Covariate Shift

Internal Covariate Shift（ICS）：在深度学习中，第L+1层的输入，也可以随着第L层参数的变动而引起分布的变动。这样每一层在训练时，都要去适应这样的分布变化，是的训练变得困难。这种层间输入分布变动的情况，就是Internal Covariate Shift。

对应公式有：
$Z^{[L]} = W^{[L]}*A^{[L-1]}+b^[L] \\ A^{[L]}=g^{[L]}(Z^{[L]})$ 第一行是线性变化层；第二行是非线性变化层，也是激活函数层。
随着梯度下降， $W^{[L]}$ 和 $b^{[L]}$ 都会被更新，则 $Z^{[L]}$ 的分布会改变，然后影响L+1层的输出 $A^{[L]}$ 的分布

2【ICS带来的问题】

在激活层时，容易陷入激活层的梯度饱区，降低模型的收敛速度，和影响训练效果。
我们经常使用的激活函数如下：

对于经常使用的sigmoid、tanh激活函数时，当绝对值越大时，数据落入图中两端的梯度饱和区，造成梯度消失，进而影响模型收敛速度和训练效果。解决办法为使用Relu等激活函数

需要使用较低的学习率，降低了模型收敛速度
由于输入变动大，上层网络过需要不断调整去适应下层网络，这个时候的学习率不宜设置过大，否则很容易梯度消失或者梯度爆炸

3【解决ICS的常规方法】
ICS产生的原因是由于参数更新带来的网络中每一层输入值分布的改变，并且随着网络层数的加深而变得更加严重，因此我们可以通过固定每一层网络输入值的分布来对减缓ICS问题。

网络设置上

采用非饱和激活函数

采用更小的学习率

更加细致的参数初始化方法

数据白化
白化（Whitening）是机器学习里面常用的一种规范化数据分布的方法，主要是PCA白化与ZCA白化。白化是对输入数据分布进行线性变换，进而达到以下两个目的

使得输入的特征具有相同的均值和方差。其中PCA白化保证了所有特征分布均值为0，方差为1；而ZCA白化则保证了所有特征分布均值为0，方差相同

去除特征之间的相关性

问题：

白化过程计算成本太高，并且在每一轮训练中的每一层我们都需要做如此高成本计算的白化操作；

白化过程由于改变了网络每一层的分布，因而改变了网络层中本身数据的表达能力。底层网络学习到的参数信息会被白化操作丢失掉。

Batch Normalization

能够简化计算过程

经过规范化处理后让数据尽可能保留原始的表达能力

4.1.2 Batch Normalization在训练时

BN是在mini-batch对的基础上进行计算的。先摆公式，在讲原理
$\begin{aligned} Z^{[l]}&=W^{[l]}A^{[l-1]}+b^{[l]} \\ \mu &= \frac{1}{m}\sum ^{m}_{i=1}Z^{[l](i)} \\ \sigma ^{2}&=\frac{1}{m}\sum^{m}_{i=1}(Z^{[l](i)}-\mu)^2 \\ \widetilde{Z}^{l}&=\gamma*\frac{Z^{[l]-\mu}}{\sqrt{\sigma^2+\epsilon }}+\beta \\ A^{[l]}&=g^{[l]}(\widetilde{Z}^{[l]}) \end{aligned}$

第一行：第 $l$ 层的输出特征矩阵的计算

第二三行：对输出矩阵进行归一化。
针对卷积输出特征的channel通道，计算其均值方差 $\mu$ 、 $\sigma$ （非学习参数）；用于后面的减均值除方差。通过这种变换，完成了第一个任务：使用更简的方式对数据规范化，使得第 $l$ 层的输入每个特征的分布均值为0，方差为1。
注意均值方差的计算是针对channel通道的。比如输出的维度为 (N,H,M,C)，那么计算的 $\mu$ 、 $\sigma$ 的维度为(1,1,1,C)

第四行：引入两个可学习参数 $\gamma$ 、 $\beta$ ，恢复数据本身的表达能力
$\gamma$ 、 $\beta$ 为可学习的、维度为C的向量。特别的当 $\gamma^2=\sigma^2$ 、 $\beta=\mu$ 时，可以实现等价变换，并保留了原始特征的分布信息

第五行：BN的输出送入到激活层

4.1.3 Batch Normalization在测试时

已知训练时的BN在每一层时， $\mu$ 和 $\sigma$ 基于当前batch中的数据。当测试时，batch为1 或者很小，此时少量或单个数据计算的 $\mu$ 、 $\sigma$ 一定是有偏差的，测试的计算应当如何？

使用训练集中的均值和方差做测试集中的均值和方差的无偏估计
保留训练模型中每一组batch的数据在每一层的 $\mu_{batch}$ 、 $\sigma^2_{batch}$ ，如此可得到测试数据均值和方差的无偏估计：
$\begin{aligned} \mu_{test} &= \mathbb{E}(\mu_{batch}) \\ \sigma^2_{test} &= \frac{m}{m-1}\mathbb{E}(\sigma^2_{test})\\ BN(X_{test}) &=\gamma \frac{X_{test}-\mu_{test}}{\sqrt{\sigma^2_{test}}}+\beta \end{aligned}$ 其中m 表示batch_size。
缺点：需要消耗较大的存储空间，用来保存训练过程中所有的均值和方差。

Momentum：移动平均法
移动平均法其实比较常见。在这里具体的为：设 $\mu_t$ 为当前步骤计算的均值， $\hat{\mu}$ 为上一步训练时累计求得的均值，则有 $\hat{\mu}=p*\mu+(1-p)\mu_t$ 其中 p 为momentum超参，表示模型在多大程度上依赖与过去的均值和方差。
同理，对于方差 $\hat{\sigma}$ 的计算公式有 $\hat{\sigma^2}=p*\sigma^2+(1-p)\sigma^2_t$
优势：
1）节省了存储空间，无需保存所有的均值和方差，继续更新滑动均值和滑动方差
2）方便在训练模型阶段监督模型的测试效果。一般的，在训练过程中，会使用验证集对模型训练的效果进行追踪。使用移动平均法，无需在模型训练结束后再对统计参数做无偏估计，可直接使用滑动均值滑动方差，对验证集进行模型评估。

4.1.4 Batch Normalization 优势

加速模型学习速度：BN使得网络每层输入数据分布相对稳定，且输出在一定范围内。

缓解梯度消失：BN允许网络使用饱和型激活函数（sigmoid、tanh等）

简化调参过程：使用BN可以设置更大的学习率，可以不用谨慎调整模型初始化参数

具有一定正则性：实验发现，BN可以代替dropout，对网络起到正则效果

4.1.5 后来

在MIT的Santurkar How Does Batch Normalization Help Optimization?指出：

ICS问题并没有使模型的表现更差

BN对解决ICS问题的能力是有限的，起作用的原因是它让optimization 更平滑

在这之后也有其他论文对于这观点进行了不同论证与试验。
但目前而言，在图像上的模型，BN的使用依然是基本操作，BN的增加的确会简化我们的训练。

4.2 Layer Normalization

在RNN中，文本数据存在长短不一的问题。比如文本1：“天气/预报/今天/下大雨”，文本2：“小明/正在/吃饭”，这两个文本的词的数量是不一致，也就是长短不一的问题。
在图像中对应的问题是什么呢？是：训练时输入的图片长宽不一(对应文本长短不一)，这样是无法在同一个batch中有效的进行BN操作的。当然图片是可以进行缩放的，使得同一个batch的图片的尺寸保持一致进而使用BN。但文本是不能进行缩放的。如果强行对文本进行BN，会有问题：

文本中后侧位置没有足够的batch_size的数据，前段数据可以正常的累计 $\mu$ 、 $\sigma^2$ ，后段计算出来的 $\mu$ 、 $\sigma^2$ 会产生偏差的。

当测试集中出现比训练集中更长的数据，多出去的部分是没有对应的 $\mu$ 、 $\sigma^2$ ，对预测带来了极大的问题。

针对文本任务，Ba et al. 2016 提出在RNN上使用Layer Normalization（以下简称LN）的方法。接下来对比下两者的差异（以图片举例）：
假设输入为(N,H,W,C)，如下图左侧，一个颜色表示一个完整的数据(H,W,C)；高度上表示为 H*W，可以理解为将 (H,W)的featuremap 进行reshape为(H*W,)。

BN：对N个数据在C维度上对进行数据的归一化，使用的均值方差 $\mu$ 、 $\sigma$ 的shape为(1,1,1,C)。这样归一化时，batch内每个数据会互相影响，并在训练的过程中需要记录使用的 $\mu$ 和 $\sigma$ 。

LN：对N个数据，分别对每个数据的独立的进行归一化，使用的均值方差为batch内每个数据全部数值的均值方差。LN解耦了数据归一化时 batch间的影响，让每个数据的归一化独立起来，这样训练时无需统计均值方差，预测时单个数据独立归一化。公式为 $\mu_n(x)=\frac{1}{CHW}\sum^{C}_{c=1}\sum^{H}_{h=1}\sum^{W}_{w=1}x_{n,h,w,c} \\ \sigma^2(x)=\frac{1}{CHW}\sum^{C}_{c=1}\sum^{H}_{h=1}\sum^{W}_{w=1}(x_{n,h,w,c}-\mu_n(x))^2$

在论文Group Normalization中提供了图片示意如下

在文本中，当文本的长短不一时，如何使用LN呢？
如下图，文本的长短不一，使得其不能在channel上做归一化，只能batch内对一个完整的句子独立的进行归一化，具体的为：一个句子中每个词在输入时特征向量长度为C，下图红颜色箭头为归一化的方向。
再次说明：LN使得各条数据间在进行标准化的时候相互独立。不需要保留训练过程中均值方差，推理时对单个句子进行归一化即可。

五、transformer的结构

5.1 ENCODER

输入时token与positional encoding相加，送入到编码器结构中，会经过【self-attention】 --> 【残差】 -->【normalization】 --> 【feed forward】 --> 【normalization】。

将上面的结构进一步可视化：

这样的模块也是用与解码器。
如果是由2个堆叠编码器和解码器组成的transformer，它的结构为：

5.2 DECODER

结构详细介绍：

【encoder】
【关键结构】self-attention。
【输入】 $input_embedding+positional_encoding \text{input\_embedding+positional\_encoding}$ 。
【输出】一组 KV。
【其他】在一个句子预测中，encoder仅执行一次即可。且与CNN不同的是，这里encoder的输出不是decoder模块的输入，而是作为decoder结构中的一个元素

【decoder】
【self-attention】 --> 【残差】 -->【normalization】 --> 【cross-attention】 --> 【normalization】–>【feed forward】 --> 【normalization】。
【关键结构】self-attention、cross-attetion。
self-attention 的QKV与encoder中的一致，由上一层的输出计算而来。
cross-attention 中的Q来源于上一层，但KV来源于encoder模块的输出。具体的k/v是在顶部编码器的输出转换为一组注意力向量K和V与一个可学习的矩阵相乘，而q是上一层的输出与可学习矩阵相乘。
【输入输出】预测第n个词时，输入为 (1,…n-1)个词的预测结果的 $embedding+positional_encoding \text{embedding+positional\_encoding}$ 作为decoder的输入。特别的，在预测第1个词时，将encoder中的输出为decoder的输入来源（因为此时没有实际的词输入，但该模块需要输入开启预测）。
【其他】decoder需要执行多次，本次之前的几次输出作为本次的输入。

具体的运行机制：

先将输入与position encoding 相加，然后送入encoder，得到一组KV 用于decoder中cross-attention模块中的KV的计算。
由于预测第一个词时，使用encoder的输出作为输入，送入decoder、linear+softmax，得到第一个词的outputs。

预测第二个词：将第一个预测结果的转化（embedding+position embedding）作为decoder的输入，预测第二个词。

预测第三个词：将第一二个预测结果的转化作为decoder的输入，预测第三个词。

…

5.3 输出端的linear和softmax

这两层的作用，与CNN中的使用是一致的。
transformer在任务端侧，将单词的预测处理成了分类任务。假设模型知道10000个独立的英语单词（模型的"输出词汇表"），linear(全连接层)的输出为10000个维的logits向量，为在每个单词上的得分；然后再经过softmax层，将得分转换为概率，将概率最高的单词作为此次的输出。

五、补充：ResNet

resnet该篇论文个人也没有专门写一篇博客整理，就顺带在这里简单记录下。

在transformer中，每个模块都会使用残差连接residual connection。残差连接最开始是在2015年的ResNet中提出，用于解决深层网络训练问题。一开始是在图像任务中使用，现已经成为一种通用性的深度学习方法。

5. 1 深的网络的使用

深度学习使用中，网络层数的增加面临问题：

计算资源的消耗
可通过GPU集群解决

梯度消失和爆炸
因为网络层数太深，梯度反向传播中梯度累乘影响，容易导致浅层网络的参数发生微弱的变化或较大的震荡，网络模型不收敛。可以用：
【数据标准初始化】统一输入数据的分布
【激活函数的更换】sigmoid让输出容易落在0~1区间的两端，从而引发梯度消失和爆炸，替换为relu可缓解
【BN的使用】使得每个网络层的输出在每个batch训练时，具有相对稳定的分布
【loss正则项】L1、L2等正则项都可改善梯度消失或爆炸的问题
【梯度裁剪】、【这里的残差结构】。

网络过拟合
模型A比模型B在训练数据集上，性能更优，但A在验证集上性能更差。这是训练过拟合，最直接的办法就是丰富数据集、减小网络层数、增加BN。

网络退化
在模型能够收敛的情况下，网络越深，模型的准确率越低。这个情况我们称之为网络退化（Degradation）。如下图，网络结构56层的要比20层的在训练集和验证集上，都具有更高的错误率。
解决方法：ResNet能够有效的训练出更深的网络模型，同时深网络的表现不差于浅网络。

深度学习使用中，使用更深网络时的正确操作：

【使用深的网络的原因】模型越深，通常具有更强的表达能力。当模型训练时，数据集特征丰富，需和网络的表达能力相匹配。表达能力不够，会欠拟合；表达能力过强，同时数据特征相对简单，又容易过拟合，也会网络退化等问题。

【恒等映射的提出】我们想要增加网络的表达能力的同时，又要避免网络退化、网络过拟合。那么如何操作呢？
当我们实验了在CIFAR-10数据集上，56层网络比20层网络的表达能力更差时，只需要将56层中的多的36层网络置为恒等映射，这样就与20层网络具有相同的表现。
自适应层数数量的恒等映射，使得深的网络能够适应不同程度丰富度的数据集，从而得到相对应的表达能力。

5. 2 残差网络

残差结构

作者提出一个残差结构：一条支路用于恒等映射，一条支路用于正常的参数学习。 $\text{H(X)=F(x)+X}$ 。

当浅层网络时， $\text{F(X)}$ 只需学习输出与输入的偏移量的分布（偏移的数值一般小于输出的数据），这样可以得到一个更加精确的表达。

当深层网络时， $\text{F(X)}$ 会在优化目标的约束下，逼近于0（很难等于0），深层网络依然能学习到特征的同时，不会发生网络退化的问题。

残差网络

论文中做了较多的实验，其中34-layer plain和34-layer residule DNN。前者是一个标准的深层网络，后者是增加残差处理的深层网络。

实验结果如下图：

左图是18层和34层的plain DNN，右是18层和34层的residule DNN。粗线表示训练集上的错误率，细线表示验证集上的错误率。可以发现plain中，34层的错误率高于18层的，但在residule中，34层的错误率低于18层。说明残差结构起到了较好的效果。

链接记录：
https://jalammar.github.io/illustrated-transformer/
https://zhuanlan.zhihu.com/p/454482273
Batch Normalization原理与实战
深度学习基础之 ---- BN、LN、IN、GN、SN

你可能感兴趣的:(transformer,深度学习)

【Python】一文详细介绍 py格式文件高斯小哥 Python基础【高质量合集】python 新手入门学习
【Python】一文详细介绍py格式文件个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文章目录一、py格式文件简介二、如何创建和编辑py格式文件三、如何运行py
大创项目推荐深度学习 opencv python 公式识别(图像识别机器视觉) laafeer python
文章目录0前言1课题说明2效果展示3具体实现4关键代码实现5算法综合效果6最后0前言优质竞赛项目系列，今天要分享的是基于深度学习的数学公式识别算法实现该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：4分创新点：4分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1课题
python清华大学出版社答案_Python机器学习及实践 weixin_39805119 python清华大学出版社答案
第1章机器学习的基础知识1.1何谓机器学习1.1.1传感器和海量数据1.1.2机器学习的重要性1.1.3机器学习的表现1.1.4机器学习的主要任务1.1.5选择合适的算法1.1.6机器学习程序的步骤1.2综合分类1.3推荐系统和深度学习1.3.1推荐系统1.3.2深度学习1.4何为Python1.4.1使用Python软件的由来1.4.2为什么使用Python1.4.3Python设计定位1.4.
深度学习项目-基于深度学习的股票价格预测研究雅致教育计算机毕业设计深度学习人工智能
概要随着经济的发展，中国股票市场的规模持续扩大，早已成为金融投资的重要部分，掌握股票市场的变化规律无论是对监管者还是投资者都具有极其重要的意义。正因如此，人们不断探索着股票市场的变化规律，其中使用深度学习预测股价是当前国内国际研究与应用的热点。本文首先从有效市场假说和分形市场假说两个角度讨论了中国股票市场的有效性，说明股票市场具有复杂的非线性特征。其次，结合股票市场特征对比了当前的预测方法
ChatGPT技巧大揭秘：AI写代码新境界 2401_83550420 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT技巧大揭秘：AI写代码新境界随着人工智能技术的不断进步，开发人员现在有了更多有趣的工具来提高他们的工作效率。其中，ChatGPT作为一种基于深度学习的自然语言处理模型，已经成为许多开发者的新宠。在本文中，我们将揭秘使用ChatGPT来帮助编写代码的技巧，探索AI在编程领域的新境界。ChatGPT简介ChatGPT是一种基于大型神经网络的对话生成模型，它
AI大模型学习：开启智能时代的新篇章游向大厂的咸鱼人工智能学习
随着人工智能技术的不断发展，AI大模型已经成为当今领先的技术之一，引领着智能时代的发展。这些大型神经网络模型，如OpenAI的GPT系列、Google的BERT等，在自然语言处理、图像识别、智能推荐等领域展现出了令人瞩目的能力。然而，这些模型的背后是一系列复杂的学习过程，深度学习技术的不断演进推动了AI大模型学习的发展。首先，AI大模型学习的基础是深度学习技术。深度学习是一种模仿人类大脑结构的机器
【Python】成功解决ModuleNotFoundError: No module named ‘torchinfo‘ 高斯小哥 BUG解决方案合集 python pytorch 新手入门学习 debug
【Python】成功解决ModuleNotFoundError:Nomodulenamed‘torchinfo’个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文
大模型的学习 LLaMa和ChatGLM，minichatgpt4 贝猫说python 学习 llama 人工智能
LLaMa和ChatGLM，minichatgpt4什么情况用Bert模型，什么情况用LLaMA、ChatGLM类大模型，咋选？答：Bert的模型由多层双向的Transformer编码器组成，由12层组成，768隐藏单元，12个head，总参数量110M，约1.15亿参数量。NLU（自然语言理解）任务效果很好，单卡GPU可以部署，速度快，V100GPU下1秒能处理2千条以上。ChatGLM-6B,
ChatGPT神技：AI成为你的编程良友 2401_83481083 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT神技：AI成为你的编程良友近年来，人工智能技术的发展迅猛，ChatGPT作为其中一项创新技术，正逐渐走进我们的生活。在编程领域，AI不仅可以助力我们提高效率，还能成为我们的良友，帮助解决各种编程难题。一、ChatGPT简介ChatGPT是一种基于自然语言处理技术的人工智能模型，它能够生成类人对话。ChatGPT通过深度学习模型，能够理解输入的文本并生成
深度学习如何入门？科学的N次方深度学习
入门深度学习需要系统性的学习和实践经验积累，以下是一份详细的入门指南，包含了关键的学习步骤和资源：预备知识：•编程基础：熟悉Python编程语言，它是深度学习领域最常用的编程语言。确保掌握变量、条件语句、循环、函数等基本概念，并学习如何使用Python处理数据和文件操作。•数学基础：理解线性代数（矩阵运算、向量空间等）、微积分（导数、梯度求解等）、概率论与统计学（期望、方差、概率分布、最大似然估计
深度学习与（复杂系统）事物的属性科学禅道深度学习模型专栏深度学习人工智能
深度学习与复杂系统中事物属性的关系体现在：特征学习与表示:深度学习通过多层神经网络结构，能够自动从原始输入数据中学习和提取出丰富的特征表示。每一层神经网络都可能对应着事物属性的不同抽象层次，底层可能对应简单直观的属性，而随着网络深度的增加，顶层可以学习到更抽象、复杂的属性及其相互关系。非线性关系建模:深度学习特别擅长处理非线性关系，而在复杂系统中，事物属性间的相互作用往往表现为非线性，例如，某些属
智合同如何助力建筑行业合同智能化管理智合同（小智）合同智能应用 AI技术降本增效提质人工智能自然语言处理知识图谱深度学习大数据
#建筑行业#人工智能#AI#合同智能应用#深度学习#自然语言处理技术#知识图谱智合同-采用深度学习、自然语言处理技术、知识图谱等人工智能技术，为企业提供专业的合同相关的智能服务。其主要服务包含：合同智能审查、合同要素智能提取、合同版本对比、合同智能起草、ICR智能识别、合同履约追踪、文本一致性对比、广告审查、合同范本库等服务。智合同在助力建筑行业合同智能化管理方面具有显著的优势。首先，智合同利用A
神经网络（深度学习，计算机视觉，得分函数，损失函数，前向传播，反向传播，激活函数） MarkHD 深度学习神经网络计算机视觉
神经网络，特别是深度学习，在计算机视觉等领域有着广泛的应用。以下是关于你提到的几个关键概念的详细解释：神经网络：神经网络是一种模拟人脑神经元结构的计算模型，用于处理复杂的数据和模式识别任务。它由多个神经元（或称为节点）组成，这些神经元通过权重和偏置进行连接，并可以学习调整这些参数以优化性能。深度学习：深度学习是神经网络的一个子领域，主要关注于构建和训练深度神经网络（即具有多个隐藏层的神经网络）。通
MATLAB 2023a：强化学习算法的实战演练与性能评估 zmjia111 机器学习 matlab matlab 算法开发语言深度学习机器学习 yolo
在深度学习领域，MATLAB2023版深度学习工具箱以其完整的工具链和高效的运行环境，为研究人员和开发者提供了前所未有的便利。这一工具箱不仅集成了建模、训练和部署的全部功能，更以其简洁易用的语法和强大的算法库，为深度学习任务的快速实现铺平了道路。相较于Python等编程语言，MATLAB的语法更为直观，上手更为迅速。无需繁琐的环境配置和库安装，用户只需打开MATLAB界面，即可轻松开始深度学习之旅
动手学习深度学习——2.5 自动微分 X_Imagine 动手学习深度学习深度学习人工智能自动微分
2.5自动微分正如【2.4微积分】所说，微分是深度学习中几乎所有最优化算法的关键步骤。虽然求这些导数的计算过程很简单，只需要一些基本的微积分知识。但对于复杂的模型，手工计算参数的更新可能很痛苦(而且经常容易出错)。深度学习框架通过自动计算导数加快了这一工作，即自动微分（AutomaticDifferentiation）。在实践中，基于我们设计的模型，系统构建了一个计算图，跟踪哪些数据结合哪些操
飞桨科学计算套件PaddleScience skywalk8163 人工智能 paddlepaddle 人工智能飞桨
PaddleScience是一个基于深度学习框架PaddlePaddle开发的科学计算套件，利用深度神经网络的学习能力和PaddlePaddle框架的自动(高阶)微分机制，解决物理、化学、气象等领域的问题。支持物理机理驱动、数据驱动、数理融合三种求解方式，并提供了基础API和详尽文档供用户使用与二次开发。安装当然要先安装好飞桨PaddlePaddle，再安装PaddleSciencepipinst
chatGLM-6B部署报错quantization_kernels_parallel.so‘ (or one of its dependencies). Try using the full pat FL1623863129 环境配置深度学习
用python部署chatglm2时候报错：FileNotFoundError:Couldnotfindmodule'C:\Users\Administrator\.cache\huggingface\modules\transformers_modules\chatglm2-6b-int4\quantization_kernels_parallel.so'(oroneofitsdependenc
最新ChatGPT支持下的PyTorch机器学习与深度学习 zkzhzy ChatGPT 机器学习 python 机器学习深度学习 pytorch chatgpt 数据分析人工智能
近年来，随着AlphaGo、无人驾驶汽车、医学影像智慧辅助诊疗、ImageNet竞赛等热点事件的发生，人工智能迎来了新一轮的发展浪潮。尤其是深度学习技术，在许多行业都取得了颠覆性的成果。另外，近年来，Pytorch深度学习框架受到越来越多科研人员的关注和喜爱。郁磊（副教授）主要从事AI人工智能、大语言模型及软件开发、生理系统建模与仿真、生物医学信号处理，具有丰富的科研经验，主编《MATLAB智能算
神经网络量化小厂程序猿人工智能
神经网络量化（NeuralNetworkQuantization）是一种技术，旨在减少神经网络模型的计算和存储资源需求，同时保持其性能。在深度学习中，神经网络模型通常使用高精度的参数（例如32位浮点数）来表示权重和激活值。然而，这种表示方式可能会占用大量的内存和计算资源，特别是在部署到资源受限的设备（如移动设备或嵌入式系统）时会受到限制。神经网络量化通过将模型参数和激活值从高精度表示（例如32位浮
神奇的微积分科学的N次方人工智能人工智能 ai
微积分在人工智能（AI）领域扮演着至关重要的角色，以下是其主要作用：优化算法：•梯度下降法：微积分中的导数被用来计算损失函数相对于模型参数的梯度，这是许多机器学习和深度学习优化算法的核心。梯度指出了函数值增加最快的方向，通过沿着负梯度方向更新权重，可以最小化损失函数并优化模型。•反向传播：在神经网络训练中，微积分的链式法则用于计算整个网络中每个参数对于最终损失函数的影响（偏导数），这一过程就是反向
论文阅读——SpectralGPT じんじん论文计算机视觉人工智能
SpectralGPT:SpectralFoundationModelSpectralGPT的通用RS基础模型，该模型专门用于使用新型3D生成预训练Transformer（GPT）处理光谱RS图像。重建损失由两个部分组成：令牌到令牌和频谱到频谱下游任务：
线性代数在卷积神经网络（CNN）中的体现科学的N次方人工智能线性代数 cnn 人工智能
案例：深度学习中的卷积神经网络（CNN）在图像识别领域，卷积神经网络（ConvolutionalNeuralNetworks,CNN）是一个广泛应用深度学习模型，它在人脸识别、物体识别、医学图像分析等方面取得了显著成效。CNN中的核心操作——卷积，就是一个直接体现线性代数应用的例子。假设我们正在训练一个用于识别猫和狗的图像分类器，原始输入是一幅RGB彩色图片，可以将其视为一个高度、宽度和通道数（R
【PyTorch】成功解决ModuleNotFoundError: No module named ‘torch’ 高斯小哥 PyTorch零基础入门教程 pytorch 人工智能 python conda debug 深度学习机器学习
【PyTorch】成功解决ModuleNotFoundError:Nomodulenamed‘torch’个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文章目录
今日无更新我的昵称违规了
学校的一个会忙得昏天黑地。明天有自己的一个发表，还要准备PPT，根据原来的改改就好……这周真的是有点繁杂了，搞定之后连着四五月份要写两篇论文，再加上五月底的课程论文还有紧接着的文献综述，看样子要疯……现在梳理一下自己手里的锤子：转到Pytorch，使用AllenNLP了解Transformer、了解LSTM了解jieba等分词工具了解Gensim等NLP处理工具接下来要做的：基于AllenNLP搞
深度学习pytorch——索引与切片 Echo-J AI 深度学习 pytorch 人工智能
indexingimporttorcha=torch.rand(4,3,28,28)#表示4张28*28的rgb图print(a[0].shape)#a[0]获得第一张图片print(a[0,0].shape)#a[0,0]获得第一张图片的r图print(a[0,0,2,4])#获得第一张图片第一个通道的一个像素点，因此得到的是一个标量selectfirst/lastN#selectfirst/l
计算机设计大赛题目：基于卷积神经网络的手写字符识别 - 深度学习 iuerfee python
文章目录0前言1简介2LeNet-5模型的介绍2.1结构解析2.2C1层2.3S2层S2层和C3层连接2.4F6与C5层3写数字识别算法模型的构建3.1输入层设计3.2激活函数的选取3.3卷积层设计3.4降采样层3.5输出层设计4网络模型的总体结构5部分实现代码6在线手写识别7最后0前言优质竞赛项目系列，今天要分享的是基于卷积神经网络的手写字符识别该项目较为新颖，适合作为竞赛课题方向，学长非常推荐
YOLOv9改进添加可变形注意力机制DAttention 学yolo的小白 UPgrade YOLOv9 YOLO python 目标检测 pytorch
一、DeformableAttentionTransformer论文论文地址：arxiv.org/pdf/2201.00520.pdf二、DeformableAttentionTransformer注意力结构DeformableAttentionTransformer包含可变形注意力机制，允许模型根据输入的内容动态调整注意力权重。在传统的Transformer中，注意力是通过对查询和键向量之间的点
【深度学习笔记】1 数据操作 RIKI_1 深度学习深度学习笔记人工智能
注：本文为《动手学深度学习》开源内容，仅为个人学习记录，无抄袭搬运意图数据操作在深度学习中，我们通常会频繁地对数据进行操作。作为动手学深度学习的基础，本节将介绍如何对内存中的数据进行操作。在PyTorch中，torch.Tensor是存储和变换数据的主要工具。如果你之前用过NumPy，你会发现Tensor和NumPy的多维数组非常类似。然而，Tensor提供GPU计算和自动求梯度等更多功能，这些使
科技革新的引擎-2024年AI辅助研发趋势 lzyever 科技人工智能
随着科技的飞速发展，人工智能（AI）已经在许多领域展现出了其强大的潜力和价值。特别是在研发领域，AI的辅助作用日益凸显，成为推动科技革新的重要引擎。在2024年，这种趋势将更加明显，我们可以从以下几个方面来探讨这一趋势。首先，AI辅助研发将极大地提升研发效率并降低成本。在研发过程中，AI可以通过自动化流程、数据挖掘和深度学习等技术，加速实验和设计的过程，从而缩短研发周期。同时，AI还可以优化资源配
【python】成功解决ModuleNotFoundError: No module named ‘tensorboardX‘ 高斯小哥 BUG解决方案合集 python 学习 debug
【python】成功解决ModuleNotFoundError:Nomodulenamed‘tensorboardX’个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL