Transformer机制学习笔记

学习自https://www.bilibili.com/video/BV1J441137V6

RNN,CNN网络的缺点

Transformer机制学习笔记_第1张图片

难以平行化处理,比如我们要算 b 4 b^4 b4,我们需要一次将 a 1 a^1 a1~ a 4 a^4 a4依次进行放入网络中进行计算。

于是有人提出用CNN代替RNN
Transformer机制学习笔记_第2张图片
三角形表示输入, b 1 b^1 b1的结果是由 a 1 , a 2 a^1,a^2 a1,a2产生。
a 1 a^1 a1~ a 4 a^4 a4可以同时并行输入到CNN中。
但是,这么做的话可以表示的内容非常有限,解决方法是再往上继续建造。
Transformer机制学习笔记_第3张图片
这样的话,蓝色的输入,就相当于获得了 a 1 a^1 a1~ a 4 a^4 a4的输入。
CNN的优点就是可以同时计算,缺点就是需要叠很多层

self-Attention层

self-Attention层要做的就是,既能达到RNN的功能,同时又能像CNN一样平行化。
Transformer机制学习笔记_第4张图片
Transformer机制学习笔记_第5张图片

self-attention层运作步骤

  • 拿每个q与每个k进行attention运算
    Transformer机制学习笔记_第6张图片
    d d d q , k q,k q,k的维度,这个可以理解为是为了平衡维度带来的影响,因为维度越大,点乘出来的结果就会相应的较大,所以除以维度可以消除一部分影响。
  • 然后再统一做一下softmax
    Transformer机制学习笔记_第7张图片
    在这里插入图片描述
  • 随后 a ^ \hat{a} a^再和 v v v相乘
    Transformer机制学习笔记_第8张图片
    在这里插入图片描述
    这样,计算 b 1 b^1 b1既可以并行计算,也能获取到 x 1 x^1 x1~ x 4 x^4 x4的全部数据。

如何并行化
Transformer机制学习笔记_第9张图片
Transformer机制学习笔记_第10张图片
Transformer机制学习笔记_第11张图片
可以把上一层的内容统统放入到矩阵中,进行一次矩阵乘法即可算出下一层。而矩阵乘法可以用GPU加速。

Transformer机制学习笔记_第12张图片
q , k , v q,k,v q,k,v也是可以用多层的。

Position Encoding

Transformer机制学习笔记_第13张图片
实际上, x x x序列的位置信息是不重要的,因为每个位置都有一个独一无二的 e i e^i ei向量与它相加,依次来表示位置信息。这个 e i e^i ei不是从数据中学到的,而是人为赋值的。

Sequence To Sequence

Transformer机制学习笔记_第14张图片
在Sequence To Sequence模型中,就可以用self-Attention层来代替RNN或者CNN。

Transformer

Transformer机制学习笔记_第15张图片

你可能感兴趣的:(#,自然语言处理,transformer,学习,深度学习)