Attention机制是一种在处理时序相关问题的时候常用的技术,*主要用于处理序列数据。*核心思想: 在处理序列数据时,网络应该更关注输入中的重要部分,而忽略不重要的部分,它通过学习不同部分的权重,将输入的序列中的重要部分显式地加权,从而使得模型可以更好地关注与输出有关的信息。 在序列建模任务中,比如机器翻译、文本摘要、语言理解等,输入序列的不同部分可能具有不同的重要性。传统的循环神经网络(RNN)或卷积神经网络(CNN)在处理整个序列时,难以捕捉到序列中不同位置的重要程度,可能导致信息传递不够高效,特别是在处理长序列时表现更明显。 Attention机制的关键是引入一种机制来动态地计算输入序列中各个位置的权重,从而在每个时间步上,对输入序列的不同部分进行加权求和,得到当前时间步的输出。这样就实现了模型对输入中不同部分的关注度的自适应调整。
具体的计算步骤如下:
在Transformer中,Self-Attention 被称为"Scaled Dot-Product Attention" 其计算过程如下:
A t t e n t i o n ( Q , K , V ) = s o f t m a x ( Q K T d k ) V Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_k}})V Attention(Q,K,V)=softmax(dkQKT)V
而Attention机制则允许解码器在生成每个输出时,根据输入序列的不同部分给予不同的注意力,从而使得模型更好地关注到输入序列中的重要信息。self-attention 和target-attention的区别?
它通过计算每个位置与其他所有位置之间的相关性得分,从而为每个位置分配一个权重。这使得模型能够根据输入序列的不同部分的重要性,自适应地选择要关注的信息。
它用于将目标与其他相关对象进行比较,并将注意力分配给与目标最相关的对象。这种类型的注意力通常用于任务如机器翻译中的编码-解码模型,其中需要将源语言的信息对齐到目标语言。 因此,自注意力主要关注序列内部的关系,而目标注意力则关注目标与其他对象之间的关系。这两种注意力机制在不同的上下文中起着重要的作用,帮助模型有效地处理序列数据和相关任务。
self-attention实际只是attention中的一种特殊情况,因此k=v是没有问题的,也即K,V参数矩阵相同。实际上,在Transformer模型中,Self-Attention的典型实现就是k等于v的情况。Transformer中的Self-Attention被称为"Scaled Dot-Product Attention",其中通过将词向量进行线性变换来得到Q、K、V,并且这三者是相等的。
讲自己熟悉的就可:
在 Attention 机制中,同样需要忽略 padding 部分的影响,这里以transformer encoder中的self-attention为例:self-attention中,Q和K在点积之后,需要先经过mask再进行softmax,因此,对于要屏蔽的部分,mask之后的输出需要为负无穷,这样softmax之后输出才为0。
这是个非常有意思的问题,要回答这个问题,我们必须重新定义一下Attention。 Transformer Paper里重新用QKV定义了Attention。所谓的QKV就是Query,Key,Value。 如果我们用这个机制来研究传统的RNN attention,就会发现这个过程其实是这样的:RNN最后一步的output是Q,这个Q query了每一个中间步骤的K。Q和K共同产生了Attention Score,最后Attention Score乘以V加权求和得到context。那如果我们不用Attention,单纯用全连接层呢? 很简单,全链接层可没有什么Query和Key的概念,只有一个Value,也就是说给每个V加一个权重再加到一起(如果是Self Attention,加权这个过程都免了,因为V就直接是从raw input加权得到的。)可见Attention和全连接最大的区别就是Query和Key,而这两者也恰好产生了Attention Score这个Attention中最核心的机制。而在Query和Key中,我认为Query又相对更重要,因为Query是一个锚点,Attention Score便是通过计算与这个锚点的距离算出来的。任何Attention based algorithm里都会有Query这个概念,但全连接显然没有。 最后来一个比较形象的比喻吧。如果一个神经网络的任务是从一堆白色小球中找到一个略微发灰的,那么全连接就是在里面随便乱抓然后凭记忆和感觉找,而attention则是左手拿一个白色小球,右手从袋子里一个一个抓出来,两两对比颜色,你左手抓的那个白色小球就是Query。
Transformer 编码器(Encoder)由六个相同层构成,,每层的主要子层包括两个部分: 多头自注意力机制(Multi-Head Self-Attention Mechanism):这一层允许编码器查看输入序列中的其他位置来更好地编码一个单词。它由多个头组成,每个头独立地学习输入数据的不同方面。 前馈神经网络(Feed-Forward Neural Network)(Linear+relu+dropout+Linear):这是一个简单的全连接神经网络,它对每个位置的注意力向量进行处理,但是对不同位置是独立的。 除了这些主要子层,还有一些重要的组件: 层归一化(Layer Normalization):在多头自注意力机制和前馈神经网络之后,通常会有层归一化步骤,以稳定网络的学习过程。 残差连接(Residual Connections):在每个子层之后,都会加上一个残差连接,然后进行层归一化。残差连接有助于避免在网络中出现梯度消失的问题。 这种结构的组合使得Transformer编码器非常有效且灵活,适用于处理各种顺序数据任务。
总的来说
在 Transformer 模型中,编码器(Encoder)和解码器(Decoder)通过一个特殊的注意力机制进行交互,这个机制通常被称为 “编码器-解码器注意力” 或 “交叉注意力”(Cross-Attention) 以下是这种交互的详细步骤:
K、Q、V分别是输入向量经过不同的线性变换矩阵 W k W_k Wk、 Q k Q_k Qk、 V k V_k Vk计算得到。 在 Q K T QK^T QKT部分,线性变换矩阵将KQ投影到了不同的空间,增加了表达能力(这一原理可以同理SVM中的核函数-将向量映射到高维空间以解决非线性问题),这样计算得到的注意力矩阵的泛化能力更高。
Transformer attention的注意力矩阵的计算用乘法是为了计算速度更快。 在计算复杂度上,乘法和加法理论上的复杂度相似,但是在实践中,乘法可以利用高度优化的矩阵乘法代码(有成熟的加速实现)使得点乘速度更快,空间利用率更高。
因为虽然矩阵加法的计算更简单,但是 Add形式套着tanh和V,相当于一个完整的隐层。在整体计算复杂度上两者接近,但是矩阵乘法已经有了非常成熟的加速实现。在 (即 attention-dim)较小的时候,两者的效果接近。但是随着 增大,Add 开始显著超越 Mul。 极大的点积值将整个 softmax 推向梯度平缓区,使得收敛困难。也就是出现了高赞答案里解释的“梯度消失”。 这才有了 scaled。所以,Add 是天然地不需要 scaled,Mul 在 较大的时候必须要做 scaled。个人认为,Add 中的矩阵乘法,和 Mul 中的矩阵乘法不同。前者中只有随机变量 X 和参数矩阵 W 相乘,但是后者中包含随机变量 X 和 随机变量 X 之间的乘法。
padding位置置为-1000,再对注意力矩阵进行相加。
Transformer 模型中的残差连接(Residual Connection)是一种重要的网络结构设计,它直接将某一层的输入添加到后面层的输出上。以下是残差结构的介绍及其意义:
残差结构的介绍
在 Transformer 中,每个编码器和解码器层都包含残差连接。具体来说,对于一个给定的层(比如自注意力层或前馈神经网络层),其处理过程可以总结为:
这种结构可以表示为: O u t p u t = N o r m a l i z e ( L a y e r ( x ) + x ) Output =Normalize(Layer(x) + x) Output=Normalize(Layer(x)+x),其中Layer(x)表示层的操作, x 是输入。
残差结构的意义
Transformer 中的残差连接是提高模型性能、稳定性和训练效率的关键设计之一。
它们使得深层网络的训练成为可能,同时也确保了信息在网络中的有效传递。
篇幅有限,具体大模型面试面经以下方式免费获取噢!
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
保证100%免费
】