理解Transformer的整体架构与关键技术(非常详细),零基础入门到精通,看这一篇就够了

前言

从2022年底ChatGPT发布以来,人工智能迅速在全社会火爆,ChatGPT背后的一个重要的技术进步就是Transformer架构,这个架构是当下大模型的核心技术支撑,所以要理解当下大模型技术及其未来的发展,彻底理解Transformer至关重要。

那么Transformer到底是什么?

本质上讲:Transformer是一种基于自注意力机制的深度神经网络模型。

Transformer是由Google公司于2017年在论文“Attention is All You Need”中提出的网络架构。该架构最初的设计目的是解决RNN(Recurrent Neural Network,循环神经网络)串行输入、串行编解码导致的运行速度缓慢的问题,以显著提升机器翻译的效率。

下面这份零基础AI大模型学习资料已经上传网盘,朋友们如果需要可以下方链接即可免费领取↓↓↓

点击领取 《AI大模型&人工智能&入门进阶学习资源包》

理解Transformer的整体架构与关键技术(非常详细),零基础入门到精通,看这一篇就够了_第1张图片

Transformer能成功的关键是什么?

通过注意力机制将序列中任意两个位置之间的距离缩小为常量,摒弃类似循环神经网络的顺序结构——关键中的关键是引入注意力机制。

而循环神经网络(RNN)模型只能从左至右(或从右至左)依次计算,不利于并行计算,并且容易产生梯度爆炸和梯度消失问题。Transformer模型能够在处理序列数据时关注到序列中不同位置的信息,实现更加高效的并行处理。

本篇我们先看Transformer的整体架构,再看其关键技术“自注意力机制”。

理解Transformer的整体架构与关键技术(非常详细),零基础入门到精通,看这一篇就够了_第2张图片

Transformer的整体架构

Transformer的整体结构可分为输入模块、编码器模块、解码器

你可能感兴趣的:(transformer,架构,深度学习,Transformer,大模型)