从零实现诗词GPT大模型:实现Transformer架构

专栏规划: https://qibin.blog.csdn.net/article/details/137728228

首先说明一下,跟其他文章不太一样,在本篇文章中不会对Transformer架构中的自注意力机制进行讲解,而是后面单独1~2篇文章详细讲解自注意力机制,我认为由浅入深的先了解Transformer整体架构和其中比较简单的部分,后面再详细讲解自注意力更容易理解Transformer架构。

Transformer架构是Google在2017的著名的论文Attention Is All You Need中提出,Transformer的整体架构可以用以下这张著名的架构图来说明

从架构图可以看出,Transformer由左右两部分组成,左边的叫encoder,右边的叫decoder,每一部分都有两个核心组件Multi-Head AttentionFeed Forward

你可能感兴趣的:(从零实现诗词GPT大模型,gpt,transformer,语言模型)