Transformer 架构 - 解码器 (Transformer Architecture - Decoder)

一、解码器整体结构:多层堆叠设计

Transformer解码器由​​N个相同结构的解码器层堆叠而成​​(通常N=6),每层包含三个核心子模块(图1)

1

5

12

  1. ​带掩码的多头自注意力层​​(Masked Multi-Head Self-Attention)
  2. ​编码器-解码器注意力层​​(Encoder-Decoder Attention / Cross-Attention)
  3. ​前馈神经网络层​​(Feed-Forward Network)

通过多层堆叠,模型能够逐级抽象特征:

  • ​浅层​​:捕捉局部语法和词序关系(如动词与宾语的搭配)
  • ​深层​​:建模全局语义和复杂依赖(如篇章级指代消解)

    5

    12


二、解码器层内部组件详解

1. 带掩码的多头自注意力层

​为什么需要掩码?​

你可能感兴趣的:(深入理解,Transformer,transformer,深度学习,人工智能)