Pytorch实现细节解析:Transformer模型的Encoder与Decoder逐行代码讲解
文章目录摘要一、Transformer1.1为什么要使用attention1.2Transformer的优点二、Transformer模型Encoder和Decoder原理讲解与其Pytorch逐行实现2.1wordembedding2.2单词索引构成源句子和目标句子2.3构建positionembedding2.4构造encoder的self-attentionmask2.5构造intra-at