LLM都是Decoder only的架构原因解读

最近知乎上有这个问题:为什么现在的LLM都是Decoder only的架构?

稍微总结下:

从模型实用层面来说:

  1. Decoder-only架构计算高效:相对于Encoder-Decoder架构,Decoder-only架构不需要编码器先编码整个输入序列,所以训练推理速度更快。
  2. Decoder-only架构内存占用少:Encoder-Decoder架构由于编码器的特点,每个patch的sentence都需要用pad来补齐,Decoder only架构不需要,因此可以减少内存占用。
  3. Decoder-only架构良好的泛化能力:Decoder only架构通常使用自回归模型,即每个单词的预测都是基于之前生成的单词。这种方法可以更好地处理复杂的语言结构,并提高模型的泛化能力。


实验验证:

Google Brain 和 HuggingFace联合发表的 What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot Generalization? 曾经在5B的参数量级下对比了

你可能感兴趣的:(LLM,架构)