『大模型笔记』混合专家模型(Mixed Expert Models,简称 MoEs)

混合专家模型(Mixed Expert Models,MoE)

文章目录

  • 1. 什么是混合专家模型?
  • 2. MoE的PyTorch示例代码
    • 2.1. 代码图示
    • 2.1. 理解torch.std
      • 2.1.1. 参数介绍
      • 2.1.1. 基本例子
      • 2.1.1. 矩阵的例子
      • 2.1.1. 用作损失的一部分
  • 3. MoE优缺点
  • 4. 参考文章

  • 混合专家模型(Mixed Expert Models,MoE)

1. 什么是混合专家模型?

  • 模型规模是提升模型性能的关键因素之一。在有限的计算资源预算下,用更少的训练步数训练一个更大的模型,往往比用更多的步数训练一个较小的模型效果更佳。
  • 混合专家模型 (MoE) 的一个显著优势是它们能够在 远少于稠密模型所需的计算资源下进行有效的预训练。这意味着在相同的计算预算条件下,您可以显著扩大模型或数据集的规模。特别是

你可能感兴趣的:(大模型笔记,OpenAI,gpt,MoE,混合专家模型,LLMs)