Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory

本文是LLM系列文章,针对《Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory》的翻译。

超越缩放定律:用联想记忆理解Transformer性能

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 模型
  • 4 新的能量函数
  • 5 交叉熵损失
  • 6 实验结果
  • 7 结论

摘要

增大Transformer模型的大小并不总是能够提高性能。这种现象不能用经验缩放定律来解释。此外,当模型记忆训练样本时,泛化能力得到提高。我们提出了一个理论框架,揭示了基于Transformer的语言模型的记忆过程和性能动态。我们使用Hopfield网络对具有关联存储器的Transformer的行为进行建模,使得每个Transformer块有效地进行近似最近邻居搜索。基于此,我们设计了一个类似于现代连续Hopfield网络中的能量函数,它为注意力机制提供了深刻的解释。使用优化最小化技术,我们构建了一个全局能量函数,该函数捕获了Transformer的分层架构。在特定的条件下,我们证明了最小可实现的交叉熵损失由一个近似等于1的常数从下面界定。我们通过在各种数据大小上使用GPT-2进行实验,以及在2M个token的数据集上训练朴素Transformer,来证实我们的理论结果。

1 引言

2 相关工作

3 模型

4 新的能量函数

5 交

你可能感兴趣的:(LLM,Daily,transformer,深度学习,人工智能,语言模型)