【论文速读】MOD,《Mixture-of-Depths: Dynamically allocating compute in transformer-based language models》
论文链接:https://arxiv.org/html/2404.02258v1最近看到有招聘要求中提到熟悉MoE、MoD。MoE前面学习过,赶紧学习一下MoD!Transformer模型在前向传播中对每个token均匀分配计算资源,这在处理不同的语言建模问题时并不高效,因为并非所有token和序列都需要相同的计算量来进行准确预测。MoD模型旨在解决这一问题,通过动态分配计算资源,以更高效地使用计