由于在各个领域都表现出色,Transformer已成为基础模型中主要的架构。然而,扩展这些模型的巨大成本仍然是一个重要的问题。这个问题主要源于它们依赖于线性投影中固定数量的参数。当引入架构修改(例如,通道维度)时,整个模型通常需要从头开始重新训练。随着模型规模的不断增长,这种策略导致计算成本越来越高,并变得不可持续。为了克服这个问题,我们引入了TokenFormer,这是一种原生可扩展的架构,它不仅利用注意力机制进行输入token之间的计算,还利用注意力机制进行token与模型参数之间的交互,从而增强了架构的灵活性。通过将模型参数视为token,我们用我们的token-参数注意力层替换了Transformer中的所有线性投影,其中输入to