TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters

TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters_第1张图片

基本信息

  • 原文链接: https://arxiv.org/abs/2410.23168
  • 作者: Haiyang Wang, Yue Fan, Muhammad Ferjad Naeem, Yongqin Xian, Jan Eric Lenssen, Liwei Wang, Federico Tombari, Bernt Schiele
  • 关键词: Progressive Scaling, Attention mechanism
  • 分类: 机器学习

摘要

中文摘要

由于在各个领域都表现出色,Transformer已成为基础模型中主要的架构。然而,扩展这些模型的巨大成本仍然是一个重要的问题。这个问题主要源于它们依赖于线性投影中固定数量的参数。当引入架构修改(例如,通道维度)时,整个模型通常需要从头开始重新训练。随着模型规模的不断增长,这种策略导致计算成本越来越高,并变得不可持续。为了克服这个问题,我们引入了TokenFormer,这是一种原生可扩展的架构,它不仅利用注意力机制进行输入token之间的计算,还利用注意力机制进行token与模型参数之间的交互,从而增强了架构的灵活性。通过将模型参数视为token,我们用我们的token-参数注意力层替换了Transformer中的所有线性投影,其中输入to

你可能感兴趣的:(daily,paper,transformer,深度学习,人工智能,语言模型)