Hogwild! Inference: Parallel LLM Generation via Concurrent Attention

Hogwild! 推理:通过并发注意力实现并行 LLM 生成

目录

  • 介绍
  • 顺序 LLM 生成的挑战
  • Hogwild 推理方法
  • 用于协作推理的缓存布局
  • 旋转位置嵌入
  • 协作提示
  • 实验结果
  • 涌现的协作行为
  • 局限性和未来方向
  • 结论

介绍

大型语言模型(LLM)彻底改变了自然语言处理,但它们的顺序特性在文本生成过程中造成了计算瓶颈。每个 token 预测都需要模型处理所有先前的 token,导致推理时间随输出长度线性增长。对于需要生成冗长输出的复杂推理任务来说,这种限制尤其成问题。

Hogwild! Inference: Parallel LLM Generation via Concurrent Attention_第1张图片

在 Yandex、HSE University 和 IST Austria 的研究人员开发的一种新方法中,多个 LLM 实例并行工作以协作解决问题,并通过共享内存缓存实时访问彼此的输出。这种名为 "Hogwild! 推理 "的方法,其灵感来源于 Hogwild! 随机梯度下降算法,在该算法中,多个工作者异步更新共享参数,而无需锁定。

顺序 LLM 生成的挑战

传统的 LLM 推理按顺序运行:模型生成一个 token,将其添加到上下文中,然后生成下一个 token。这个过程一直持续到达到所需的输出长度。虽然有效,但这种方法没有利用现代硬件的并行处理能力,导致资源利用率低和生成速度慢。

先前并行化 LLM 推理的尝试通常依赖于严格的协作框架:

  • 独立运行多个 LLM 并聚合它们的输出
  • 将问题划分为独立的子任务以进行并行处理
  • 使用推测性解码同时

你可能感兴趣的:(AI,Papers,LLM)