『大模型笔记』基于Transformer的生成式模型分布式服务系统

基于Transformer的生成式模型分布式服务系统

文章目录

  • 一、生成模型的推理过程
  • 二、当前推理系统的局限
    • 1. 不灵活的请求级调度(request-level batch)
    • 2. 批处理受限于请求形状不同
  • 三、Orca 系统架构
  • 四、性能评估
  • 总结
  • 参考资料

  • Gyeong-In Yu 和 Joo Seong Jeong(首尔大学);Geon-Woo Kim(FriendliAI 和 首尔大学);Soojeong Kim(FriendliAI);Byung-Gon Chun(FriendliAI 和 首尔大学)
  • https://www.usenix.org/conference/osdi22/presentation/yu
  • 近年来,大规模的Transformer生成模型(如GPT-3)因其强大的建模能力而受到广泛关注。这类模型通过自回归方式逐个生成下一个token,因此每次推理请求需要多

你可能感兴趣的:(大模型笔记,Transformer,Prefix,Decode)