『大模型笔记』KV缓存:Transformer中的内存使用!

『大模型笔记』KV缓存:Transformer中的内存使用!

文章目录

  • 一. KV缓存:Transformer中的内存使用!
    • 1.1. 介绍
    • 1.2. 自注意力机制回顾
    • 1.3. KV 缓存的工作原理
    • 1.4. 内存使用和示例
      • 1.4.1. 存储键值缓存需要多少内存
      • 1.4.2. Example: OPT-30B(300亿参数)
  • 四. 参考文献

进一步阅读:

  • 加速 GPT - KV 缓存:https://www.dipkumar.dev/becoming-the-unbeatable/posts/gpt-kvcache/
  • Transformer 推理算术:https://kipp.ly/transformer-inference-arithmetic/
  • 高效扩展 Transformer 推理:

你可能感兴趣的:(大模型笔记,缓存,transformer,KVcache,大模型,LLM)