KVCache

PD分离技术分析

以下是详细解析：一、PD的具体含义Prefill（预填充阶段）任务：处理用户输入的整个提示（Prompt），为所有Token生成初始的键值缓存（KVCache）和隐藏状态（HiddenStates）。

老兵发新帖·2025-07-23 14:15

Transformer推理性能优化技术很重要的一个就是K V cache，能否通俗分析，可以结合代码?

原文：Transformer推理性能优化技术很重要的一个就是KVcache，能否通俗分析，可以结合代码?-知乎为什么要研究KVcache？

javastart·2025-07-11 15:28

vLLM 优化与调优：提升模型性能的关键策略

抢占式调度（Preemption）由于Transformer架构的自回归特性，有时键值缓存（KVcache）空间不足以处理所有批量请求。在这种情况下，vL

强哥之神·2025-07-10 11:51

DeepSeek-V3 私有化部署配置方案（以 vLLM / FastDeploy 为主）

目标：在本地或私有服务器中部署DeepSeek-V3或其MoE结构变体支持高并发推理、高效资源利用提供HTTP接口供前端/插件/Agent调用方案对比方案支持MoE性能优化推荐场景vLLM部分支持高（KVCache

·2025-07-06 00:55

探秘阿里云Tair KVCache：大模型推理的加速引擎

在大模型推理中，KVCache技术作为一种优化手段，通过缓存历史Token的Key/Value向量

云资源服务商·2025-06-28 20:56

生成1个token，需要多少KV Cache开销？

Multi-QueryAttention)、GQA(Grouped-QueryAttention)和MLA(Multi-HeadLatentAttention)这4种注意力机制时，在decoder阶段使用KVcache

JasonLiu1919·2025-06-26 19:54

KV Cache：大模型推理加速的核心机制

KVCache是一种技术，它可以通过记住之前步骤中的重要信息来加快此过程。模型无需从头开始重新计算所有内容，而是重复使用已经计算过的内容，从而使文本生成更快、更高效。

非常大模型·2025-06-04 04:54

大模型中的KV Cache

1.KVCache的定义与核心原理KVCache（Key-ValueCache）是一种在Transformer架构的大模型推理阶段使用的优化技术，通过缓存自注意力机制中的键（Key）和值（Value）矩阵

为啥全要学·2025-05-15 23:16

【大模型知识点】什么是KV Cache？为什么要使用KV Cache？使用KV Cache会带来什么问题？如何解决？

1.什么是KVCache？为什么要使用KVCache？

自信的小螺丝钉·2025-05-10 10:32

大模型原理、微调和行业大模型的部署

其中涉及RMSNorm归一化、SwiGLU激活函数、RoPE位置编码、GQA注意力和KVCache等关键技术。

AI周红伟·2025-04-30 21:26

【AI学习】Transformer深入学习（二）：从MHA、MQA、GQA到MLA

前面文章：《Transformer深入学习（一）：Sinusoidal位置编码的精妙》一、MHA、MQA、GQA为了降低KVcache，MQA、GQA作为MHA的变体，很容易理解。

bylander·2025-04-29 15:44

【Attention】KV Cache

1什么是KVCache？定义：KVCache即Key-ValueCache，是用于加速Transformer模型推理长序列过程的一种技术。

麦格芬230·2025-04-18 01:47

【无标题】

KVCache在自回归生成中的作用及显存优化1.什么是KVCache？

gs80140·2025-03-21 06:19

清华大学KVCache.AI团队联合趋境科技联合的KTransformers开源项目为什么那么厉害

KTransformers是一个由清华大学KVAV.AI团队开发的开源项目，旨在优化大语言模型（LLM）的推理性能，特别是在有限显存资源下运行大型模型。以下是KTransformers的详细介绍：1.核心特点高性能优化：KTransformers通过内核级优化、多GPU并行策略和稀疏注意力等技术，显著加速模型推理速度，降低硬件门槛。灵活扩展性：KTransformers是一个以Python为中心的

魔王阿卡纳兹·2025-02-16 03:52

LLM推理优化——PagedAttention初识篇（vLLM初识（二））

LLM推理优化——PagedAttention初识篇（vLLM初识（二））前言在LLM推理优化——KVCache篇（百倍提速）中，我们已经介绍了KVCache技术的原理，从中我们可以知道，KVCache

荼荼灰·2025-02-11 15:44

大模型低显存推理优化-Offload技术

[大模型推理优化技术-KVCache][大模型推理服务调度优化技术-Continuousbatching]大模型显存优化技术-PagedAttention大模型低显存推理优化-Offload技术大模型优化技术

AI大模型-大飞·2025-02-03 15:04

LoongServe论文解读：prefill/decode分离、弹性并行、零KV Cache迁移

LoongServe论文解读：prefill/decode分离、弹性并行、零KVCache迁移LoongServe:EfficientlyServingLong-contextLargeLanguageModelswithElasticSequenceParallelism

04290629·2025-01-30 18:13

Mooncake：面向大语言模型服务的以 KVCache 为中心的架构

它采用以KVCache为中心的分解架构，将预填充和解码集群分离。它还利用GPU集群未充分利用的CPU、DRAM和SSD资源来实现KVCache的分解缓存。

步子哥·2025-01-29 22:42

【llm对话系统】基于llm的实时多轮对话如何做kv cache

问题分析用户流式输入，同步KVCache轮次切换，context动态新增如何同步进行KVCache整体方案随着用户输入新的信息，context会动态增长。

kakaZhui·2025-01-28 00:48

Multi-Head Latent Attention: Boosting Inference Efficiency

ContentsIntroductionMethodLow-RankKey-ValueJointCompressionDecoupledRotaryPositionEmbeddingReferencesIntroduction作者提出Multi-headLatentAttention(MLA)，通过将KV压缩为CompressedLatentKV，在减小KVcache

连理o·2025-01-22 14:56

LLama 架构一览

KVCache推理加速llama、l

Debroon·2025-01-22 04:08

Kimi终于开源了，联手清华开源大模型推理架构Mooncake

Kimi公司联合清华大学的MADSys实验室，推出了基于KVCache的Mooncake推理系统设计方案，该方案于2024年6月正式发布。

吴脑的键客·2025-01-19 18:11

官宣开源阿里云与清华大学共建AI大模型推理项目Mooncake

2024年6月，国内优质大模型应用月之暗面Kimi与清华大学MADSys实验室（MachineLearning,AI,BigDataSystemsLab）联合发布了以KVCache为中心的大模型推理架构

·2025-01-17 19:03

GLM-4 (1) - 推理+概览

-4(1)-推理+概览GLM-4(2)-RoPEGLM-4(3)-GLMBlockGLM-4(4)-SelfAttentionGLM-4(5)-API&FunctionCallingGLM-4(6)-KVCache

戴昊光·2024-09-07 02:38

进阶岛 - LMDeploy 量化部署进阶实践

一、显存计算方法InternLM系列模型的显存使用主要2部分构成：模型权重kvcache以InternLM2.5-7b-chat为例，它的权重类型是bfloat16，即一个参数占用2字节的浮点数。

ydogg·2024-08-26 17:30

Benchmarking PIM-attention: A Puncture Experiment on a Real Processing-in-Memory Architecture

一方面，每个请求的键值缓存（KVcache）占用大量的内存，而且会动态增长和收缩，显存容量不足限制了批处理的大小；另一方面，attention算法中大量使用访存密集型的GEMV算子，显存带宽成为了系统瓶颈

简vae·2024-02-19 14:03

LLM大模型：面试、微调

1、面试题总结【LLM】大模型面试准备-1（题库整理篇）大模型八股答案（一）——基础知识-知乎分析transformer模型的参数量、计算量、中间激活、KVcache-知乎【NLP】GoogleBERT

风路丞·2024-01-31 01:42

大语言模型的技术-算法原理

因此，这对有效管理KVcache挑战较大。该研究发现，由于碎片化和过度保留，现有系统浪费了60%-80%的显存。为了解决这个问题，该研究引入了PagedAtten

三更科技公社·2024-01-27 23:26

大语言模型推理优化策略

因此，这对有效管理KVcache挑战较大。该研究发现，由于碎片化和过度保留，现有系统浪费了60%-80%的显存。为了解决这个问题，该研究引入了PagedAtten

三更科技公社·2024-01-27 16:38

【书生·浦语大模型实战营第5课】LMDeploy大模型量化部署实践

主要包括KVCache量化和模型参数量化。KVCache量化是指将逐Token（Decoding）生成过程中的上下文K和V中间结果进行INT8量化（计算时再反量化），以降低生成过程中的显存占用。

A-Little-Boy·2024-01-24 04:17

序列模型（3）—— LLM的参数量和计算量

NNN，训练数据量（Token）为DDD，LLM训练中计算量（FLOPs）C≈6NDC\approx6NDC≈6ND参考：模型训练计算量到底怎么算分析transformer模型的参数量、计算量、中间激活、KVcache

云端FFF·2024-01-11 07:38

Transformer推理加速方法-KV缓存(KV Cache)

1.使用KV缓存(KVCache)在推理进程中与训练不同，推理进行时上下文输入Encoder后计算出来的K和VK和VK和V是固定不变的，对于这里的K和VK和VK和V可以进行缓存后续复用；在Decoder

MLTalks·2024-01-10 03:10

【人工智能】结合代码通俗讲解 Transformer 推理性能优化技术：KV Cache

目录0.引言1.KVCache是啥？2.背景3.原理4.实现细节5.总结在解码器推理加速的时候，由于解码过程是一个token一个token的生成，如果每一次解码都从输入开始拼接好解码的token࿰

OpenChat·2024-01-10 03:37

transformer之KV Cache

一、为什么要研究KVCache非常有效的加速推理速度，效果如下所示：importnumpyasnpimporttimeimporttorchfromtransformersimportAutoModelForCausalLM

Takoony·2023-11-24 04:24

一张图系列 - “kv cache“

kvcache是如何存储和传递的？2、kvcache的原理步骤是什么？为什么降低了消耗？3、kvcache代码模块有哪些？(使用kvcache是否影响最后结果？使用kvcache到底提速了多少？)

sinat_15355869·2023-10-28 16:17

非常好用的Android开发key-value数据缓存工具-kvcache，和SharedPreference代码说byebye

kvcache欢迎StarGithub：kvcache:在Android开发中优雅的存取key/value数据，从此不用再写SharedPreference代码kvcache简介该库可帮助你在Andrtoid

拆迁特工·2023-09-24 20:02

KVCache原理简述

在GPT的推理过程中，它根据完整的提问和回答的已生成部分，来生测下一个词（的概率）。例如，我们的提问是【天王盖地虎，】，回答是【宝塔镇河妖。】。那么第一次，GPT根据【天王盖地虎，】生成【宝】，之后根据【天王盖地虎，宝】生成【塔】，以此类推，直到碰上终止符。这里面提问【天王盖地虎，】的QKV实际上重复计算了很多遍。由于GPT是单向注意力，每层的提问的KV只根据上一层的提问的KV（或提问的嵌入向量）

绝不原创的飞龙·2023-09-21 16:25

KV Cache

大模型推理加速的一个常用技术是KVCache，在不牺牲任何计算精度的前提下，通过空间换时间，提高推理性能。注意，这里的Cache概念非常简单，跟浏览器缓存、CPU缓存不是一个概念。

transformer_WSZ·2023-09-14 06:13

LLM推理优化技术综述：KVCache、PageAttention、FlashAttention、MQA、GQA

LLM推理优化技术综述：KVCache、PageAttention、FlashAttention、MQA、GQA随着大模型被越来越多的应用到不同的领域，随之而来的问题是应用过程中的推理优化问题，针对LLM

Garvin Li·2023-09-10 02:59

分布式缓存和分布式事务

分布式缓存缓存选型Memcachememcache提供了简单的kvcache存储，value大小为1mbmemcache使用slab方式来做内存管理，这种方式存在一定的浪费，如果大量接近的item，建议调整

LegendGo·2022-05-02 20:26

推荐频道