为什么KV Cache只有KV,没有Q

大家都知道大模型是通过语言序列预测下一个词的概率。假定 x 1 , x 2 , x 3 , . . . , x n − 1 { x_1, x_2, x_3, ..., x_{n-1} } x1,x2,x3,...,xn1 为已知序列,其中 x 1 x_1 x1, x 2 x_2 x2, x 3 x_3 x3, …, x n − 1 x_{n-1} xn1 均为维度是 d m o d e l d_{model} dmodel 的向量, q n q_n qn, k n k_n kn, v n v_n vn 同为向量。当输入

你可能感兴趣的:(大模型部署,缓存,矩阵,线性代数,transformer)