算法熔炉

全面解析DeepSeek算法细节(3) —— Multi-head Latent Attention (MLA)

概述

Multihead Latent Attention (MLA) 是一种旨在提升计算效率的注意力机制，它通过将 Key-Query-Value (KQV) 矩阵投影到一个低维潜在空间，显著降低计算和内存成本。MLA 是 DeepSeek 系列模型（特别是 DeepSeek-R1）的关键组成部分，它通过低秩压缩技术最小化 Key-Value (KV) 缓存的存储开销，从而实现更快的推理速度，并支持更长的上下文长度或更大的批处理大小。

DeepSeek-R1 在 MLA 的基础上，进一步融入了强化学习 (RL) 增强的推理优化，同时保持较低的内存开销。通过利用解耦的旋转位置嵌入和潜在空间压缩，MLA 确保在保持计算效率的同时，最小化精度损失。

关键特性

低秩 Key-Value 压缩：MLA 采用低秩潜在空间投影来压缩 KV 对，显著降低内存开销。这使得 DeepSeek-R1 能够仅存储压缩表示，而不是完整的 KV 状态，从而实现高效的长上下文处理。
解耦旋转位置嵌入 (RoPE)：标准 RoPE 引入了位置相关的变换，这会阻碍 KV 压缩。DeepSeek-R1 将 RoPE 与 key-value 存储解耦，确保位置编码在不干扰潜在空间效率的情况下保持有效。
高效的多头注意力与压缩存储：与缓存所有 token 的完整 key-value 矩阵不同，MLA 仅存储其紧凑的潜在空间等效项。这大大降低了推理内存需求，同时保持了注意力保真度。
自适应投影矩阵：MLA 为 queries、keys 和 values 利用单独的学习投影矩阵。这些矩阵在训练期间动态调整，确保最佳的存储效率和最小的精度损失（与全维注意力相比）。
推理高效的缓存机制：通过选择性地仅缓存压缩的 key-value 表示，MLA 比传统的 Multi-Head Attention (MHA) 实现了 93.3% 的 KV 缓存减少。这使得 DeepSeek-R1 能够支持更长的上下文长度，同时最小化推理延迟。
增强的在长上下文任务上的性能：DeepSeek-R1 使用 RL 驱动的优化（例如 GRPO）来改进 MLA，以优先处理关键 token。这提高了长上下文任务中的推理准确性，同时保持了计算效率。

从 DeepSeek-V2 到 DeepSeek-R1 的演变

DeepSeek-V2 中的 MLA

DeepSeek-V2 中的 MLA 旨在通过显著减少 KV 缓存大小，同时保持强大的模型性能来提高推理效率。它引入了相对于传统 Multi-Head Attention (MHA) 的多项关键创新，包括低秩 key-value 联合压缩和解耦旋转位置嵌入。

DeepSeek-V2 中的 MLA 实现为 DeepSeek-R1 中进一步的改进奠定了基础，在 DeepSeek-R1 中，它通过 FP8 量化、增强的压缩技术和改进的数值稳定性得到了进一步的完善。

低秩 Key-Value 联合压缩

Transformer 推理的主要瓶颈之一是存储过去 keys 和 values 所需的大型 KV 缓存。DeepSeek-V2 通过使用线性投影将 KV 表示压缩到低维潜在空间来解决此问题。

给定一个输入 token 表示 $(h_t \in \mathbb{R}^d)$ ，标准多头注意力计算 queries、keys 和 values 如下：
$q_t = W_Q h_t, \quad k_t = W_K h_t, \quad v_t = W_V h_t\$

其中 $W_Q, W_K, W_V \in \mathbb{R}^{d_h n_h \times d}$

MLA 不是存储全维 $k_t$ 和 $v_t$ ，而是将它们压缩为潜在表示 $c_{KV}$ ：
$c_{KV_t} = W_{D_{KV}} h_t$

其中 $W_{D_{KV}} \in \mathbb{R}^{d_c \times d}$ 是一个下投影矩阵，并且 $d_c \ll d_h n_h$

在推理期间，压缩的 key-value 表示被扩展回可用的 keys 和 values：
$k_t^C = W_{U_K} c_{KV_t}, \quad v_t^C = W_{U_V} c_{KV_t}$

其中 $W_{U_K}, W_{U_V} \in \mathbb{R}^{d_h n_h \times d_c}$ 是上投影矩阵。

这种压缩将 KV 缓存大小从 $O(n_h d_h l)$ 减少到 $O(d_c l)$ ，其中 $l$ 是层数。

解耦旋转位置嵌入

RoPE 通常用于 transformer 架构中，以将位置信息编码到 queries 和 keys 中。然而，标准 RoPE 应用与 MLA 的 key-value 压缩不兼容，因为它引入了阻止有效缓存的位置相关变换。

DeepSeek-V2 通过将 RoPE 与 key 压缩解耦来解决此问题：

引入辅助共享 key $k_t^R$ 和额外的多头 queries $q_t^R$ 。
仅将 RoPE 应用于 $q_t^R$ 和 $k_t^R$ ：
$q_t^R = \text{RoPE}(W_{Q_R} c_{Q_t}), \quad k_t^R = \text{RoPE}(W_{K_R} h_t)$

其中 $W_{Q_R}, W_{K_R}$ 是特定于解耦 RoPE 的投影矩阵。
连接压缩的和 RoPE 应用的 keys/queries：
$q_t = [q_t^C; q_t^R], \quad k_t = [k_t^C; k_t^R]$
确保 RoPE 仅影响注意力机制的一个子集，同时保持 key-value 压缩完整。

KV 缓存需求比较

MLA 的一个关键优势是，它在需要显著更少的 KV 缓存的同时，实现了比标准 MHA 更强的性能。下表比较了不同注意力机制的缓存大小：

注意力机制	每个 Token 的 KV 缓存（元素）
MHA	$2 n_h d_h l$
GQA (分组查询)	$2 n_g d_h l$
MQA (多查询)	$2 d_h l$
MLA (DeepSeek-V2)	$d_c + d_h^R) l$

对于 DeepSeek-V2，值设置为：

$d_c = 4d_h$
$d_h^R = d_h / 2$

这意味着 MLA 实现了与具有 2.25 个组的 GQA 相似的效率，同时保持了 MHA 的性能水平。

DeepSeek-V3 中的增强

DeepSeek-V3 引入了对 Multihead Latent Attention (MLA) 的多项关键增强，这些增强显著提高了其效率、可伸缩性和精度，同时保持了较高的模型准确性。主要改进包括：

通过优化的压缩技术进一步减少 KV 缓存
用于激活内存节省的查询压缩
通过 FP8 混合精度增强的数值稳定性
用于 MLA 中负载平衡的自适应路由

通过这些改进，DeepSeek-V3 降低了内存开销，增强了数值精度，并实现了显著更快的推理速度，同时保持了较高的模型准确性。

DeepSeek-R1 中的增强

DeepSeek-R1 对 MLA 进行了多项改进，提高了推理效率和推理性能，同时保持了较低的内存开销。在 DeepSeek-V3 中 MLA 优化的基础上，DeepSeek-R1 进一步增强了 KQV 压缩、RL 引导的注意力分配和数值稳定性机制。

MLA vs. MHA：对比分析

特性	MHA	MLA
KQV 存储	存储完整的 KQV 矩阵	仅存储压缩后的 Key-Value 表示
内存占用	高，存储开销大	低，存储开销显著减少
计算复杂度	高，尤其对于长上下文任务	低，通过压缩技术减少计算量
位置编码	直接应用于 KQV 矩阵	解耦 RoPE，确保不影响压缩效率
适用场景	适用于短上下文任务	尤其适用于长上下文任务
推理速度	较慢，尤其对于长序列	较快，通过压缩和优化提升推理速度

通过优化压缩技术进一步减少键值缓存（KV Cache）

DeepSeek-V3的多头潜在注意力（MLA）的主要改进之一是在保持模型性能的同时，对键值缓存进行更深度的压缩。这通过以下方式实现：
- 动态键值压缩矩阵：DeepSeek-V3并非使用静态压缩矩阵，而是针对每个序列长度动态优化压缩过程。
- 键值存储的分解投影：应用双矩阵分解来对键和值进行下投影，进一步减少键值存储量。

优化的压缩公式

给定一个输入令牌表示 $h_t \in \mathbb{R}^d$ ，DeepSeek-V2中的标准多头潜在注意力（MLA）计算压缩后的键值表示如下：
$c_{KV_i} = W_{D_{KV}}h_t$
- 其中 $W_{D_{KV}} \in \mathbb{R}^{d_c\times d}$ 是一个静态下投影矩阵。
在DeepSeek-V3中，压缩过程通过自适应双矩阵压缩得到增强：
$c_{KV_i} = W_{D_{KV,1}}W_{D_{KV,2}}h_t$
- 其中 $W_{D_{KV,1}} \in \mathbb{R}^{d_m\times d}$ 且 $W_{D_{KV,2}} \in \mathbb{R}^{d_c\times d_m}$ ， $d_m$ 是一个中间维度。
- 这种分解能够实现更有效的压缩，与DeepSeek-V2相比，存储需求最多可减少40%。

推理时的扩展

在推理过程中，现在扩展后的键和值按如下方式计算：
$k^C_t = W_{U_K}W_{M_K}c_{KV_i}, \quad v^C_t = W_{U_V}W_{M_V}c_{KV_i}$
- 其中 $W_{M_K}, W_{M_V}$ 作为中间投影层，用于优化键值重建过程。
这一改进确保只有压缩后的向量存储在内存中，显著减少了键值缓存开销。

查询压缩以节省激活内存

DeepSeek-V3将多头潜在注意力（MLA）的低秩压缩扩展到查询（queries）上，在不影响注意力精度的情况下，降低了激活内存需求。

查询压缩公式

不再计算完整的查询：
$q_t = W_Qh_t, \quad k_t = W_Kh_t, \quad v_t = W_Vh_t$
DeepSeek-V3引入了一个额外的压缩步骤：
$c_{Q_t} = W_{D_Q}h_t, \quad q^C_t = W_{U_Q}c_{Q_t}$
- 其中：
  - $c_{Q_t} \in \mathbb{R}^{d'_c}$ 是压缩后的查询表示。
  - $d'_c \ll d_hn_h$ ，这确保激活内存的使用量显著降低。

解耦旋转位置嵌入（RoPE）

为了保持位置嵌入的有效性，DeepSeek-V3对旋转位置嵌入（RoPE）的应用进行了解耦：
$q^R_t = \text{RoPE}(W_{Q_R}c_{Q_t}), \quad k^R_t = \text{RoPE}(W_{K_R}h_t)$
- 其中：
  - $q^R_t$ 和 $k^R_t$ 存储应用了RoPE的压缩表示版本。
  - 这可以防止RoPE干扰MLA的低秩压缩。

激活内存的减少

通过查询压缩，DeepSeek-V3将注意力激活内存减少了35%，从而能够对大规模模型进行高效训练。

利用FP8混合精度增强数值稳定性

DeepSeek-V3利用FP8混合精度训练，在降低内存和计算成本的同时，提高了数值稳定性。

针对MLA组件的FP8训练

在DeepSeek-V2中，MLA组件主要以BF16（16位二进制浮点数）运行。而DeepSeek-V3采用了细粒度的FP8（8位浮点数）量化，并应用了分组缩放策略：
- 激活缩放：对激活值采用每个令牌、每128个通道块的量化方式。
- 权重缩放：对权重采用128×128的块级缩放。
- 这确保了在训练中减少舍入误差，并能更好地覆盖动态范围。

FP8注意力计算

DeepSeek-V3中的注意力输出使用与FP8兼容的缩放方式进行计算：
$o_t = \sum_{j = 1}^{t} \text{Softmax} \left( \frac{q^T_t k_{j}}{\sqrt{d_h + d_R}} \right) v_{j}$
- 其中：
  - 缩放因子针对激活值进行在线计算。
  - 每128步将累加结果升级为FP32（32位浮点数），以提高数值精度。

精度对比

组件	DeepSeek-V2（BF16）	DeepSeek-V3（FP8）
查询/键压缩	$d_c = 4d_h$	$d_c = 3d_h$
KV缓存存储	BF16	FP8
RoPE应用	全精度	解耦，FP8
注意力计算	BF16	FP8 + FP32累加

通过利用FP8量化，DeepSeek-V3的训练效率提高了2.3倍，在不降低性能的前提下减少了内存消耗。

多头潜在注意力（MLA）中用于负载均衡的自适应路由

DeepSeek-V3通过为查询 - 键计算引入动态负载均衡，提高了注意力计算效率。

负载自适应路由机制

在DeepSeek-V2中，MLA使用静态的注意力头分配方式，这导致在处理长序列时偶尔会出现计算效率低下的问题。
DeepSeek-V3通过自适应路由对此进行了改进：
$s_{i,t} = \text{Sigmoid}(w^T_te_i + b_i)$
- 其中：
  - $e_i$ 是被路由到的专家的质心向量。
  - $b_i$ 是一个动态更新的偏置项，用于调整每个注意力头的工作负载平衡。
偏置项的更新方式如下：
$b^{(t + 1)}_i = b^{(t)}_i - \gamma \cdot (\text{overloaded}_i - \text{underloaded}_i)$
- 其中 $\gamma$ 是一个调整参数。
这确保了：
- 令牌在各个注意力头之间的分布平衡。
- 在推理过程中不进行令牌丢弃，避免效率损失。

计算收益

通过集成自适应路由，DeepSeek-V3实现了：
- 各个注意力头之间的计算负载均匀。
- 每个令牌的推理延迟降低10%。

DeepSeek-R1的改进

DeepSeek-R1对MLA进行了多项优化，在保持低内存开销的同时，提高了推理效率和推理性能。基于DeepSeek-V3中对MLA的优化，DeepSeek-R1进一步增强了键值（KQV）压缩、强化学习（RL）引导的注意力分配以及数值稳定性机制。

强化学习（RL）引导的潜在注意力优化

DeepSeek-R1将强化学习技术集成到多头潜在注意力（MLA）中，通过分组相对策略优化（GRPO）来优化注意力机制。与以往的确定性注意力策略不同，DeepSeek-R1基于强化奖励动态调整注意力权重，优先处理对强化推理路径有更大贡献的令牌。
GRPO无需单独的评论家模型，从而减少了内存开销并提高了收敛效率。
GRPO不依赖于监督微调，而是直接从组级奖励中估计优势值：
$A_i = \frac{r_i - \text{mean}(\{r_1, r_2, \ldots, r_G\})}{\text{std}(\{r_1, r_2, \ldots, r_G\})}$
通过最大化以下公式来更新策略模型 $\pi_{\theta}$ ：
$J_{\text{GRPO}}(\theta) = \mathbb{E} \left[ \sum_{i = 1}^{G} \min \left( \frac{\pi_{\theta}(o_i|q)}{\pi_{\theta_{\text{old}}}(o_i|q)} A_i, \text{clip} \left( \frac{\pi_{\theta}(o_i|q)}{\pi_{\theta_{\text{old}}}(o_i|q)}, 1 - \epsilon, 1 + \epsilon \right) A_i \right) - \beta D_{KL}(\pi_{\theta} \| \pi_{\text{ref}}) \right]$
这种方法使DeepSeek-R1能够自适应地优化MLA中的注意力机制，改善长文本推理中的令牌优先级排序。
更多详细信息可在“RL算法：分组相对策略优化（GRPO）”部分中找到。

通过强化学习实现自适应查询和键压缩

DeepSeek-R1的MLA的主要改进之一是强化学习引导的自适应查询和键压缩。DeepSeek-V3已经引入了用于键值（KV）存储的低秩压缩技术，但DeepSeek-R1将压缩扩展到查询，在不影响注意力准确性的情况下减少激活内存。

优化的压缩公式
- 在DeepSeek-V3中，键值缓存压缩是通过静态低秩投影实现的：
  $c_{KV_i} = W_{D_{KV}}h_t$
- DeepSeek-R1在推理过程中使用基于强化学习的奖励最大化来动态调整压缩矩阵：
  $c_{KV_i} = W_{D_{KV,1}}W_{D_{KV,2}}h_t$
- 其中：
  - $W_{D_{KV,1}} \in \mathbb{R}^{d_m\times d}$ 且 $W_{D_{KV,2}} \in \mathbb{R}^{d_c\times d_m}$ 。
  - $d_m$ 是一个中间维度，允许实现更细粒度的潜在空间表示。
推理时的扩展
- DeepSeek-R1没有使用单个上投影矩阵，而是采用了多阶段扩展流水线：
  $k^C_t = W_{U_K}W_{M_K}c_{KV_i}, \quad v^C_t = W_{U_V}W_{M_V}c_{KV_i}$
- 其中 $W_{M_K}, W_{M_V}$ 优化重建后的查询 - 键值，确保只有压缩向量存储在内存中。
压缩比改进：DeepSeek-R1在保持查询 - 键检索准确性的同时，相比DeepSeek-V3，进一步将键值缓存需求降低了25%。

带上下文特定缩放的解耦旋转位置嵌入

DeepSeek-V3引入了解耦的旋转位置嵌入（RoPE），将位置编码与压缩后的键值表示分离，而DeepSeek-R1通过上下文特定的缩放机制进一步优化了RoPE。
DeepSeek-R1采用了一种改进的RoPE公式，其中RoPE具有上下文感知能力，可根据序列长度动态调整缩放因子：
$\lambda_t = \frac{1}{\sqrt{1 + \alpha L_t}}$
- 其中：
  - $\lambda_t$ 是位置嵌入的自适应缩放因子。
  - $\alpha$ 是通过强化学习优化得到的超参数。
  - $L_t$ 表示时间步 $t$ 时的序列长度。
实现优势
- RoPE缩放确保了在不同序列长度下注意力对齐的一致性。
- 在压缩MLA的键值状态时，防止位置信息退化。

用于MLA稳定性的FP8混合精度

DeepSeek-R1在MLA计算中采用FP8量化，相比DeepSeek-V3基于BF16的方法，进一步提高了数值稳定性。
在DeepSeek-R1的精度感知计算流水线中，查询（Q）、键（K）、值（V）矩阵通过分组缩放进行动态量化：
$\tilde{Q} = \frac{Q}{s_Q}, \quad \tilde{K} = \frac{K}{s_K}, \quad \tilde{V} = \frac{V}{s_V}$
- 其中 $s_Q, s_K, s_V$ 是通过学习得到的分组缩放因子。
注意力输出采用混合精度累加进行计算：
$o_t = \sum_{j = 1}^{t} \text{Softmax} \left( \frac{\tilde{q}^T_t \tilde{k}_j}{\sqrt{d_h + d_R}} \right) \tilde{v}_j$
累加过程每128步升级为FP32，在保持FP8效率的同时确保更好的数值精度。

MLA精度策略对比

组件	DeepSeek-V3（BF16）	DeepSeek-R1（FP8）
查询/键压缩	$d_c = 4d_h$	$d_c = 3d_h$
KV缓存存储	BF16	FP8
RoPE应用	全精度	解耦，FP8
注意力计算	BF16	FP8 + FP32累加

效率提升

与BF16相比，FP8可将内存占用减少约40%。
对于长文本任务，推理吞吐量提升2.3倍。

用于负载均衡注意力的自适应/动态路由

DeepSeek-R1引入了负载均衡自适应路由机制，确保在各个注意力头之间，查询 - 键的计算负载均匀。
DeepSeek-R1使用基于Sigmoid的路由函数来优化每个注意力头的工作负载平衡：
$s_{i,t} = \text{Sigmoid}(u^T_te_i + b_i)$
- 其中：
  - $e_i$ 表示被路由的注意力专家的质心向量。
  - $b_i$ 是一个自适应偏置项，用于确保工作负载均匀。
性能提升
- 各个注意力头之间的均衡计算避免了瓶颈问题。
- 将每个令牌的推理延迟降低了10%。

对比分析

DeepSeek-V2引入了多头潜在注意力（MLA），具备显著的键值（KV）缓存压缩能力、解耦的旋转位置嵌入（RoPE），以及为提高效率而采用的基本低秩投影。DeepSeek-V3在此基础上，进一步减小了键值缓存大小，优化了查询压缩，并引入了FP8混合精度以增强数值稳定性。DeepSeek-R1通过集成诸如分组相对策略优化（GRPO）等强化学习技术，对MLA进行了更深入的优化，从而能够动态优化注意力分配。DeepSeek-R1的最新改进还提升了推理延迟和内存效率，使其成为目前MLA的最优化版本。
下表对DeepSeek-V2、DeepSeek-V3和DeepSeek-R1的MLA进行了对比分析。该对比突出了各版本在压缩技术、精度、路由机制和推理效率方面的关键改进。

特性	DeepSeek-V2	DeepSeek-V3	DeepSeek-R1
低秩键值（KV）压缩	✔	✔（通过分解投影优化）	✔（强化学习优化的自适应压缩）
查询压缩	✖	✔（静态低秩查询压缩）	✔（强化学习引导的动态查询压缩）
键值缓存缩减	✔（减少93.3%）	✔（在V2基础上再减少40%）	✔（在V3基础上再减少25%）
旋转位置嵌入（RoPE）应用	✔（解耦RoPE）	✔（解耦并带有上下文特定缩放）	✔（增强的上下文感知缩放）
精度格式	BF16（16位二进制浮点数）	FP8（细粒度混合精度）	FP8（分组缩放，FP32累加）
多头潜在注意力（MLA）的自适应路由	✖	✔（静态自适应路由）	✔（负载均衡动态路由）
推理延迟降低	✔（键值压缩降低延迟）	✔（比V2快10%）	✔（比V3快10%）
强化学习（RL）改进	✖	✖	✔（使用分组相对策略优化（GRPO）进行自适应MLA优化）
数值稳定性改进	✔（基本稳定性增强）	✔（FP8混合精度）	✔（FP8结合强化学习引导的稳定性机制）
长文本性能	✔（支持更长文本）	✔（进一步优化）	✔（通过强化学习引导的令牌优先级排序增强）

实现方式

DeepSeek-R1中多头潜在注意力（MLA）的实现包含了多项优化，旨在在保持准确性的同时最大化效率。本节详细介绍了MLA的核心机制，包括键值压缩、查询变换、位置编码和计算优化。

背景：标准多头注意力（MHA）

对于标准的多头注意力（MHA）机制，键（K）、查询（Q）和值（V）矩阵的计算如下：
$K, Q, V = W_kX, W_qX, W_vX$
- 其中 $W_k$ 、 $W_q$ 、 $W_v$ 分别是用于键、查询和值投影的权重矩阵。
注意力权重的计算如下：
$\text{Softmax} \left( \frac{QK^T}{\sqrt{d_k}} \right)$
输出为：
$O = A V$
这要求在推理过程中存储完整的键值缓存，从而导致显著的内存开销。

低秩键值联合压缩

MLA的一项基础优化是将键值对压缩到一个更低维度的潜在空间，显著降低内存开销。具体如下：
- 压缩机制：
  - 键和值的表示在被投影回各自维度之前，先被压缩到一个共享的潜在空间。这通过两步变换实现：
    $c_{KV_i} = W_{D_{KV}}h_t$
    $k^C_t = W_{U_K}c_{KV_i}, \quad v^C_t = W_{U_V}c_{KV_i}$
  - 其中：
    - $c_{KV_i} \in \mathbb{R}^{d_c}$ 是压缩后的潜在表示。
    - $W_{D_{KV}} \in \mathbb{R}^{d_c\times d}$ 是一个下投影矩阵。
    - $W_{U_K}, W_{U_V} \in \mathbb{R}^{d_hn_h\times d_c}$ 分别是用于键和值的上投影矩阵。
- 内存缩减：
  - 对于每个令牌，无需存储完整尺寸的键和值，仅缓存 $c_{KV_i}$ 。
  - 内存占用的减少使得DeepSeek-R1能够以更低的计算成本处理更长的序列。

多阶段压缩

DeepSeek-R1通过引入一个额外的变换层来优化压缩机制，从而形成了一种多阶段压缩方法。具体如下：

额外的投影层：
- 为了进一步降低存储成本，引入了一个二次压缩层：
  $c'_{KV_i} = W_{DKV2}f(W_{DKV}h_t)$
- 其中：
  - $W_{DKV2} \in \mathbb{R}^{d'_c\times d_c}$ 是第二个下投影矩阵。
  - $f(\cdot)$ 是一个非线性激活函数，用于提升表示学习效果。
  - $d'_c < d_c$ ，这确保键值（KV）缓存的大小更小。
性能优势：
- 这个额外的步骤在为注意力机制保留足够信息的同时，进一步减少了键值存储量。
- 实验表明，与DeepSeek-V3相比，这使得内存占用减少了10%-15%。

查询压缩与优化

与键和值类似，查询也会被压缩，以便在训练过程中进行高效计算并减少激活内存的使用。具体如下：
- 查询变换：
  - 查询会经历类似于键和值的两步变换：
    $c_{Q_t} = W_{DQ}h_t$
    $q^C_t = W_{UQ}c_{Q_t}$
  - 其中：
    - $W_{DQ} \in \mathbb{R}^{d'_c\times d}$ 是用于查询的下投影矩阵。
    - $W_{UQ} \in \mathbb{R}^{d_hn_h\times d'_c}$ 将压缩后的查询表示映射回其原始维度。
- 多层查询优化：
  - DeepSeek-R1通过额外的自适应缩放层来优化查询投影。
  - 在微调过程中，使用强化学习（RL）动态调整变换矩阵 $W_{DQ}$ 和 $W_{UQ}$ 。

解耦旋转位置嵌入（RoPE）

为确保能够稳健地处理长文本内容，DeepSeek-R1以解耦的方式应用RoPE，将位置编码与潜在注意力机制分离。具体如下：

键和查询的独立位置编码：
$k_{R_t} = \text{RoPE}(W_{KR}h_t)$
$q_{R_t} = \text{RoPE}(W_{QR}c_{Q_t})$
- 其中：
  - $W_{KR} \in \mathbb{R}^{d_{rh}\times d}$ 用于生成键的位置嵌入。
  - $W_{QR} \in \mathbb{R}^{d_{rh}n_h\times d'_c}$ 用于生成查询的位置嵌入。
  - RoPE变换可确保在保持键值缓存紧凑的同时，保留相对位置信息。
DeepSeek-R1中RoPE的计算效率：
- RoPE的应用被延迟到查询 - 键交互的最后阶段，从而避免不必要的内存占用。
- 与DeepSeek-V2和V3相比，DeepSeek-R1的查询 - 键检索速度快25%。

多头潜在注意力（MLA）中的注意力计算

MLA中的最终注意力输出是通过在改进的注意力机制中整合压缩后的键、查询和值来计算的。具体如下：

改进的注意力分数：
- 注意力分数是使用压缩后的潜在键和显式位置编码来计算的：
  $A_{t,j,i} = \frac{q^T_{t,i}k_{j,i}}{\sqrt{d_h + d_R}}$
- 该公式可确保位置嵌入对注意力强度的贡献成比例。
加权值聚合：
- 注意力输出的计算方式如下：
  $o_{t,i} = \sum_{j = 1}^{t} \text{Softmax}_j(A_{t,j,i})v^C_{j,i}$
- Softmax操作会对序列中的注意力分数进行归一化处理。
最终输出投影：
- 最终输出通过以下方式获得：
  $u_t = W_O[o_{t,1}; o_{t,2}; \ldots ; o_{t,n_h}]$
- 其中：
  - $W_O$ 是输出投影矩阵，用于将连接后的注意力输出映射回完整的嵌入空间。

强化学习优化的多头潜在注意力（MLA）

DeepSeek-R1整合了强化学习（RL）技术，以进一步优化MLA的变换矩阵。具体内容如下：

基于强化学习的微调：
- 利用分组相对策略优化（GRPO），根据内存的高效使用和检索准确性对MLA进行奖励。
- 策略更新公式为：
  $J_{\text{GRPO}}(\theta) = \mathbb{E} \left[ \sum_{i = 1}^{G} \min \left( \frac{\pi_{\theta}(o_i|q)}{\pi_{\theta_{\text{old}}}(o_i|q)} A_i, \text{clip} \left( \frac{\pi_{\theta}(o_i|q)}{\pi_{\theta_{\text{old}}}(o_i|q)}, 1 - \epsilon, 1 + \epsilon \right) A_i \right) \right]$
- 其中：
  - $\pi_{\theta}$ 表示更新后的策略。
  - $A_i$ 是引导优化的优势函数。
- 更多详细信息可在“RL算法：分组相对策略优化（GRPO）”部分中找到。

计算和硬件优化

推理时的效率：
- DeepSeek-R1中的MLA通过张量并行计算来实现，优化了跨GPU的吞吐量。
- 通过低精度的键值（KV）存储（FP8格式），将内存开销降至最低。
跨节点通信优化：
- 使用优化后的全连接通信内核，以充分利用InfiniBand（IB）和NVLink的带宽。
- 将节点间的通信延迟降低30%，提升分布式推理性能。

效率对比分析

注意力机制	每个令牌的键值缓存	计算复杂度	性能影响
标准多头注意力（MHA）	$O(Nd_h)$	$O(N^2d_h)$	高精度，高成本
多头查询注意力（MQA）	$O(d_h)$	$O(Nd_h)$	内存占用低，性能下降
分组查询注意力（GQA）	$O(gd_h)$ （分组）	$O(Nd_h)$	性能平衡
MLA（DeepSeek-V2）	$O(d_L)$	$O(Nd_L)$	高效率，损失极小
MLA + 分层缓存（DeepSeek-R1）	$O(d_L)$ （可复用）	$O(Nd_L)$	效率峰值，性能保持

day15｜前端框架学习和算法 universe_01 前端算法笔记
T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
C++ 计数排序、归并排序、快速排序每天搬一点点砖 c++数据结构算法
计数排序：是一种基于哈希的排序算法。他的基本思想是通过统计每个元素的出现次数，然后根据统计结果将元素依次放入排序后的序列中。这种排序算法适用于范围较小的情况，例如整数范围在0到k之间计数排序步骤：1初始化一个长度为最大元素值加1的计数数组，所有元素初始化为02遍历原始数组，将每个元素值作为索引，在计数数组中对应位置加13将数组清空4遍历计数器数组，按照数组中的元素个数放回到元数组中计数排序的优点和
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
力扣面试题07 - 旋转矩阵茶猫_ leetcode 矩阵算法 c语言
题目：给你一幅由N×N矩阵表示的图像，其中每个像素的大小为4字节。请你设计一种算法，将图像旋转90度。不占用额外内存空间能否做到？示例1:给定matrix=[[1,2,3],[4,5,6],[7,8,9]],原地旋转输入矩阵，使其变为:[[7,4,1],[8,5,2],[9,6,3]]示例2:给定matrix=[[5,1,9,11],[2,4,8,10],[13,3,6,7],[15,14,12,
模拟退火(SA)：如何“故意走错路”，才能找到最优解？小瑞瑞acd 小瑞瑞学数模模拟退火算法 python 启发式算法算法
模拟退火(SA)：如何“故意走错路”，才能找到最优解？图示模拟退火算法如何通过接受较差解（橙色虚线标注）从局部最优（绿色点）逃逸，最终找到全局最优解（紫色点），展示其跳出局部极小值的能力。大家好，我是小瑞瑞！欢迎回到我的专栏！想象一下，你站在一座连绵不绝的山脉中，目标是找到海拔最低的那个山谷。你手上只有一个高度计，视野被浓雾笼罩，只能看清脚下的一小片区域。如果你是一个“贪心”的登山者，你的策略会非
编程算法：技术创新的引擎与业务增长的核心驱动力
在数字经济时代，算法已成为推动技术创新与业务增长的隐形引擎。从存内计算突破冯·诺依曼瓶颈，到动态规划优化万亿级金融交易，编程算法正在重塑产业竞争格局。一、存内计算：突破冯·诺依曼瓶颈的算法革命1.1存内计算的基本原理传统计算架构中90%的能耗消耗在数据搬运上。存内计算（Processing-in-Memory）通过直接在存储单元执行计算，实现能效10-100倍提升：#传统计算vs存内计算能耗模型i
图论算法经典题目解析：DFS、BFS与拓扑排序实战周童學数据结构与算法深度优先算法图论
图论算法经典题目解析：DFS、BFS与拓扑排序实战图论问题是算法面试中的高频考点，本博客将通过四道LeetCode经典题目（均来自"Top100Liked"题库），深入讲解图论的核心算法思想和实现技巧。涵盖DFS、BFS、拓扑排序和前缀树等知识点，每道题配有Java实现和易错点分析。1.岛屿数量(DFS遍历)问题描述给定一个由'1'(陆地)和'0'(水)组成的二维网格，计算岛屿的数量。岛屿由水平或
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
Deepseek技术深化：驱动大数据时代颠覆性变革的未来引擎荣华富贵8 spring boot 搜索引擎后端缓存 redis
在大数据时代，信息爆炸和数据驱动的决策逐渐重塑各行各业。作为一项前沿技术，Deepseek正在引领新一轮技术革新，颠覆传统数据处理与分析方式。本文将从理论原理、应用场景和前沿代码实践三个层面，深入剖析Deepseek技术如何为大数据时代提供颠覆性变革的解决方案。一、技术背景与核心思想1.1大数据挑战与机遇在数据量呈指数级增长的背景下，传统数据处理方法面临数据存储、计算效率和信息提取精度的诸多挑战。
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践 Liudef06小白特殊专栏人工智能 AIGC 架构人工智能 deepseek
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践DeepSeek大模型正重塑游戏开发范式，本文将深入解析如何利用这一革命性技术构建下一代大型游戏，涵盖从架构设计到项目管理的全流程实践。目录DeepSeek游戏引擎核心架构1.1神经符号系统融合架构1.2动态世界生成引擎智能NPC与剧情系统2.1角色人格建模技术2.2动态叙事生成算法大型项目管理体系3.1敏捷-AI混合开发流
量子计算解决气候变化：科学家找到了新方法大力出奇迹985 量子计算
气候变化已成为全球面临的严峻挑战，传统计算方法在应对与之相关的复杂问题时存在诸多局限。而量子计算作为新兴技术，为解决气候变化难题带来曙光。本文深入剖析科学家利用量子计算应对气候变化的新方法。量子计算凭借独特的量子比特与量子特性，在加速气候模型计算、优化模型参数、预测极端天气事件等方面展现出巨大优势。同时，在可再生能源整合、电网管理、碳捕获等实际应用场景中也发挥着重要作用。尽管目前面临硬件和算法等方
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
算法刷题-动态规划之背包问题
1.背包问题之01（4.30）题目描述小明有一个容量为VV的背包。这天他去商场购物，商场一共有NN件物品，第ii件物品的体积为wiwi，价值为vivi。小明想知道在购买的物品总体积不超过VV的情况下所能获得的最大价值为多少，请你帮他算算。输入描述输入第11行包含两个正整数N,VN,V，表示商场物品的数量和小明的背包容量。第2∼N+12∼N+1行包含22个正整数w,vw,v，表示物品的体积和价值。1
2018年中南大学中英翻译某翁
参考：20180827235856533.jpg【1】机器学习理论表明，机器学习算法能从有限个训练集样本上得到较好的泛化【1】Machinelearningtheoryshowsthatmachinelearningalgorithmcangeneralizewellfromfinitetrainingsetsampleslimited有限的infinite无限的【2】这似乎违背了一些基本的逻辑准
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
时序预测 | MATLAB实现贝叶斯优化CNN-GRU时间序列预测(股票价格预测) Matlab机器学习之心 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍股票价格预测一直是金融领域一个极具挑战性的课题。其内在的非线性、随机性和复杂性使得传统的预测方法难以取得令人满意的效果。近年来，深度学习技术，特别是卷积神经网络(CNN)和门控循环单元(GRU)的结合，为时
顺时针旋转N * N 的矩阵忆杰算法 Python 矩阵 python 算法
顺时针旋转题目描述数据范围实现逻辑代码实现题目描述有一个NxN整数矩阵，请编写一个算法，将矩阵顺时针旋转90度。给定一个NxN的矩阵，和矩阵的阶数N,请返回旋转后的NxN矩阵。数据范围0852789963'''#第N列逆序后变成第N行#或者是第i行变成第N-i-1列代码实现classSolution:#列转换为行defline2Row(self,mat,n):arr=[]forlineinrang
时序预测 | MATLAB实现BO-CNN-GRU贝叶斯优化卷积门控循环单元时间序列预测 Matlab算法改进和仿真定制工程师 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍时间序列预测在各个领域都具有重要的应用价值，例如金融市场预测、气象预报、交通流量预测等。准确地预测未来趋势对于决策制定至关重要。近年来，深度学习技术在时间序列预测领域取得了显著进展，其中卷积神经网络(CNN)和门控循环单元(GRU)由于其强
使用Python和Gradio构建实时数据可视化工具 PythonAI编程架构实战家信息可视化 python 开发语言 ai
使用Python和Gradio构建实时数据可视化工具关键词：Python、Gradio、数据可视化、实时数据、Web应用、交互式界面、数据科学摘要：本文将详细介绍如何使用Python和Gradio框架构建一个实时数据可视化工具。我们将从基础概念开始，逐步深入到核心算法实现，包括数据处理、可视化技术以及Gradio的交互式界面设计。通过实际项目案例，读者将学习如何创建一个功能完整、响应迅速的实时数据
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi

全面解析DeepSeek算法细节(3) —— Multi-head Latent Attention (MLA)

概述

关键特性

从 DeepSeek-V2 到 DeepSeek-R1 的演变

DeepSeek-V2 中的 MLA

低秩 Key-Value 联合压缩

解耦旋转位置嵌入

KV 缓存需求比较

DeepSeek-V3 中的增强

DeepSeek-R1 中的增强

MLA vs. MHA：对比分析

通过优化压缩技术进一步减少键值缓存（KV Cache）

优化的压缩公式

推理时的扩展

查询压缩以节省激活内存

查询压缩公式

解耦旋转位置嵌入（RoPE）

激活内存的减少

利用FP8混合精度增强数值稳定性

针对MLA组件的FP8训练

FP8注意力计算

精度对比

多头潜在注意力（MLA）中用于负载均衡的自适应路由

负载自适应路由机制

计算收益

DeepSeek-R1的改进

强化学习（RL）引导的潜在注意力优化

通过强化学习实现自适应查询和键压缩

带上下文特定缩放的解耦旋转位置嵌入

用于MLA稳定性的FP8混合精度

MLA精度策略对比

效率提升

用于负载均衡注意力的自适应/动态路由

对比分析

实现方式

背景：标准多头注意力（MHA）

低秩键值联合压缩

多阶段压缩

查询压缩与优化

解耦旋转位置嵌入（RoPE）

多头潜在注意力（MLA）中的注意力计算

强化学习优化的多头潜在注意力（MLA）

计算和硬件优化

效率对比分析

你可能感兴趣的:(算法,人工智能,自然语言处理,DeepSeek)