【知识点】大模型面试题汇总(持续更新)

1. Scaled Dot-Product Attention中的缩放因子(√d)作用

问题:为什么计算QK内积后要除以√d?

答案:
• 核心原因:防止点积结果过大导致softmax进入饱和区(梯度消失)。

• 数学解释:假设Q、K的每个维度是独立零均值、方差为1的随机变量,点积结果的方差为d。缩放后方差恢复为1,稳定梯度。

• 替代方案:初始化时缩小参数方差(如除以√d),但动态缩放更鲁棒。


2. Q/K使用不同权重矩阵的原因

问题:为什么Q和K需要不同的投影矩阵?

答案:

  1. 表达能力:相同矩阵会导致QKᵀ对称,限制模型捕捉非对称关系(如因果性)。
  2. 对角主导:对称矩阵易使注意力过度关注自身位置(对角线值偏大)。
  3. 参数效率:独立投影增加可学习参数,提升模型容量。

3. FFN先升维再降维的设计,FFN的结构是怎么样的?

问题&

你可能感兴趣的:(深度学习机器学习,大模型,深度学习,面试题)