NLP高频面试题(二十一)——deepseek V1-V3 分别有哪些改进,这些改进是如何对模型产生影响的

DeepSeek 从 V1 到 V3 不断迭代升级,在模型架构、训练方法和推理能力等方面取得了显著进步。对于关注前沿大模型技术的研究者而言,深入理解 DeepSeek 各版本的改进要点及其对模型性能的影响,具有重要的参考价值。本文将按照时间线梳理 DeepSeek V1、V2、V3 的核心技术演变,包括架构调整(如混合专家 MoE、注意力机制优化)、训练数据规模变化、训练目标改进、推理效率优化(如并行化、KV 缓存优化)、对齐策略(如人类反馈强化学习 RLHF、指令微调)、多模态能力等方面,并分析这些改进如何提升模型在各项基准测试中的表现。

DeepSeek V1:基础架构与初步探索

  • 模型架构:采用基于 LLaMA2 的密集 Transformer 架构(Pre-Norm、RMSNorm、SwiGLU 激活、旋转位置编码等),但进行了调整以提升规模和效率。例如,将 67B 模型的网络深度增加到 95 层,并引入 GQA(Grouped Query Attention)技术以降低注意力计算的开销。
  • 预训练数据:使用约 2 万亿字符的大规模中英双语语料进行预训练,远超 LLaMA 系列的数据规模。通过引入更多中文内容和高质量代码、数学数据来强化模型在这些原本薄弱领域的能力。
  • 超参数策略:采用了更优的训练超参数设置,例如以 0.006 的标准差初始化权重,使用 AdamW 优化器(β1=0.9,β2=0.95,权重衰减 0.1),并用多步学习率调度替换原本常用的余弦调度。尽管更换调度策略导致训练损失曲线有所不同,但最终性能相当,并且多步调度更便于持续训练长周期模型。
  • 训练基础设施:在模型并行和内存优化方面下功夫。使用 HAI-LLM 高效训练框架,结合数据并行、张量并行、序列并行和 1F1B 流水线并行等手段提升计算效率;利用 Flash Attention 提升显存利用率,并通过 ZeRO-1 优化器状态分区和层融合等工程技巧加速训练。整个预训练以 bfloat16 精度进行、累积梯度以 fp32 精度计算,从而保证了训练稳定性。
  • 对齐与微调:在基础模型训练后,引入监督微调(SFT)和偏好优化(DPO, Direct Preference Optimization)进行对齐优化 。DPO 是一种无需训练价值模型的高效对齐方法,可直接根据人类偏好反馈优化模型,比传统的强化学习对齐更稳健。通过这些步骤,V1 模型被调教得更善于跟随指令和产生符合人类期望的回答。
  • 性能表现:得益于上述改进,DeepSeek LLM 67B 在各项基准测试中全面超过同期的 LLaMA-2 70B 模型,尤其在代码生成、数学推理和逻辑推理方面表现突出。在开放式问答评测中,DeepSeek 67B Chat(指令微调版本)的表现也优于 GPT-3.5 ,证明了小幅度的架构优化和数据增强即可带来显著性能提升。

DeepSeek V2:引入混合专家与高效推理

DeepSeek V2 于 2024 年5月7日发布,是对 V1 的大幅升级版本,参数规模达到 236B,但通过混合专家 (MoE) 实现了仅激活 21B 参数参与每个 token 计算,从而保持了计算成本可控。V2 主要在以下方面引入了创新:

  • Mixture-of-Experts (MoE) 架构:将模型从稠密架构扩展为稀疏专家架构。V2 的每层包含 160 个专家和 2 个共享专家 。每个输入 token 动态路由到其中一小部分专家(激活约21B参数)进行计算,避免了密集模型中所有参数同时激活的低效。相较密集模型,切换到 MoE 大幅减少了冗余计算,提高了计算利用率。这使得 V2 虽参数总量翻倍数倍,但训练和推理成本仅略有增加,实现了规模扩展与计算成本的平衡
  • 多头潜在注意力 (MLA):V2 在注意力机制上提出了创新的 MLA。MLA 对多头注意力的 Key-Value 进行低秩联合压缩,从而显著缩减了推理时的 KV 缓存大小。这不仅缓解了长序列推理时的内存瓶颈,也带来了推理速度的提升。在保持或提高注意力效果的同时,MLA 大幅降低显存开销
  • 长上下文支持:得益于 MLA 和架构优化,DeepSeek V2 将上下文长度扩展到了 128K token。团队基于 YaRN 方法实现了长上下文扩展,使模型能够处理超长文档和多轮对话而不丢失信息。这远远超过了 V1(4K 上下文)的长度,对应的长文本理解评测中,V2 也展现出卓越能力。
  • 训练策略增强:预训练语料扩展到 8.1 万亿 token,涵盖更丰富的多语言数据。同时在训练过程中引入了辅助损失(如专家负载均衡损失等)和Token-Dropping 策略,提高 MoE 训练稳定性和效率。V2 采用了多阶段训练流程:首先完整语料预训练基础模型,其次收集了包含数学、代码、写作、推理、安全等领域的 150 万条对话数据,对模型进行监督微调(得到 DeepSeek-V2 Chat),最后还使用人类反馈的强化学习(RLHF)进一步微调了聊天模型。通过这套流程,模型在保持通用能力的同时,加强了在复杂任务和对话场景下的表现。
  • 效率与成本:尽管相较 V1 模型参数增加了 3.5 倍、训练数据增加了 4 倍,DeepSeek V2 的预训练算力成本仅增加到约 276 万美元(V1 约为 120 万美元)。这在很大程度上归功于 MoE 架构带来的训练效率提升。此外,推理效率的改进更加明显:官方指出 V2 的最大生成吞吐量相比 V1 提升了 5.76 倍。这意味着在相同硬件上,V2 每秒可生成的 tokens 数量远超 V1,实现了接近实时的响应速度。低廉的推理成本甚至使团队敢于打出“GPT-4 性能,价格仅为其百分之一”的口号。

能力提升:DeepSeek V2 凭借上述技术革新,在各类任务上相对 V1 有了显著飞跃:

  • 在知识问答基准上,V2 67B(21B 激活)的5-shot MMLU准确率达到约 78.5%,比 V1 显著提升,超越同期大多数开源模型 。有研究指出,DeepSeek-V2 在 MMLU 上已超过同样采用 MoE 架构的 Mixtral 8×22B 模型,在代码和数学基准上也与之性能相当。
  • 中文理解能力方面得到了加强。V2 在中文综合测试集如 C-Eval、CMMLU 上分别达到约 81.7%84.0% 的准确率(远高于 LLaMA 系列模型在中文上的表现),填补了 V1 在多语言语境下的不足。
  • 在数学和代码任务上,V2 也有长足进步。比如在代码生成 HumanEval 基准的 0-shot 场景下,V2 的 pass@1 正确率较 V1 提升约 8 个百分点(从 ~45% 提高到 ~53%,接近 GPT-3.5 水平)。在数学问题基准 GSM8K 上,引入监督微调后的 V2-Chat 相比基础模型有大幅度跃升。这些提升归功于 SFT 阶段纳入了专门的代码和数学数据,使模型具备了更强的编程和算术推理能力。
  • 整体而言,DeepSeek V2 展现出**“以小搏大”**的效率优势:通过创新架构和优化训练,在仅增加有限成本的情况下,实现了性能超越。它不仅巩固了 V1 超越 LLaMA-2 的成果,还在许多基准上逼近甚至赶上更大规模的闭源模型,为开源社区树立了新的标杆。

DeepSeek V3:规模扩张与全面提升

2024 年 12 月 26 日,DeepSeek V3 问世。作为 DeepSeek 系列的第三代,V3 在延续 V2 架构优势的基础上进一步大幅扩展模型容量优化推理效率,成功跻身全球最先进模型行列。其主要改进包括:

  • 更多专家,更优路由:V3 将 MoE 专家数从 V2 的 160 增加到 256 个,仅保留 1 个共享专家。模型总参数量飙升至 671B,激活参数约 37B。如此大规模的 MoE 带来了新的挑战:如何在不引入额外损失函数的情况下保持专家负载均衡。V3 创新地采用了无辅助损失的负载均衡策略,通过改进路由算法确保不同专家得到充分训练和利用,而无需像 V2 那样依赖额外的均衡损失。这简化了训练过程,并避免了辅助损失可能带来的目标冲突。
  • FP8 混合精度训练:为了控制如此庞大模型的训练成本,DeepSeek V3 引入了 FP8 (8-bit Floating Point) 混合精度训练框架。得益于新一代 GPU (如 NVIDIA H100) 对 FP8 运算的支持,V3 能以更低的数值精度进行矩阵乘法等运算,同时在关键步骤保留较高精度以确保收敛效果。这种策略大幅降低了显存占用和通信开销,在几乎不损失模型性能的情况下提升了训练速度。据论文报道,这是业界首次在如此大规模模型上验证 FP8 训练的可行性。
  • 多 Token 并行生成:V3 在推理阶段采用了多 Token 预测的新技术。也就是说,模型每一次前向传播不再只输出一个下文 token,而是可以并行地预测多个 token。这种并行解码策略极大加快了文本生成速度。在实际应用中,V3 模型的生成吞吐从 V2.5 的 20 Token/s 提升到了 60 Token/s,实现了约 3 倍的速度飞跃。对于终端用户来说,这意味着调用 V3 API 时能明显感觉到响应更加流畅迅捷。
  • 高效分布式训练:针对超大规模的 FP8 MoE 模型,V3 构建了更高效的分布式通信和并行方案 。例如,在专家并行、模型并行的基础上进一步优化通信,最大程度降低不同 GPU 之间的数据交换开销。正因如此,尽管模型规模空前庞大,V3 的单次完整训练成本控制在约 557.6 万美元 。相对于参数翻倍的增长,这样的成本增加是相对温和的,体现出工程上的优异效率。
  • 训练数据与策略:DeepSeek V3 使用了约 14.8 万亿 token 的多语言语料进行预训练。数据规模虽较 V2 增加不到一倍,但更加多样和高质,包括了更复杂的编程题、数学题和知识问答数据,以发掘模型的推理潜力。此外,团队在 V3 中巧妙地引入了知识蒸馏来提升模型推理能力。具体来说,利用已经训练好的强化学习对齐模型(如后续推出的 DeepSeek-R1)产生的高质量推理链数据,对 V3 基础模型进行蒸馏式训练,从而赋予 V3 一定的复杂推理和自我反思能力。这种蒸馏策略提高了模型在复杂推理任务上的表现,而无需改变模型结构或增加参数。
  • 对齐与多模态:V3 的模型对齐依然采用多阶段的指令微调策略,即先通过有监督微调结合大量指令数据得到 V3-Chat,然后可能结合少量人类反馈调优(相较 R1 的强化学习,对齐强度较弱)。需要说明的是,截至 V3,DeepSeek 系列仍是纯文本的单模态模型,暂不支持图像输入输出 。官方明确表示 V3 首版侧重于语言能力提升,多模态能力将在未来版本考虑。

性能提升:DeepSeek V3 发布后,在各大标准测试集上取得了突破性成绩,充分证明了上述改进的价值:

  • 知识与推理:在综合知识问答基准上,V3 的表现几乎追平了顶级闭源模型。V3 在 MMLU 基准测试中取得 88.5% 的准确率(比 V2 提高约10个百分点),接近甚至略超部分 GPT-4 水平的模型(如 GPT-4o 得分约 87.2。同样地,在 MMLU-Pro 和 GPQA 等高难度知识测评中,V3 分别达到 75.959.1 的成绩,显著领先此前的开源模型。这一系列提升使得开源模型与闭源顶尖模型之间的差距大幅缩小,证明通过更优的训练策略,开源模型也能达到原先仅有闭源模型才能企及的知识水准。
  • 复杂推理与长文本:得益于长上下文和蒸馏增强,V3 在需要复杂推理的任务上表现出色。在开放式指令跟随评测 AlpacaEval 2.0 中,V3 的综合得分不仅超越所有开源模型,还压过了一些闭源模型。与上一代开源模型 DeepSeek-V2.5-0905 相比,V3 的得分提高了 20% 之多。这表明 V3 在处理长段落写作、复杂问答时有了质的飞跃。此外,在长文理解任务上,V3 也刷新了记录。例如长文本理解基准 LongBench v2 上,DeepSeek-V3 的平均准确率达到 48.7%,显著超越其他开源模型(LLaMA3.1 约 36.1%,Claude-3.5 约 41%)并接近 GPT-4o(48.1%)。这证明 V3 能更有效地利用超长上下文,在复杂推理和长文场景中具备涌现出更强推理能力的趋势。
  • 代码能力:V3 在编程基准上取得了令人瞩目的进步。在经典的 HumanEval 编程题测试中,V3 模型的单次通过率显著高于 V2。同样地,在难度更高的竞赛编程评测(如 Codeforces 和 LiveCodeBench)中,DeepSeek-V3 大幅领先于所有开源对手 。例如,V3 在 Codeforces 问题上的排名处于选手的 51.6 百分位,而此前最好的开源模型仅约 25% 左右。即使与闭源的 Claude-3.5 相比,V3 在软件工程代码任务(如 SWE-Bench)上的得分也非常接近(Claude-3.5 为 50.8,V3 为 42),远超其他模型 。总体来看,V3 凭借更大的模型容量和指令微调数据,极大提升了代码生成和代码理解能力,在代码领域实现了从追赶到部分超越。
  • 数学推理:数学一直是语言模型的一大挑战,而 DeepSeek-V3 在这一领域取得了前所未有的成绩。在美国数学竞赛 AIME 2024、MATH-500 和中国高中数学联赛 CNMO 2024 等高难度测试中,V3 的表现全面超越包括GPT-4在内的所有模型 。值得注意的是,官方报告指出 V3 在 MATH-500 测试集上的表现甚至优于 OpenAI 的 GPT-4o 模型。这种优势是在 V3 并未特别采用链式思维(CoT)强化的情况下取得的,凸显了大规模预训练和蒸馏对数学问题隐含推理能力的挖掘。对于常见的数学问答基准 GSM8K,V3 也比前代有明显提升——随着对齐和数据增广,模型学会了更可靠的逐步推理方法,解题准确率稳步上升。
  • 中文能力:作为一开始就重视双语训练的模型,DeepSeek 系列在中文理解上持续领跑。V3 进一步扩大了中文数据比例,对中文任务的掌握炉火纯青。在中文专业考试基准 C-Eval 上,DeepSeek-V3 达到 86.5% 的成绩,与体量更小的 Qwen-72B 不相上下,明显优于早期版本模型。在中文百科问答 C-SimpleQA 上,V3 更是以 64.1% 的准确率领先所有比较模型,包括Claude和GPT-4衍生模型(后两者在50%左右)。这些结果表明,V3 在中文知识和语言理解方面拥有特殊优势,充分验证了海量双语预训练和本土数据的价值。

综合来看,DeepSeek V3 的技术升级使其无论在训练效率还是下游性能上都达到了开源领域的新高峰。基础模型的能力已超越其他一众开源大模型,而其指令微调的聊天版本在很多任务上与当时最先进的闭源模型不分伯仲。通过 V3,DeepSeek 系列成功实现了从开源新秀向业界顶尖的跨越。

V1, V2, V3 参数与特性对比

为了方便比较,我们将 DeepSeek V1 到 V3 的核心参数和技术特性汇总如下:

版本 发布时间 参数量 预训练数据规模 架构与技术特点 预训练成本
DeepSeek V1 2024 年 1 月 5 日 67B(密集) ~2 万亿字符,中英双语 基于 LLaMA2 架构(95 层,Pre-Norm);引入 GQA 降低注意力开销;上下文长度 4K;SFT + DPO 对齐 ~$1.2M(估算)
DeepSeek V2 2024 年 5 月 7 日 236B(MoE,总参数;激活 21B) ~8.1 万亿 tokens,多语种 MoE 稀疏架构(每层 160 专家 + 2 共享) ;提出 MLA 注意力机制;上下文长度 128K;SFT + RLHF 对齐 ~$2.76M
DeepSeek V3 2024 年 12 月 26 日 671B(MoE,总参数;激活 37B) ~14.8 万亿 tokens,多语种 MoE 架构升级(每层 256 专家 + 1 共享);无辅助损失的均衡路由;多 token 并行解码;上下文长度 128K;知识蒸馏增强推理;SFT 对齐 ~$5.58M

版本发布演进时间线

  • 2024年1月5日:发布 DeepSeek LLM (V1)。67B 密集模型,着重在可控算力下验证大模型的Scaling Laws,使用 2 万亿字符双语数据预训练,并通过 SFT 和 DPO 进行对齐优化,最终在代码、数学、推理等能力上超越同期开源最强的 LLaMA-2 70B 。V1 Chat 模型在开放问答中的表现已优于 GPT-3.5 。
  • 2024年5月7日:发布 DeepSeek V2 。引入混合专家(MoE)架构和多头潜在注意力(MLA),参数扩展至236B但激活仅21B,预训练语料增至8.1万亿 token,多语言覆盖更广。支持超长128K上下文并推出了 16B 的 V2-Lite 版本供社区使用。V2 在多个基准上取得当时开源模型的最佳成绩,官方称其具有“GPT-4 等级性能,成本仅为百分之一” 。
  • 2024年12月26日:发布 DeepSeek V3。在 V2 基础上进一步扩展(总参671B、激活37B),引入 FP8 混合精度训练和多 token 并行解码等新技术,实现了性能的全面飞跃。V3 预训练成本约 $5.58M,与参数增长相比增幅有限但性能远胜此前模型。V3 模型开源后,其基础模型超越了所有开源同行,聊天模型的表现已可与当时最先进的闭源模型相媲美 。
  • 2025年1月:发布 DeepSeek R1 系列(包括 R1-Zero 和完整版 R1)。R1 在 V3 基础上通过大规模强化学习对齐和多阶段训练,着重激发模型的链式推理能力,成为 DeepSeek 系列的里程碑:R1-Zero 在无需监督微调数据的情况下达到接近 GPT-4 等级的推理水平,R1 则进一步在数学、代码等任务上逼近 OpenAI 的 o1 模型(GPT-4 全量版)。R1 的发布标志着 DeepSeek 从通用模型迈向强推理智能的新阶段。

结语

从 DeepSeek V1 到 V3,短短一年时间内,这一开源模型系列在架构设计、训练规模和能力表现上实现了跨越式发展。V1 时期,研究团队以较低的算力成本奠定了模型基础,通过增加深度、优化超参数和加入更多中文及代码数据,使模型性能超越了同规模的主流开源模型 。V2 版本大胆引入 MoE 稀疏架构和 MLA 注意力机制,将模型规模提升数倍的同时显著降低了训练和推理的单位成本;由此带来的性能提升,使开源模型首次逼近了闭源模型的水准。在最新的 V3 中,进一步的创新(如无辅助损失路由、FP8 训练、多 token 解码等)又将模型推向了新的高度——不仅综合表现全面赶超现有开源模型冠军,在诸多任务上甚至与 GPT-4 等专有模型不分高下。

DeepSeek 系列的成功有赖于技术和工程上的双轮驱动。一方面,不断改进的架构(从 Dense 到 MoE)、优化的训练目标(从 SFT/DPO 到蒸馏/RLHF)以及更大更优的数据,使模型能力水涨船高;另一方面,对计算效率的不懈追求(如混合精度、并行算法优化)确保了这些改进能在现实算力下落地,而不只是纸上谈兵 。这为业界提供了宝贵经验:即便在算力受限的条件下,依然可以通过聪明的架构设计和训练策略,实现大模型性能的持续突破。

总的来说,DeepSeek 从 V1 到 V3 的演进轨迹展示了开源 AI 的巨大潜力。开源社区通过快速的迭代创新,已经能够在一年内打造出媲美闭源巨头的模型。在未来,我们有理由相信,随着多模态融合、强化学习对齐等技术进一步发展,DeepSeek 系列还将带来更多令人惊喜的突破,为 AI 研究和应用注入新的活力,也为开源生态在与闭源竞争中赢得一席之地提供坚实的技术支撑 。

你可能感兴趣的:(NLP常见面试题,自然语言处理,人工智能,deepseek)