又要弯道超车了,DeepSeek复现狂潮:开源的力量与大模型的未来

DeepSeek的崛起

DeepSeek以其低成本、高性能的特点在全球范围内引发了复现狂潮。这一现象被看作是开源对闭源的一次胜利,可能对美国的AI霸权构成威胁。DeepSeek的成功不仅在于其技术上的突破,更在于其开源策略,使得全球的研究者和开发者都能够参与到这一技术的复现和改进中来。

关键项目:DeepSeek-R1与Open R1

DeepSeek-R1开源项目

DeepSeek-R1是DeepSeek的核心项目,其开源地址为:https://github.com/deepseek-ai/DeepSeek-R1。该项目提供了完整的训练数据和脚本,使得其他团队能够复现DeepSeek的模型。

HuggingFace的Open R1项目

HuggingFace团队宣布复刻DeepSeek R1的所有pipeline,并将所有训练数据和脚本开源。项目名为Open R1,目前星标已超过3.4k,获得255个fork。Open R1项目的地址为:https://github.com/huggingface/open-r1。

复现步骤

Open R1项目的复现步骤如下:

使用DeepSeek-R1蒸馏高质量语料库
复制R1-Distill模型
复制DeepSeek构建R1-Zero的纯强化学习pipeline
通过多阶段训练从基础模型过渡到RL版本

多阶段训练流程

DeepSeek-R1的训练过程中引入了一个多阶段训练流程,具体包括以下4个阶段:

冷启动
面向推理的强化学习
拒绝采样和监督微调
针对所有场景的强化学习
  • 冷启动:用数千个长思维链(CoT)样本对基础模型进行监督微调(SFT),为模型提供初始的推理能力。
  • 面向推理的强化学习:在SFT基础上,用大规模强化学习方法提升模型的推理能力,特别是编程、数学、科学和逻辑推理任务。
  • 拒绝采样和监督微调:再次使用监督微调,提升模型的非推理能力,如事实知识、对话能力等。
  • 针对所有场景的强化学习:让模型行为与人类偏好保持一致,提升模型的可用性和安全性。

伯克利团队的TinyZero项目

伯克利团队在CountDown游戏中复现了DeepSeek R1-Zero,成本不到30美金。该项目的地址为:https://github.com/Jiayi-Pan/TinyZero。

关键发现

  • 基础模型的参数规模是决定性能的关键
  • 额外的指令微调(SFT)并非必要,印证了R1-Zero的设计决策。
  • 具体的RL算法并不重要,PPO、GRPO、PRIME等算法都能实现长思维链(Long CoT)的涌现。

港科大团队的SimpleRL项目

港科大团队仅用8K样本在7B模型上复刻了DeepSeek-R1-Zero和DeepSeek-R1,模型在复杂数学推理上取得了强劲结果。该项目的地址为:https://github.com/hkust-nlp/simpleRL-reason。

关键发现

  • 模型在AIME基准上实现了33.3%的准确率,在AMC上为62.5%,在MATH上为77.2%,超越了Qwen2.5-Math-7B-Instruct。
  • 使用PPO算法和基于规则的奖励函数,模型在训练过程中自发形成了长链式思考(CoT)和自我反思机制。

DeepSeek的广泛应用

高校和研究机构

从斯坦福到MIT,DeepSeek R1已成为研究人员的首选模型。这表明DeepSeek的技术不仅在工业界引起了关注,也在学术界得到了广泛的认可。

下载量

在Hugging Face中,R1下载量登顶,其他3个模型也霸占热榜。这进一步证明了DeepSeek的受欢迎程度和其在AI社区中的影响力。

应用市场

DeepSeek应用在APP Store「效率」应用榜单中挤进前三。这表明DeepSeek不仅在技术上取得了突破,也在实际应用中得到了用户的认可。

结论

DeepSeek的复现狂潮不仅展示了开源的力量,也预示着大模型时代可能进入一个分水岭。超强性能的模型将不再独属于算力巨头,而是属于每个人。中国AI在这次浪潮中表现突出,引起了全球的关注和讨论。未来,随着更多团队的加入和改进,DeepSeek的技术有望在更多领域得到应用和推广。

你可能感兴趣的:(开源,人工智能,ai,Deepseek)