【大模型】【DeepSeek】DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-R1:通过强化学习激励大语言模型的推理能力
【大模型】【DeepSeek】DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning_第1张图片

0.论文摘要

我们推出了第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是一个通过大规模强化学习(RL)训练而成的模型,没有经过监督微调(SFT)作为初步步骤,展现了卓越的推理能力。通过RL,DeepSeek-R1-Zero自然涌现出许多强大且有趣的推理行为。然而,它也面临诸如可读性差和语言混杂等挑战。为了解决这些问题并进一步提升推理性能,我们推出了DeepSeek-R1,它在RL之前引入了多阶段训练和冷启动数据。DeepSeek-R1在推理任务上的表现与OpenAI-o1-1217相当。为了支持研究社区,我们开源了DeepSeek-R1-Zero、DeepSeek-R1以及基于Qwen和Llama从DeepSeek-R1蒸馏出的六个密集模型(1.5B、7B、8B、14B、32B、70B)。

1.引言

近年来,大型语言模型(LLMs)正在经历快速的迭代和演进(Anthropic, 2024;Google, 2024;OpenAI, 2024a),逐步缩小与人工通用智能(AGI)之间的差距。

最近,后训练已成为完整训练流程中的重要组成部分。研究表明,它能够提升推理任务的准确性,与社会价值观保持一致,并适应用户偏好,同时相对于预训练所需的计算资源相对较少。在推理能力方面,OpenAI的o1系列模型(OpenAI, 2024b)首次通过增加Chain-of-Thought推理过程的长度引入了推理时扩展。这种方法在数学、编程和科学推理等各种任务中取得了显著改进。然而,有效的测试时扩展仍然是研究界面临的一个开放性问题。此前的一些研究探索了多种方法,包括基于过程的奖励模型(Lightman等,2023;Uesato等,2022;Wang等,2023)、强化学习(Kumar等,2024)以及蒙特卡洛树搜索和束搜索等搜索算法(Feng等,2024;Trinh等,2024;Xin等,2024)。然而,这些方法均未达到与OpenAI的o1系列模型相媲美的通用推理性能。

在本文中,我们迈出了利用纯强化学习(RL)提升语言模型推理能力的第一步。我们的目标是探索大型语言模型(LLMs)在没有任何监督数据的情况下发展推理能力的潜力,重点关注它们通过纯RL过程的自我进化。具体而言,我们使用DeepSeek-V3-Base作为基础模型,并采用GRPO(Shao等,2024)作为RL框架,以提升模型在推理任务中的表现。在训练过程中,DeepSeek-R1-Zero自然涌现出许多强大且有趣的推理行为。经过数千步RL训练后,DeepSeek-R1-Zero在推理基准测试中表现出卓越的性能。例如,在AIME 2024上的pass@1得分从15.6%提升至71.0%,而通过多数投票,得分进一步提高至86.7%,与OpenAI-o1-0912的表现相当。

然而,DeepSeek-R1-Zero面临诸如可读性差和语言混杂等挑战。为了解决这些问题并进一步提升推理性能,我们引入了DeepSeek-R1,它结合了少量冷启动数据和多阶段训练流程。具体来说,我们首先收集了数千条冷启动数据,用于微调DeepSeek-V3-Base模型。随后,我们进行类似DeepSeek-R1Zero的推理导向强化学习(RL)。在RL过程接近收敛时,我们通过对RL检查点进行拒绝采样,结合来自DeepSeek-V3在写作、事实问答和自我认知等领域的监督数据,生成新的SFT数据,然后重新训练DeepSeek-V3-Base模型。在使用新数据微调后,检查点会经历额外的RL过程,考虑所有场景的提示。经过这些步骤,我们获得了称为DeepSeek-R1的检查点,其性能与OpenAI-o1-1217相当。

我们进一步探索了从DeepSeek-R1到更小规模稠密模型的蒸馏过程。以Qwen2.5-32B(Qwen, 2024b)为基础模型,直接从DeepSeek-R1进行蒸馏的效果优于在其上应用强化学习。这表明,更大规模基础模型所发现的推理模式对于提升推理能力至关重要。我们开源了蒸馏后的Qwen和Llama(Dubey等, 2024)系列模型。值得注意的是,我们蒸馏的14B模型大幅超越了当前最先进的开源模型QwQ-32B-Preview(Qwen, 2024a),而蒸馏的32B和70B模型则在稠密模型的推理基准测试中创下了新纪录。

1.1 贡献

后训练:基于大模型的强化学习

• 我们直接将强化学习(RL)应用于基础模型,而不依赖于监督微调(SFT)作为初步步骤。这种方法使模型能够探索链式思维(CoT)以解决复杂问题,从而开发出DeepSeek-R1-Zero。DeepSeek-R1-Zero展示了自我验证、反思和生成长链式思维等能力,标志着研究领域的一个重要里程碑。值得注意的是,这是首次通过纯强化学习验证大语言模型(LLM)推理能力的研究,无需依赖监督微调。这一突破为该领域的未来发展铺平了道路。

• 我们介绍了开发DeepSeek-R1的流程。该流程包含两个强化学习阶段,旨在发现改进的推理模式并与人类偏好对齐,以及两个监督微调阶段,作为模型推理和非推理能力的种子。我们相信,这一流程将通过创建更好的模型为行业带来益处。

蒸馏:小模型也能强大

• 我们展示了将大模型的推理模式提炼到小模型中,相比通过强化学习在小模型上发现的推理模式,能够带来更好的性能。开源的DeepSeek-R1及其API将为研究社区在未来提炼更好的小模型提供帮助。

• 利用DeepSeek-R1生成的推理数据,我们对研究社区中广泛使用的多个密集模型进行了微调。评估结果表明,提炼后的小型密集模型在基准测试中表现优异。DeepSeekR1-Distill-Qwen-7B在AIME 2024上达到了55.5%,超越了QwQ-32B-Preview。此外,DeepSeek-R1-Distill-Qwen-32B在AIME 2024上获得了72.6%的分数,在MATH-500上获得了94.3%,在LiveCodeBench上获得了57.2%。这些结果显著超越了之前的开源模型,并与o1-mini相当。我们向社区开源了基于Qwen2.5和Llama3系列的1.5B、7B、8B、14B、32B和70B的提炼模型检查点。

1.2. 评估结果摘要

• 推理任务:(1) DeepSeek-R1 在 AIME 2024 上取得了 79.8% 的 Pass@1 分数,略微超过 OpenAI-o1-1217。在 MATH-500 上,它获得了 97.3% 的优异成绩,与 OpenAI-o1-1217 表现相当,并显著优于其他模型。(2) 在编码相关任务中,DeepSeek-R1 在代码竞赛任务中展现了专家水平,其在 Codeforces 上获得了 2,029 的 Elo 评分,超过了 96.3% 的人类参赛者。在工程相关任务中,DeepSeek-R1 的表现略优于 DeepSeek-V3,这有助于开发者在实际任务中取得更好的效果。

• 知识:在 MMLU、MMLU-Pro 和 GPQA Diamond 等基准测试中,DeepSeek-R1 取得了出色的成绩,显著优于 DeepSeek-V3,分别在 MMLU 上获得 90.8%、在 MMLU-Pro 上获得 84.0%、在 GPQA Diamond 上获得 71.5% 的分数。虽然在这些基准测试中其表现略低于 OpenAI-o1-1217,但 DeepSeek-R1 超越了其他闭源模型,展示了其在教育任务中的竞争优势。在事实基准测试 SimpleQA 上,DeepSeek-R1 优于 DeepSeek-V3,展示了其处理基于事实查询的能力。类似趋势也出现在 OpenAI-o1 在该基准测试中超越 4o 的情况。

• 其他:DeepSeek-R1 在广泛的任务中也表现出色,包括创意写作、通用问答、编辑、摘要等。它在 AlpacaEval 2.0 上获得了 87.6% 的长度控制胜率,在 ArenaHard 上获得了 92.3% 的胜率,展示了其在智能处理非考试导向查询方面的强大能力。此外,DeepSeek-R1 在需要长上下文理解的任务中表现优异,在长上下文基准测试中大幅超越 DeepSeek-V3。

【大模型】【DeepSeek】DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning_第2张图片

2.方法

2.1 概述

先前的研究在很大程度上依赖于大量的监督数据来提升模型性能。在本研究中,我们证明,即使不使用监督微调(SFT)作为冷启动,通过大规模强化学习(RL)也可以显著提升推理能力。此外,加入少量冷启动数据可以进一步提升性能。在接下来的章节中,我们将介绍:(1)DeepSeek-R1-Zero,它直接将RL应用于基础模型,不使用任何SFT数据;(2)DeepSeek-R1,它从经过数千个长链思维(CoT)示例微调的检查点开始应用RL;(3)将DeepSeek-R1的推理能力蒸馏到小型密集模型中。

2.2 DeepSeek-R1-Zero:基于基础模型的强化学习

强化学习在推理任务中展现了显著的有效性,正如我们之前的工作所证明的(Shao等,2024;Wang等,2023)。然而,这些工作严重依赖于监督数据,而收集这些数据非常耗时。在本节中,我们探索了大型语言模型(LLMs)在没有监督数据的情况下发展推理能力的潜力,重点关注其通过纯强化学习过程的自我进化。我们首先简要概述了我们的强化学习算法,随后展示了一些令人兴奋的结果,并希望这能为社区提供有价值的见解。

2.2.1. 强化学习算法

组相对策略优化

为了节省强化学习的训练成本,我们采用了组相对策略优化(GRPO)(Shao等,2024),该方法摒弃了通常与策略模型大小相同的评论家模型,转而从组得分中估计基线。具体来说,对于每个问题q,GRPO从旧策略 π θ o l d π_{θ_{old}} π

你可能感兴趣的:(LLM大模型,人工智能,语言模型)