[论文笔记] Deepseek技术报告

1. 总体概述

  • 背景与目标

    • 报告聚焦于利用强化学习(RL)提升大型语言模型(LLMs)的推理能力,旨在探索在不依赖大规模监督微调(SFT)的情况下,模型如何自我进化并形成强大的推理能力。
    • 介绍了两代模型:DeepSeek-R1-Zero(纯 RL,无 SFT 冷启动数据)和 DeepSeek-R1(在 RL 前加入少量冷启动数据和多阶段训练流程,提升可读性及推理表现)。
  • 核心思路

    • 直接在基础模型上应用大规模强化学习,利用规则设计的奖励机制(包括准确性奖励和格式奖励)激励生成长链思维(CoT)。
    • 通过拒绝采样和后续的监督微调,进一步改善模型输出的可读性和对齐人类偏好。
    • 利用蒸馏技术,将大模型中学到的推理模式迁移到较小的密集模型中,提升小模型在推理任务上的表现。

2. 主要贡献

  • 纯 RL 训练推理能力

    • DeepSeek-R1-Zero

你可能感兴趣的:(论文笔记,论文阅读,人工智能)