预训练(Pretraining)
↓
指令微调 SFT(Supervised Fine-tuning)
↓
偏好数据准备(人类偏好标注或对比)
↓
┌─────────────┬─────────────┐
↓ ↓
奖励模型 RM 直接偏好优化(DPO / SimPO)
↓ ↓
PPO 强化训练 或完成优化训练(完成)
阶段 | 必选性 | 说明 |
---|---|---|
预训练 | ✅ 必要(已完成) | 模型基础语言能力来自这里 |
SFT(指令微调) | ✅ 强烈建议 | 让模型能听懂指令,做任务 |
RM(奖励模型) | ❌ 可选 | 给 PPO 提供 reward,用于偏好强化 |
PPO | ❌ 可选 | 强化训练,调优输出风格,但训练难度高 |
DPO / SimPO / ORPO | ✅ 建议(替代 PPO) | 不依赖 reward,更稳定、更轻量 |
SFT 是微调的“第一步”,DPO / SimPO 是第二步的“进阶优化”,可以只做 SFT 也能上线,但想要更强的模型偏好控制、效果提升,就得进一步用 DPO 或 PPO。