理解大模型论文中的名词部分

对 DeepSeek、Qwen模型技术报告中的名词部分进行介绍

1. 预训练

•	目标:从海量无标注文本中学语言能力(通常一次性训练大模型)
•	特点:训练耗时、成本高,但是基础中的基础
•	是否自己做:一般使用开源预训练模型,无需重复训练

2. 指令监督微调(SFT)

•	目标:让模型学会执行人类指令(如问答、对话)
•	方式:使用高质量“指令-回答”对做有监督训练
•	适用:适合构建基础可控模型,例如 chat 模式

3. 奖励模型训练(RM)

•	目标:训练一个模型来评分输出“好不好”(打分器)
•	用途:给后续的强化学习训练(PPO 等)提供 reward
•	难点:数据构建难,通常需要人类偏好对比(两个答案哪个更好)

4. PPO(Proximal Policy Optimization)

•	目标:基于 reward(RM 输出)优化模型策略
•	特点:传统 RLHF 强化学习方法,收敛慢,难调参
•	效果:输出多样化、有创造力,但训练代价大

5. DPO(Direct Preference Optimization)

•	目标:跳过奖励模型,直接用偏好对比做优化
•	优点:比 PPO 简单,不需要 reward model
•	效果:训练稳定性好,适合偏好对比数据(成对答案)

6. KTO / ORPO / SimPO(偏好优化方法族)

方法 特点 简介
KTO 数据顺序敏感 Keep The Order:保留偏好顺序信息
ORPO 在线排序优化 Online Rank Preference Optimization,处理多个选项的排序关系
SimPO 利用相似性评分 使用 Cosine 等方法衡量输出间偏好差异,训练稳定、效果好

7. LoRA / QLoRA

•	是一种训练方式/技巧,而不是训练目标
•	用来替代“全参数训练”,只训练少量插入层,显存省、训练快
•	QLoRA 是量化版本(通常 4bit),更节省资源
目标 推荐方式
基础问答、对话 指令微调(SFT) + LoRA
控制输出质量、有偏好排序 DPO / ORPO / SimPO
追求效果极致(预算高) PPO(需 RM)
资源紧张 QLoRA + SimPO
不想构建 RM DPO / SimPO 更简单

你可能感兴趣的:(大模型中的技术名词解析,人工智能,机器学习,深度学习)