在大模型时代(比如 BERT、GPT)里,我们经常听到“预训练 + 微调”的范式。
但你可能会疑惑——
监督微调、无监督微调,到底有啥区别?用的场景一样吗?
今天这篇,带你 5 分钟搞懂这对“孪生兄弟”的异同 ✅
名称 | 定义说明 |
---|---|
预训练(Pretraining) | 在大规模通用数据上训练模型,学习“通用知识”,比如语言规律、语义表示。 |
微调(Fine-tuning) | 在下游任务上,继续训练模型以适应具体任务。 |
而微调又可以分为:
类型 | 核心特征 |
---|---|
监督微调(Supervised Fine-tuning) | 使用有标签的下游任务数据,训练模型更好地完成分类、生成等具体任务。 |
无监督微调(Unsupervised Fine-tuning) | 使用无标签的目标领域数据,以“自监督”方式进一步训练,让模型更适应目标领域。 |
维度 | 监督微调 | 无监督微调 |
---|---|---|
训练数据 | 有标签的下游任务数据 | 无标签的目标领域数据 |
是否需要人工标注 | ✅ 是 | ❌ 否 |
训练目标 | 明确任务目标(如分类正确率) | 模型拟合领域语境/分布 |
常见训练方法 | 交叉熵损失 + 标签监督训练 | 自监督目标,如 MLM、CLM、对比学习 |
举例说明 | 用 SST-2 微调情感分类任务 | 用电影评论数据继续做 MLM 训练 |
适用场景 | 模型已有领域能力,需定制任务 | 模型迁移到新领域/语料风格不同 |
模型泛化能力 | 强于该任务,但领域适应性受限 | 域适应更好,任务能力需另行训练 |
以 BERT 为例:
❓问:无监督微调的好处是啥?
✅ 不需要标签数据、
✅ 能适应新的语料风格或领域语义(比如从医疗文本到法律文本)。
❓问:那为什么还要监督微调?
因为无监督只是“迁移”,但任务本身(比如情感判断、NER)还是需要明确的“目标函数”训练,才能做得好。
监督微调是用有标签数据训练模型执行具体任务,无监督微调是用无标签语料自监督训练,让模型适应目标领域。两者可结合使用,先无监督迁移,再监督定制,兼顾泛化与精度。
这波整明白了,BERT/GPT 微调原理你就能拿捏一大半了~
要不要我顺便也总结下“指令微调(instruction tuning)”和“RLHF”的区别?