【面试宝典】【大模型入门】【模型微调】

面试热点科普:监督微调 vs 无监督微调,有啥不一样?

在大模型时代(比如 BERT、GPT)里,我们经常听到“预训练 + 微调”的范式。

但你可能会疑惑——

监督微调、无监督微调,到底有啥区别?用的场景一样吗?

今天这篇,带你 5 分钟搞懂这对“孪生兄弟”的异同 ✅


1. 术语定义

名称 定义说明
预训练(Pretraining) 在大规模通用数据上训练模型,学习“通用知识”,比如语言规律、语义表示。
微调(Fine-tuning) 在下游任务上,继续训练模型以适应具体任务。

而微调又可以分为:

类型 核心特征
监督微调(Supervised Fine-tuning) 使用有标签的下游任务数据,训练模型更好地完成分类、生成等具体任务。
无监督微调(Unsupervised Fine-tuning) 使用无标签的目标领域数据,以“自监督”方式进一步训练,让模型更适应目标领域。

2. 二者对比总结

维度 监督微调 无监督微调
训练数据 有标签的下游任务数据 无标签的目标领域数据
是否需要人工标注 ✅ 是 ❌ 否
训练目标 明确任务目标(如分类正确率) 模型拟合领域语境/分布
常见训练方法 交叉熵损失 + 标签监督训练 自监督目标,如 MLM、CLM、对比学习
举例说明 用 SST-2 微调情感分类任务 用电影评论数据继续做 MLM 训练
适用场景 模型已有领域能力,需定制任务 模型迁移到新领域/语料风格不同
模型泛化能力 强于该任务,但领域适应性受限 域适应更好,任务能力需另行训练

3. 一个例子说清楚

以 BERT 为例:

  • 监督微调:BERT 在大语料预训练后,我们用“新闻标题 → 情感标签”数据来继续训练,让它能判断“这句话情绪正面还是负面”。
  • 无监督微调:BERT 在新闻数据上预训练完,我们将其在“知乎帖子数据”上再做一轮 MLM 训练,让它适应知乎语境,然后再去做情感分类任务。

4. 面试一问一答速记

❓问:无监督微调的好处是啥?

✅ 不需要标签数据、
✅ 能适应新的语料风格或领域语义(比如从医疗文本到法律文本)。

❓问:那为什么还要监督微调?

因为无监督只是“迁移”,但任务本身(比如情感判断、NER)还是需要明确的“目标函数”训练,才能做得好。


100 字速答总结

监督微调是用有标签数据训练模型执行具体任务,无监督微调是用无标签语料自监督训练,让模型适应目标领域。两者可结合使用,先无监督迁移,再监督定制,兼顾泛化与精度。


这波整明白了,BERT/GPT 微调原理你就能拿捏一大半了~
要不要我顺便也总结下“指令微调(instruction tuning)”和“RLHF”的区别?

你可能感兴趣的:(人工智能,深度学习,机器学习)