论文略读: ALPAGASUS: TRAINING A BETTER ALPACA WITH FEWER DATA

ICLR 2024

1 背景

  • 大模型通常需要在有监督指令数据集上进行指令微调来加强指令遵循能力
    • 但是广泛使用的数据集包含许多具有不正确或不相关响应的低质量样本,这对大模型微调具有误导性
  • ——>论文提出了一种简单有效的数据选择策略,使用ChatGPT自动识别和过滤掉低质量数据
    • 同时引入了: ALPAGASUS,它是仅对从52k训练数据中过滤出来的9k高质量数据进行微调。
      • 在多个测试集和受控人类评估上显着优于 GPT-4
      • 将 7B 的训练时间从 80 分钟减少到 14 分钟。

2 方法

论文略读: ALPAGASUS: TRAINING A BETTER ALPACA WITH FEWER DATA_第1张图片

论文略读: ALPAGASUS: TRAINING A BETTER ALPACA WITH FEWER DATA_第2张图片

prompt的dimension是用户给定的属性(比如帮助行,准确度等) 

3 实验

LLM平均得分:

论文略读: ALPAGASUS: TRAINING A BETTER ALPACA WITH FEWER DATA_第3张图片

使用精简的数据微调效果更好:

你可能感兴趣的:(论文略读: ALPAGASUS: TRAINING A BETTER ALPACA WITH FEWER DATA)