Scaling Laws for Forgetting When Fine-Tuning Large Language Models

本文是LLM系列文章,针对《Scaling Laws for Forgetting When Fine-Tuning Large Language Models》的翻译。

微调大型语言模型时遗忘的比例律

  • 摘要
  • 1 引言
  • 2 相关工作和背景
  • 3 方法和实验设置
  • 4 经验结果和遗忘规律
  • 5 结论

摘要

我们研究并量化了在下游任务中微调预先训练的大型语言模型(LLM)时的遗忘问题。我们发现,参数有效微调(PEFT)策略,如低秩适配器(LoRA),仍然存在灾难性遗忘。特别是,当使用LoRA微调LLM时,我们确定了微调性能和遗忘量之间的强逆线性关系。我们进一步获得了精确的比例律,该比例律显示遗忘随着微调参数数量和更新步骤数量的幂律移动而增加。我们还研究了遗忘对知识、推理和Llama 2 7B聊天中训练的安全护栏的影响。我们的研究表明,不能通过提前停止或通过改变微调参数的数量来避免遗忘。我们相信,这为未来的研究开辟了一个重要的安全关键方向,以评估和开发减轻遗忘的微调方案。

1 引言

2 相关工作和背景

3 方法和实验设置

4 经验结果和遗忘规律

5 结论

总之,使用LoRA微调设置,我们实证证明,在对下游任务进行微调期间,微调损失的线性函数和微调的非嵌入参数数量和更新步骤数量的移位幂律有力地预测了遗忘。此外,我们使用我们的设置来确定与确定的预训练LLM相似的缩放定律,用于微调。特别地,微调损失也通过移位的幂律函数来拟合。然后,我们研究了模型生成中的遗忘行为,并表明模型安全性和推理基准性能都会受到遗忘的影响。
为了一致地量化遗忘,我们使用了微调模型和基本模型预测之间的交叉熵损失。我们在第3.1节中解释了为什么这个指标是最合适的,以及为什么通常的损失指标可能不充分。
鉴于我们的遗忘定律表明,遗忘是微调性能的结果,我们强调了在LLM中减少遗忘的技术的必要性。因此,未来工作的一个途径是开发和评估减轻我们设置中遗忘的技术,并准确比较功能关系的变化程度,以更有利于在不遗忘的情况下进行微调。

你可能感兴趣的:(LLM,语言模型,人工智能,算法)