[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal

中文译名:逐步蒸馏!以较少的训练数据和较小的模型规模超越较大的语言模型

发布链接:http://arxiv.org/abs/2305.02301

Accepted to Findings of ACL 2023

阅读原因:近期任务需要用到蒸馏操作,了解相关知识

核心思想:改变视角。原来的视角:把LLMs视为噪声标签的来源。现在的视角:把LLMs视为能够推理的代理。

方法好在哪?需要的数据量少,得到的结果好。

[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal_第1张图片

文章的方法概览:

[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal_第2张图片

 对上图的解释:1.给定一个 LLM 和一个未标记的数据集,提示 LLM 生成输出标签以及证明标签合理性的基本原理。基本原理是为模型的预测标签提供支持的自然语言解释。2.除了任务标签之外,我们还利用这些基本原理来训练较小的下游模型。
直观地说,基本原理提供了更丰富、更详细的信息,说明为什么输入映射到特定的输出标签,并且通常包含可能很难仅从原始输入推断的相关任务知识。

下面是蒸馏过程的设计&#

你可能感兴趣的:(论文阅读,语言模型,人工智能,自然语言处理)