标题:Data Efficacy for Language Model Training
来源:arXiv, 2506.21545
数据是语言模型(LM)训练的基础。最近的研究一直致力于数据效率,其目的是通过选择训练数据的最小或最优子集来最大限度地提高性能。数据过滤、采样和选择等技术在这一领域起着至关重要的作用。为了补充这一点,我们定义了数据效能,它侧重于通过优化训练数据的组织来最大限度地提高性能,目前尚未得到充分探索。
这项工作引入了一个通用的范式DELT,用于考虑LM训练中的数据效能,突出了训练数据组织的重要性。DELT由三个部分组成:数据评分、数据选择和数据排序。数据评分根据每个数据样本的属性(如质量、难度和可学习性)为其分配分数。数据选择可以根据分数从原始训练数据中选择一个子集。数据排序利用这些分数以新的优化顺序组织训练数据,而不是传统的随机洗牌。此外,我们设计了可学习性质量评分(LQS),作为数据评分的一个新实例,它从梯度一致性的角度考虑了每个数据样本的可学习性和质量。我们还设计了折叠排序(FO),作为数据排序的一个新实例,它解决了模型遗忘和数据分布偏差等问题。
综合实验验证了LM训练中的数据有效性,结果表明:首先,不同的DELT实例在不增加数据规模和模型大小的情况下,不同程度地提高了LM性能。其次,在这些实例中,我们提出的用于数据评分的LQS和用于数据排序的FO的组合实现了最显著的改进。最后,通过应用数据选择,可以实现数据效率和数据效能。因此,我们认为数据效能是LM训练中一个有前景的基础领域。
研究问题:如何通过优化训练数据的组织提升语言模型的性能?
主要贡献:提出了一个名为DELT的通用框架,通过数据评分、数据选择和数据排序来增强语言模型训练中的数据效能。
数据评分:引入一种新的评分方法Learnability-Quality Scoring(LQS),从学习能力和质量的角度为每个数据样本赋值。
数据选择:从原始数据集中选择一个最优子集,从而确保训练在该子集上的语言模型具有最佳性能。
数据排序:重新组织训练样本的顺序,创建新的训练集D’,以提高模型的训练效果。
DELT框架整合了上述三个组件,旨在优化训练数据的组织而不改变数据内容和模型参数。
实验结果表明,所提出的DELT框架在主流基准测试上表现优异,超越了现有的数据效率方法。
使用升序排序方法改善了模型性能,而降序排序却导致性能下降,证明了数据排序的重要性。
在进行多重折叠学习的实验中,在适当的折叠层数设置下,模型性能显著提高,验证了该方法的有效性。
DELT框架的综合使用能够同时提高数据效能和效率,为语言模型的训练带来稳定的性能改善。
论文的核心是提出了数据效能的概念和具体实施框架,强调了数据优化对模型性能的巨大影响。