标题:Pre-DPO: Improving Data Utilization in Direct Preference Optimization Using a Guiding Reference Model
来源:arXiv, 2504.15843
直接偏好优化(DPO)通过在没有明确奖励模型的情况下直接优化人类偏好,简化了大型语言模型(LLM)从人类反馈(RLHF)中的强化学习。我们发现,在DPO训练过程中,参考模型起着数据权重调节器的作用。然而,在DPO中以相同方式初始化策略和参考模型的常见做法可能会导致数据利用率低下,并设定性能上限。同时,简单偏好优化(SimPO)中缺乏参考模型降低了训练的鲁棒性,需要更严格的条件来防止灾难性遗忘。
在这项工作中,我们提出了Pre-DPO,这是一种简单而有效的基于DPO的训练范式,通过利用指导参考模型来提高偏好优化性能。该参考模型通过训练偏好数据提供了对可实现的最佳策略状态的预见,作为一种指导机制,自适应地为更适合模型的样本分配更高的权重,为不太适合的样本分配更低的权重。
在AlpacaEval 2.0和Arena Hard v0.1基准上进行的广泛实验表明,Pre-DPO能够持续提高DPO和SimPO的性能,而无需依赖外部模型或其他数据。代码在https://github.com/DtYXs/Pre-DPO.
研究问题:传统参考模型在直接偏好优化(DPO)中存在局限性,特别是如何利用指导参考模型提高数据利用率和模型性能。
主要贡献:论文提出了一种新的训练范式Pre-DPO,通过使用指导参考模型来优化初始策略,从而提升现有偏好优化方法的性能,而无需依赖外部模型或额外数据。
Pre-DPO首先使用标准的偏好优化方法(如DPO或SimPO)对初始策略进行优化。
优化后的策略被用作指导性参考模型,随后利用该模型对初始策略进行重新优化。
该指导性参考模型动态地为数据样本分配权重,增强对适合样本的学习,同时降低对不适合样本的学习权重。
实验结果表明,Pre-DPO在AlpacaEval 2和Arena-Hard v0.1基准测试中,相比于DPO和SimPO,平均提升了2.5和2.6个点的表现。
指导参考模型能够有效克服传统参考模型设置下由于数据利用效率低下所引起的性能上限。
Pre-DPO在不显著增加响应长度的情况下提升了模型的性能,显示出其在实际应用中的灵活性和易部署性。
通过自适应的数据重加权机制,Pre-DPO在训练偏好数据时,能够动态地调整样本权重,更有效地指导策略优化。
论文的核心是将参考模型的角色从静态约束转变为具有前瞻性的指导机制,每轮迭代都用最新的参考模型来训练策略模型,充分利用先前优化模型的信息,同时不需要每次更换偏好数据。