摘要:最近,多模态奖励模型(Reward Models, RMs)的进展在传递奖励信号以使视觉模型与人类偏好保持一致方面展现出了显著潜力。然而,当前的奖励模型通常仅限于提供直接响应或进行浅层推理,推理过程深度有限,这往往导致奖励信号不准确。我们认为,将明确的长思维链(Chains-of-Thought, CoT)融入奖励推理过程中,可以显著增强其可靠性和稳健性。此外,我们相信,一旦奖励模型内化了长思维链推理,其直接响应的准确性也可以通过隐式推理能力得到提升。为此,本文提出了UnifiedReward-Think,这是首个统一的多模态基于长思维链的奖励模型,能够对视觉理解和生成奖励任务进行多维、逐步的长链推理。具体而言,我们采用了一种探索驱动的强化微调方法来激发和激励模型的潜在复杂推理能力:
(1)我们首先使用少量的图像生成偏好数据来蒸馏GPT-4o的推理过程,然后将其用于模型的冷启动,以学习长思维链推理的格式和结构。
(2)随后,通过利用模型的先验知识和泛化能力,我们准备大规模统一的多模态偏好数据,以激发模型在各种视觉任务中的推理过程。在这一阶段,我们保留正确的推理输出用于拒绝采样,以优化模型;
(3)同时,将预测错误的样本最终用于基于组相对策略优化(Group Relative Policy Optimization, GRPO)的强化微调,使模型能够探索多样化的推理路径,并优化为正确且稳健的解决方案。在各种视觉奖励任务上的广泛实验证明了我们模型的优越性。
Huggingface链接:Paper page,论文链接:2505.03318
近年来,多模态奖励模型(Reward Models, RMs)在视觉理解与生成任务中展现出了巨大潜力,通过提供奖励信号来对齐视觉模型与人类偏好。然而,现有的多模态奖励模型大多局限于提供直接响应或进行浅层推理,缺乏深度和解释性,导致奖励信号不准确。特别是在复杂场景中,这些模型容易因推理过程不严谨而给出误导性结论。
随着视觉语言模型(Visual-Language Models, VLMs)的发展,其强大的多模态对齐能力为构建更复杂的奖励模型提供了可能。然而,直接利用监督微调(Supervised Fine-Tuning, SFT)训练大规模多模态思维链(Chain-of-Thought, CoT)奖励数据面临巨大挑战,因为手动标注这类数据需要大量人力资源和时间。
本文旨在提出一种统一的多模态思维链奖励模型(Unified Multimodal Chain-of-Thought Reward Model, UNIFIED REWARD-THINK),通过强化微调(Reinforcement Fine-Tuning)激活并增强视觉语言模型的潜在复杂推理能力。具体目标包括:
本文提出的方法包括三个关键阶段:冷启动(Cold Start)、拒绝采样(Rejection Sampling)和基于组相对策略优化(Group Relative Policy Optimization, GRPO)的强化微调。
在冷启动阶段,利用少量高质量的图像生成偏好数据,通过蒸馏GPT-4o的推理过程,初始化模型的长思维链推理格式。具体步骤包括:
在拒绝采样阶段,利用大规模统一的多模态偏好数据,激励模型在各种视觉奖励任务中产生长思维链推理输出。具体步骤包括:
在强化微调阶段,利用错误推理样本进行基于GRPO的强化微调,使模型能够探索多样化的推理路径,并优化为正确且稳健的解决方案。具体步骤包括:
本文在多个图像和视频理解与生成基准测试上进行了实验,结果显示UNIFIED REWARD-THINK模型在所有视觉奖励任务中均优于现有基线模型。特别是在图像理解奖励任务中,该模型表现出显著的性能提升,这得益于长思维链推理在视觉内容深度理解中的核心作用。
通过定性的案例分析,本文展示了UNIFIED REWARD-THINK模型在图像和视频生成任务中的详细推理过程。例如,在图像生成任务中,模型能够从语义一致性、美学和真实性等多个维度对图像进行评估,并给出详细的推理步骤和最终判断。在视频生成任务中,模型能够评估视频的语义一致性、时间连贯性和真实性,同样给出详细的推理过程和最终判断。
值得注意的是,学习长思维链推理后,UNIFIED REWARD-THINK模型即使在没有明确推理痕迹的情况下,也能通过隐式逻辑推理能力提供准确的奖励信号,进一步验证了方法的有效性。
尽管本文提出的方法在多模态奖励模型中取得了显著进展,但仍存在一些局限性:
针对上述局限性,未来的研究可以关注以下几个方面:
综上所述,本文提出的UNIFIED REWARD-THINK模型通过强化微调实现了统一的多模态思维链奖励模型,显著提升了奖励信号的准确性和可靠性,并在多个视觉理解和生成任务中表现出色。未来的研究将进一步优化推理效率、扩大高质量数据规模,并关注伦理与公平性问题,以推动多模态奖励模型的发展和应用。