标题:VisualPRM: An Effective Process Reward Model for Multimodal Reasoning
来源:arXiv, 2503.10291
我们引入了VisualPRM,这是一种具有8B参数的高级多模态过程奖励模型(PRM),它通过Best-of-N(BoN)评估策略提高了现有多模态大型语言模型(MLLM)在不同模型尺度和族之间的推理能力。
具体来说,我们的模型提高了三种MLLM和四种不同模型尺度的推理性能。即使应用于功能强大的InternVL2.5-78B,它在七个多模态推理基准测试中也提高了5.9分。实验结果表明,与结果奖励模型和自我一致性相比,我们的模型在BoN评估中表现出更优的性能。
为了促进多模态PRM的训练,我们使用自动化数据管道构建了一个多模态过程监控数据集VisualPRM400K。为了评估多模态PRM,我们提出了VisualProcessBench,这是一个带有人类注释的逐步正确性标签的基准,用于衡量PRM在多模态推理任务中检测错误步骤的能力。我们希望我们的工作能够激发更多的未来研究,并为MLLM的发展做出贡献。我们的模型、数据和基准测试发布在https://internvl.github.io/blog/2025-03-13-VisualPRM/
研究问题:多模态推理任务中,如何有效评估和优化模型的推理过程,以提高模型在多模态推理中的表现。
主要贡献:论文提出了VisualPRM,一个基于过程奖励模型(PRM)的多模态推理框架,并构建了VisualPRM400K数据集及VisualProcessBench基准,以促进对多模态推理的研究和评估。
论文首先定义了过程奖励模型(PRM),并通过VisualPRM400K数据集进行训练,该数据集包含约40万条多模态过程监督数据。
在训练过程中,模型预测每一步的质量,并通过将其与之前步骤的质量进行比较来评估步骤的好坏。
论文还提出了VisualProcessBench基准,旨在评估PRM和多模态语言模型(MLLM)在识别推理步骤中的错误能力。
研究中采用了“Best-of-N”(BoN)评估策略,利用PRM作为评估模型以提升多模态推理的整体性能。
实验结果显示,现有的开源多模态语言模型在评估步骤准确性方面存在明显不足,强调了对改进的多模态批评模型的需求。
VisualPRM的引入显著提升了MiniCPM-V2.6、QwenVL2.5-7B等模型在七个多模态推理基准上的表现,分别提升了8.0、3.7等得分。
在VisualProcessBench上的实验表明,现有的开源MLLMs在准确评估每一步的正确性方面表现不佳,表明该领域仍需进一步研究与改进。
论文还通过对训练超参数和生成温度的影响进行了分析,证明了设定适当的期望准确度阈值对模型性能至关重要。
论文的核心在于多模态过程奖励,构建了专门的数据集和基准。