摘要:我们推出GLM-4.1V-Thinking这一视觉语言模型(VLM),该模型旨在推动通用多模态推理的发展。在本报告中,我们分享了在以推理为核心的训练框架开发过程中的关键发现。我们首先通过大规模预训练开发了一个具备显著潜力的高性能视觉基础模型,可以说该模型为最终性能设定了上限。随后,借助课程采样强化学习(Reinforcement Learning with Curriculum Sampling,RLCS),我们充分释放了模型的全部潜力,使其在涵盖科学、技术、工程和数学(STEM)问题求解、视频理解、内容识别、编程、指代消解、基于图形用户界面(GUI)的智能体以及长文档理解等多样化任务中实现了全面的能力提升。为促进该领域的研究,我们开源了GLM-4.1V-9B-Thinking模型,该模型在同等规模模型中取得了最先进的性能。在涵盖28个公开基准测试的全面评估中,我们的模型在几乎所有任务上的表现均优于Qwen2.5-VL-7B,且在18个基准测试中,与规模大得多的Qwen2.5-VL-72B相比,实现了相当甚至更优的性能。值得注意的是,在长文档理解和STEM推理等具有挑战性的任务中,GLM-4.1V-9B-Thinking与GPT-4o等闭源模型相比,也展现出了具有竞争力甚至更优的性能,进一步凸显了其强大的能力。代码、模型及更多信息已在Github。Huggingface链接:Paper page,论文链接:2507.01006
研究背景:
随着人工智能技术的快速发展,视觉语言模型(Vision-Language Models, VLMs)已成为现代智能系统的重要组成部分。这些模型能够理解和生成视觉与文本信息,从而在多种任务中展现出强大的能力。然而,随着任务复杂性的增加,对VLMs的要求也日益提高。特别是对于需要高级推理能力的任务,如科学问题解决、自主智能体开发等,传统的VLMs已难以满足需求。因此,如何提升VLMs的推理能力,使其能够处理更复杂的多模态任务,成为当前研究的热点。
研究目的:
本研究旨在通过引入可扩展的强化学习框架,提升VLMs的多模态推理能力。具体而言,研究目的是开发一个名为GLM-4.1V-Thinking的VLM,该模型不仅能够处理基础的视觉和语言任务,还能在复杂的多模态推理任务中表现出色。通过大规模预训练和强化学习技术的结合,GLM-4.1V-Thinking旨在实现跨领域的一般化推理能力,从而在各种具有挑战性的任务中达到或超越现有最先进模型的性能。
1. 模型架构设计:
GLM-4.1V-Thinking采用了经典的VLM架构,包括视觉编码器(ViT Encoder)、多层感知器(MLP)投影层和语言解码器(Language Decoder)。视觉编码器基于Qwen2-VL模型进行初始化,用于提取图像和视频的视觉特征。MLP投影层则负责将视觉特征映射到与语言解码器兼容的维度。语言解码器采用GLM模型,用于处理多模态令牌并生成文本输出。
2. 预训练数据集构建:
为了提升模型的泛化能力,研究构建了一个大规模、多样化的预训练数据集。该数据集包括高质量的图像-文本对、自构建的学术语料库、带标注的文档和图表、教学视频以及指代数据等。这些数据涵盖了丰富的知识和多样的场景,有助于模型学习到更全面的世界知识和推理能力。
3. 监督微调(SFT):
在预训练的基础上,研究通过监督微调来进一步提升模型的推理能力。为此,构建了特定领域的SFT数据集,其中包含大量需要多步推理才能解决的问题。通过训练模型生成连贯的推理过程和最终答案,SFT阶段使模型学会了如何进行有效的推理。
4. 强化学习与课程采样(RLCS):
为了全面提升模型在各种任务上的表现,研究引入了强化学习与课程采样(RLCS)框架。RLCS结合了课程学习和难度感知采样技术,通过选择适合模型当前能力的任务和样本进行训练,提高了训练效率和稳定性。在强化学习过程中,模型通过与环境交互并接收奖励信号来优化其策略,从而提升推理能力。
5. 奖励系统设计:
为了确保强化学习的有效性,研究设计了一个精确且鲁棒的奖励系统。该系统根据模型在不同任务上的表现给予相应的奖励或惩罚,从而引导模型朝着正确的方向进行优化。奖励系统涵盖了视觉感知、理解、推理和智能体行为等多个方面,确保了模型在各种能力上的全面提升。
1. 综合性能评估:
在涵盖28个公开基准测试的全面评估中,GLM-4.1V-Thinking模型在几乎所有任务上均表现出色。与Qwen2.5-VL-7B模型相比,GLM-4.1V-Thinking在所有任务上均取得了更好的性能;与规模更大的Qwen2.5-VL-72B模型相比,GLM-4.1V-Thinking在18个基准测试上实现了相当或更优的性能。特别是在长文档理解和STEM推理等具有挑战性的任务中,GLM-4.1V-Thinking展现出了显著的优势。
2. 跨领域泛化能力:
研究结果表明,GLM-4.1V-Thinking具有强大的跨领域泛化能力。通过在一个领域上的训练,模型能够显著提升在其他领域上的表现。这种跨领域的相互促进和增强效应,使得GLM-4.1V-Thinking在各种多模态任务中均能表现出色。
3. 与闭源模型的比较:
在具有挑战性的任务中,如长文档理解和STEM推理,GLM-4.1V-Thinking与闭源模型GPT-4o相比也展现出了竞争力甚至更优的性能。这一结果进一步证明了GLM-4.1V-Thinking的强大能力和广泛应用前景。
4. 具体任务表现:
在具体任务上,GLM-4.1V-Thinking在多个基准测试中取得了显著的成绩。例如,在MMBenchV11-EN基准测试中取得了85.8分的高分;在MMStar基准测试中取得了72.9分的成绩;在AI2D基准测试中取得了87.9分的成绩等。这些成绩均超过了同等规模的其他模型,甚至在某些任务上超越了规模更大的模型。
1. 数据集限制:
尽管研究构建了一个大规模、多样化的预训练数据集,但仍可能存在数据覆盖不全的问题。特别是对于某些特定领域或罕见场景的数据,可能仍然缺乏足够的样本进行训练。这可能导致模型在某些特定任务上的表现受到限制。
2. 强化学习的不稳定性:
在强化学习过程中,模型的表现可能会受到多种因素的影响,如奖励信号的设计、训练样本的选择等。这些因素可能导致训练过程的不稳定,甚至出现性能下降的情况。尽管研究通过优化奖励系统和采用课程采样技术来提高训练的稳定性,但仍难以完全避免这一问题。
3. 计算资源需求:
GLM-4.1V-Thinking模型的训练和推理过程需要较高的计算资源。特别是在强化学习阶段,模型需要进行大量的交互和优化操作,这进一步增加了计算资源的消耗。因此,该模型在资源有限的环境中的应用可能会受到限制。
4. 模型解释性:
尽管GLM-4.1V-Thinking在各种任务上表现出了强大的能力,但其内部推理过程仍然难以解释。这限制了我们对模型决策过程的理解和信任度。在未来的研究中,如何提高模型的解释性将成为一个重要的方向。
1. 扩展数据集和任务类型:
未来的研究可以进一步扩展预训练数据集的规模和多样性,涵盖更多领域和场景的数据。同时,可以探索更多类型的任务,如三维视觉理解、跨模态生成等,以进一步提升模型的泛化能力和应用范围。
2. 优化强化学习框架:
针对强化学习的不稳定性问题,未来的研究可以探索更先进的强化学习算法和训练策略。例如,可以采用更精确的奖励信号设计、更智能的样本选择方法以及更稳定的优化算法等,以提高训练过程的稳定性和效率。
3. 降低计算资源需求:
为了降低模型的计算资源需求,未来的研究可以探索模型压缩和量化技术。通过减少模型的参数数量和计算量,可以在保持模型性能的同时降低其计算资源消耗。此外,还可以研究分布式训练和并行计算技术,以进一步提高训练速度。
4. 提高模型解释性:
为了提高模型的解释性,未来的研究可以探索可解释性人工智能(XAI)技术。通过引入注意力机制、可视化技术等方法,可以揭示模型的决策过程和内部推理机制,从而提高我们对模型的理解和信任度。
5. 探索多模态预训练的新方法:
除了现有的预训练方法外,未来的研究还可以探索新的多模态预训练方法。例如,可以采用自监督学习、对比学习等技术来进一步提升模型的预训练效果。同时,可以研究如何将预训练模型与其他先进技术(如知识图谱、图神经网络等)相结合,以进一步提升模型的性能和应用范围。