标题:SciMaster: Towards General-Purpose Scientific AI Agents Part I. X-Master as Foundation -Can We Lead on Humanity’s Last Exam?
来源:arXiv, 2507.05241
人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此,人类的最后一次考试(HLE)为评估科学人工智能代理提供了一个极具挑战性的试金石。在这项工作中,我们的目标是构建通用代理的基础架构,并通过在HLE上领先的性能来验证其功能。为了实现这一目标,我们引入了X-Master,这是一种工具增强推理代理,旨在通过在推理过程中与外部工具灵活交互来模拟人类研究人员。该代理以代码作为交互语言的概念化为指导,可以灵活地利用内置的Python库和我们的定制工具来增强推理。我们通过X-Masters进一步扩展其功能,X-Masters是一个分散和堆叠的代理工作流程,系统地增强了推理的广度和深度。我们的开源解决方案X-Masters在HLE上创造了新的最先进的记录,得分为32.1%,超过了OpenAI和谷歌的Deep Research(26.6%和26.9%),成为第一个超过30%门槛的公司。这项工作使我们能够更深入地了解复杂任务的解决,并积累宝贵的经验,为未来的进步提供信息,指导后续的模型训练。
研究问题:如何构建一种通用的科学人工智能代理,以提升在复杂科学挑战中的表现,特别是在“人类最后考试”中的表现。
主要贡献:论文的贡献在于提出了一种新型的工具增强推理代理X-Master,其在“人类最后考试”中取得了超过30%的新纪录,超过了以往的闭源模型。
采用基于开放源代码模型的工具增强推理代理X-Master,支持与外部环境的灵活交互。
通过生成Python代码作为与外部工具交互的语言,使代理能够动态获取和利用外部信息。
设计了一种“分散-堆叠”的代理工作流程,通过多实例并行生成初步解决方案并进行逐步改进。
引入初步推理指导,使模型能够相信并自发地产生和执行代码,从而提升其代理能力。
实验结果显示,X-Master在“人类最后考试”(HLE)中取得了32.1%的分数,显著优于OpenAI和Google DeepMind的模型(分别为26.6%和26.9%)。
工具增强推理的有效性得到了验证,代理在推理过程中平均调用外部工具三次,第一轮尝试的准确率从17.7%提升到21.1%。
通过“分散-堆叠”流程,X-Masters在广度和深度的探索中显著提升了问题解决能力,这一工作流程中的每个阶段都有助于改善最终结果。
在生物医学领域,X-Masters在面对复杂问题时的表现超越了已有的多代理系统。
论文的创新点在于提出了一个开放的基于工具增强的推理架构,通过将代码作为交互语言,能够灵活适应各种复杂任务。