【QwQ-32B-Preview】阿里通义QwQ登场MATH测试超OpenAI o1,开源AI推理新王,为数不多可以与OpenAI o1媲美的模型之一

阿里通义千问今天(11 月 28 日)发布《QwQ: 思忖未知之界》博文,推出了 QwQ-32B-Preview 实验性研究模型,在数学和编程领域,尤其在需要深度推理的复杂问题上,具备卓越的 AI 推理能力。它是少数能与 OpenAI 的 o1 匹敌的模型之一,并且是第一个能以宽松许可证下载的模型。QwQ-32B-Preview 在 Apache 2.0 许可证下“公开”可用,这意味着它可以用于商业应用。

QwQ-32B-Preview 现已上线硅基流动平台
【QwQ-32B-Preview】阿里通义QwQ登场MATH测试超OpenAI o1,开源AI推理新王,为数不多可以与OpenAI o1媲美的模型之一_第1张图片

https://cloud.siliconflow.cn/i/35lbid3e
使用该链接注册可以获得2000万tokens体验QwQ-32B-Preview

模型表现

QwQ-32B-Preview 包含 325 亿个参数,能够处理最长 32000 个 tokens 的提示词;在 AIME 和 MATH 基准测试中,它的表现优于 OpenAI 的两个推理模型 o1-preview 和 o1-mini。

GPQA

该基准是一个通过小学级别问题评估高阶科学解题能力的评测集,旨在考察科学问题解决能力。QwQ-32B-Preview 评分为 65.2%,展示了研究生水平的科学推理能力。

AIME

该基准涵盖算术、代数、计数、几何、数论、概率等中学数学主题的综合评测,测试数学问题解决能力。QwQ-32B-Preview 评分为 50.0%,证明了强大的数学问题解决技能。

MATH-500

该基准包含 500 个测试样本的 MATH 评测集,全面考察数学解题能力。QwQ-32B-Preview 成绩为 90.6%,体现了在各类数学主题上的全面理解。

LiveCodeBench

该基准评估真实编程场景中代码生成和问题解决能力的高难度评测集。QwQ-32B-Preview 成绩为 50.0%,验证了在实际编程场景中的出色表现。

【QwQ-32B-Preview】阿里通义QwQ登场MATH测试超OpenAI o1,开源AI推理新王,为数不多可以与OpenAI o1媲美的模型之一_第2张图片

你可能感兴趣的:(人工智能,ai,AI编程,自然语言处理)