大模型强化微调GRPO——DeepSeekMath: Pushing the Limits of MathematicalReasoning in Open Language Models

1. 概述

大型语言模型(LLM)革新了人工智能领域的数学推理方法,在定量推理基准测试(Hendrycks 等,2021 年)和几何推理基准测试(Trinh 等,2024 年)方面取得了重大进展。此外,这些模型在帮助人类解决复杂的数学问题方面也发挥了重要作用(Yao,2023 年)。然而,像 GPT - 4(OpenAI,2023 年)和 Gemini - Ultra(Anil 等,2023 年)这样的尖端模型并未公开,目前可获取的开源模型在性能上明显落后。

在本研究中,我们推出了 DeepSeekMath,这是一种特定领域的语言模型,在数学能力上显著超越了开源模型,并在学术基准测试中接近 GPT - 4 的性能水平。为了实现这一目标,我们创建了 DeepSeek - Math Corpus,一个包含 120B 数学标记的大型高质量预训练语料库。该数据集是通过 fastText 基分类器(Joulin 等,2016 年)从普通爬虫(CC)中提取的。在初次迭代中,分类器使用 OpenWebMath(Paster 等,2023 年)中的实例作为正例进行训练,同时纳入了多种其他网页作为负例。随后&

你可能感兴趣的:(对抗生成网络与动作识别,强化学习,大模型与智能体,因果推断,语言模型,人工智能,自然语言处理,深度学习,机器学习)