II-Medical-8B论文速读:140 万开源蒸馏推理数据集助力大语言模型训练

《140 万开源蒸馏推理数据集助力大语言模型训练》论文速读

一、引言

论文介绍了 AM-DeepSeek-R1-Distilled 数据集,这是一个包含 140 万条带推理痕迹的通用推理任务数据集,涵盖了高质量且具有挑战性的推理问题。这些数据从多个开源数据集中收集,经过语义去重和精细清洗,以消除测试集污染。数据集中的所有回答都从推理模型(主要是 DeepSeek-R1)中蒸馏而来,并经过严格的验证程序。基于该数据集训练的 AM-Distill-Qwen-32B 模型在多个基准测试中超越了现有模型,展示了该数据集在提升大语言模型推理能力方面的潜力。

二、研究背景

OpenAI 的 o1 系列模型通过扩展推理过程的长度,在数学、编码和科学推理等任务中取得了显著进步。DeepSeek-R1 的出现推动了开源社区的发展,其利用推理链数据进行监督微调(SFT)的模型在多个基准测试中表现出色。然而,现有的开源推理数据集规模较小,且在性能上难以匹敌 DeepSeekR1-distilled 系列模型。因此,作者构建了 AM-DeepSeek-R1-Distilled 数据集,以促进强大推理导向型大语言模型的发展。

三、数据集构建方法

(一)数据收集

数据集分为数学、编码、科学问答和通用聊天四大类。作者优先选择带有参考答案或测试用例的数据集,如 NuminaMath、MetaMathQA、OpenCoder 等。同时,还从开源社区中选取了一些由 DeepSeek-R1 生成推理链的数据集。为增强模型的聊天能力,还收集了来自通用数据 SFT 数据集的聊天数据。

(二)数据分类与难度评估

在通用聊天数据方面,设计了更细致的类别,如创意写作和指令遵循。使用 Qwen2.5-7B-Instruct 模型对数据进行标记。为了训练长推理链模型,使用大型语言模型对所有指令的难度进行评分,并筛选数据,对简单和中等难度的样本进行降采样,使数据集更侧重于具有挑战性的数据。

(三)去重处理

对收集的数据进行严格的语义去重。通过计算每个数据项的嵌入并基于嵌入计算文本相似度,获得不同数据项的语义相似度。对于语义相似度高的数据,设计优先策略,只保留一个代表性条目,以确保数据集的独特性和多样性。

四、数据蒸馏

数据集通过两种方式获得提示的响应:筛选现有响应和创建新响应。对于有现有响应的提示,如果响应能通过参考答案或测试用例验证,则保留原始响应。对于没有推理链的数据,使用 DeepSeek-R1 生成新响应。

(一)真实性验证

对于有参考答案的问题,结合基于规则的方法和大型语言模型进行验证。首先使用 math-verify 评估响应在格式和计算结果上是否与参考答案一致,然后使用 Qwen2.5-7B-Instruct 进一步评估响应的正确性和一致性。对于带有测试用例的编码问题,在沙盒环境中验证响应。最终移除未通过验证的数据,以确保数据集的准确性和可靠性。

(二)奖励评估

使用决策树奖励模型和 Qwen2.5-7B-Instruct 大型语言模型评分两种方法评估模型输出的答案内容部分。根据评分分布设定评分阈值,移除评分较低的数据,以确保选定的响应有助于提高数据集的整体质量。

(三)规则验证

建立验证规则,如格式模板一致性检查和 n-gram 重复检查。对于格式验证,确保每个响应严格遵循指定格式。对于 n-gram 重复验证,检查响应中是否存在过多连续单词重复。未通过这些基于规则的验证的响应将被排除,以确保数据集的质量和一致性。

五、实验

(一)评估基准

使用 LiveCodeBench、GPQA-Diamond、AIME 2024 和 MATH-500 这些涵盖多个领域和难度级别的基准测试来评估模型的推理能力。

(二)评估方法

将最大生成长度设置为 32,768 个令牌。对于需要采样的基准测试,统一将温度设置为 0.6,top-p 值设置为 0.95。对于 AIME 2024,每个查询生成 16 个样本以估计 pass@1。对于 LiveCodeBench、MATH-500 和 GPQA-Diamond,每个查询生成 4 个响应,同样以估计 pass@1。这些基准测试的评估指标为全球平均准确率。

(三)主要结果

对 Qwen2.5-32B 进行监督微调,得到名为 AM-Distill-Qwen-32B 的模型。与 DeepSeek-R1-Distill-Qwen-32B 相比,该模型在多个基准测试中取得了显著改进。进一步基于 Qwen2.5-72B 模型进行训练,得到 AM-Distill-Qwen-72B 模型。与 DeepSeek-R1-Distill-Llama-70B 相比,该模型在所有评估基准测试中都取得了显著提升。实验结果表明,基于 AM-DeepSeek-R1-Distilled1.4M 数据集训练的模型在推理能力上有了显著增强。

六、局限性

数据集中的响应由大型语言模型生成,未经过严格验证,在事实准确性等方面仍存在不足。该数据集主要用于提升大语言模型的推理能力,未对其中的有害指令或响应进行彻底筛选。要求开发者仅将该项目生成的开源代码、数据、模型及其他物品用于研究目的,禁止商业用途及其他潜在有害用途。此外,由于某些数据源之间的嵌套关系,数据源的准确性可能会出现问题。

七、结论

本研究构建并发布了 AM-DeepSeek-R1-Distilled 数据集,这是一个包含 140 万条数据且具有丰富思考痕迹的大型通用推理任务数据集。通过对大量开源数据集的精心挑选、语义去重和严格清洗而创建。基于该数据集训练的 AM-Distill-Qwen-32B 模型表现出显著的性能提升,有力地证明了该数据集在训练模型推理能力方面的价值。作者期望其努力能在推理导向型大语言模型的研究中发挥重要和催化作用,推动该领域的发展。

论文核心技术汇总表

II-Medical-8B论文速读:140 万开源蒸馏推理数据集助力大语言模型训练_第1张图片

你可能感兴趣的:(前沿,语言模型,人工智能,自然语言处理,大模型,开源,算法,生成模型)