论文阅读:arxiv 2025 OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation

总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

https://www.doubao.com/chat/8815924393371650

https://arxiv.org/pdf/2506.02397#page=17.09
OThink

文章目录

  • 速览
      • 研究背景与问题
      • 核心思路与方法
      • 实验结果
      • 结论与意义

速览

这篇论文聚焦于解决大型推理模型(LRMs)在处理简单任务时存在过度推理的问题,提出了一种名为OThink-R1的方法,让模型能根据任务难度自动在“快思考”和“慢思考”模式间切换,在保证准确性的同时提升推理效率。

研究背景与问题

  • 现有模型的优势与不足:先进的大型推理模型(LRMs)通过扩展的思维链(CoT)推理来解决复杂任务,取得了最先进的性能。但研究发现,LRMs在解决很多简单任务时,会产生过长的推理序列,导致计算开销显著增加。例如,在问答和数学任务中,LRMs生成的 tokens 数量是非推理大语言模型(如Qwen2.5-Instruct系列)的9.78倍以上。
  • 现有解决方案的局限性:虽然有研究通过强化学习或提示工程来控制推理长度,但这些方法将模型限制在单一的静态推理模式,要么持续压缩,要么完全跳过推理,无法根据任务复杂程度自适应调整。

核心思路与方法

  • 受人类认知模式启发:人类认知过程分为快速直觉思维(系统1)和慢速深思推理(系统2)。OThink-R1希望将这种模式引入LRMs,让模型在面对简单任务时使用“快思考”模式直接给出答案,面对复杂任务时使用“慢思考”模式进行详细推理。
  • 识别冗余与必要推理
    • 冗余推理模式:包括多解决方案探索(找到正确答案后仍持续探索其他解法)、重复自我验证(过度验证中间步骤)、防御性假设(基于内部知识过度谨慎地考虑无关假设)。
    • 必要推理模式:包括关键词识别(提取问题关键要素)、误解预防(消除对问题陈述的误解)、前提遗漏避免(涵盖所有给定前提和条件)。
  • 构建SFT数据集:通过LLM-Judge(如GPT-4o)判断LRMs的推理轨迹是否冗余,将冗余推理轨迹修剪,仅保留直接答案作为“快思考”样本,必要推理轨迹作为“慢思考”样本,用于监督微调LRMs。
  • 引入双重参考KL散度损失函数:在监督微调过程中,同时参考快思考和慢思考模型的分布,使OThink-R1能够自主选择合适的推理模式,平衡计算效率和推理完整性。

实验结果

  • 效率提升显著:在四个代表性的问答和数学数据集上,OThink-R1平均减少了23.4%的生成tokens,同时保持或超过了原始基线模型的性能。例如,在OpenBookQA数据集上,1.5B模型的生成tokens从642减少到206,准确率从50.00%提升到51.80%。
  • 动态切换能力:在测试集上,OThink-R1在超过27.3%的问题上使用了快思考模式,尤其在小参数模型中表现更明显。例如,在OpenBookQA数据集上,1.5B模型的快思考比例达到80.00%。
  • 消融实验验证有效性:通过去除修剪、LLM-Judge、KL约束等不同组件的实验,验证了每个组件对OThink-R1性能的重要性。例如,去除KL约束会导致模型性能下降,证明了双重参考KL散度损失函数的必要性。

结论与意义

  • 提出新框架:OThink-R1是首个能够自动在快思考和慢思考模式间切换的大型推理模型,填补了现有模型在动态推理能力上的空白。
  • 提供实用指导:通过系统分析LRMs的推理轨迹,为构建高效推理模型提供了实用指导,有助于推动AI推理的适应性和可扩展性。
  • 未来方向:未来将探索OThink-R1在多模态推理和更广泛模型架构中的应用,进一步提升自适应AI系统的能力。

你可能感兴趣的:(论文阅读)