NoThinking vs Thinking:推理模型无需思考也能有效

摘要:最近的大型语言模型(LLMs)显著提升了推理能力,主要是通过在生成过程中包含一个明确且冗长的“思考”过程来实现的。在本文中,我们质疑这种明确的思考过程是否真的必要。我们使用最先进的DeepSeek-R1-Distill-Qwen模型,发现通过简单的提示绕过思考过程(记作NoThinking)可以出人意料地有效。在控制token数量的情况下,NoThinking在多个具有挑战性的推理数据集上优于思考过程(Thinking),这些数据集包括数学问题求解、形式化定理证明和编程,尤其是在低预算设置下,例如在ACM 23上,使用700个token时,NoThinking的性能为51.3,而Thinking的性能为28.9。值得注意的是,随着k的增加,NoThinking的pass@k性能变得更加具有竞争力。基于这一观察,我们展示了使用NoThinking独立生成N个输出并聚合它们的并行扩展方法是非常有效的。对于聚合,如果有任务特定的验证器,我们使用它们;否则,我们应用简单的最佳N策略,例如基于置信度的选择。我们的方法在延迟与使用Thinking的基线相似的情况下优于一系列基线,并且与延迟显著更长(高达9倍)的Thinking相当。总的来说,我们的研究鼓励重新考虑冗长思考过程的必要性,同时也为在低预算设置或低延迟下通过并行扩展实现强大的推理性能建立了一个有竞争力的参考。

本文目录

一、背景动机

二、核心贡献

三、实现方法

3.1 预填充思考块

3.2 预算强制技术

3.3 聚合策略

四、实验结论

4.1 模型和测试集

4.2 评估指标

4.3 实验结果

五、局限性


一、背景动机

论文题目:Reasoning Models Can Be Effective Without Thinking

论文地址:https://arxiv.org/pdf/2504.09858

如 DeepSeek-R1、OpenAI o1 等推理模型通过引入显式的、冗长的思考过程,显著提升了在复杂任务中的表现。这些模型在生成最终答案之前,会先生成一个思考过程,包含反思、回溯和自我验证等步骤。

尽管显式的思考过程被广泛认为有助于提升模型的推理能力,但文章通过提出 NoThinking 方法,挑战了显式思考过程在推理任务中的必要性,并展示了在低预算和低延迟场景下,简洁的推理过程可以达到甚至超过冗长思考过程的性能。

NoThinking vs Thinking:推理模型无需思考也能有效_第1张图片

二、核心贡献

1、文章提出了一种名为 NoThinking 的方法,通过简单的提示策略绕过显式的思考过程,直接生成最终答案。这种方法在多个推理基准测试中表现出色,尤其是在低预算(即有限的 token 使用量)和低延迟(快速响应)的场景下。

2、文章通过实验发现,简洁的推理过程往往与更高的准确性相关联,这与普遍认为更长的思考过程能带来更高准确性的观点相悖。

3、文章进一步展示了 NoThinking 方法与平行测试时间计算(parallel test-time compute)结合时的有效性。通过并行生成多个独立的输出并聚合它们,NoThinking 方法在保持或提升准确性的同时,显著降低了延迟。

三、实现方法

3.1 预填充思考块

在模型的解码过程中,文章通过在提示中预填充一个空的思考块,直接引导模型生成最终答案。具体来说,模型的输入提示被设计如下,这种提示策略使得模型跳过显式的思考过程,直接输出最终答案。

  • 原始的推理模型推理方式
思考:让我们逐步解决这个问题。首先,我需要...
[许多推理令牌]
...因此解决方案是 X。
解决方案:X
答案:X
  • NoThink的推理模型推理方式
思考:[为简洁起见,省略思考]
解决方案:X
答案:X

Okay, I have finished thinking. Please write the answer for this problem directly without any thinking process.

3.2 预算强制技术

为了在 NoThinking 和 Thinking 方法之间进行公平的比较,文章采用了预算强制技术,通过限制生成的 token 数量来控制两种方法的 token 使用量。

  1. 记录 NoThinking 的平均 token 使用量:首先运行 NoThinking 方法,记录其平均 token 使用量。

  2. 设置 Thinking 的 token 预算:根据 NoThinking 的平均 token 使用量,设置一个略低的 token 预算,以确保 Thinking 方法的总输出长度与 NoThinking 相当。

  3. 强制生成最终答案:如果生成达到 token 预算而没有生成停止标记(即思考被截断),则通过附加 <|end of thinking|> 标签(仅限 Thinking 方法)和最终答案前缀来提示模型直接生成最终答案。

3.3 聚合策略

在平行测试时间计算中,NoThinking 方法通过并行生成多个独立的输出,并通过某种策略选择最佳结果,文章中使用了以下几种聚合策略。

  1. 基于置信度的选择:选择置信度最高的输出。置信度可以通过模型的输出概率分布或其他指标来计算。

  2. 多数投票(Majority Voting):选择出现次数最多的输出。这种方法适用于有明确答案的任务,如数学问题求解。

  3. 任务特定的验证器:如果任务有自动验证器(如形式定理证明中的验证器),可以直接验证每个输出的正确性,并选择正确的输出。

四、实验结论

4.1 模型和测试集

文章使用DeepSeek-R1-Distill-Qwen-32B 和 Qwen-32B-Instruct模型,在包括数学问题求解(AIME 2024、AIME 2025、AMC 2023)、编程(LiveCodeBench)和形式定理证明(MiniF2F、ProofNet)等多个推理基准测试中评估了 NoThinking 方法。

4.2 评估指标

文章使用了 pass@k 指标来评估模型的性能,该指标衡量在 k 个随机选择的样本中至少有一个正确答案的概率。具体来说:

  • pass@1:衡量单个样本的准确性。

  • pass@k:衡量 k 个样本中的最高准确性,k 的值根据任务不同而变化。

4.3 实验结果

  • 在没有token限制的情况下,NoThinking 方法在 pass@k 指标上表现出色,尤其是在 k 增加时,其性能逐渐超过 Thinking 方法。

NoThinking vs Thinking:推理模型无需思考也能有效_第2张图片

  • 在token受限的情况下,NoThinking 方法在低预算设置中显著优于 Thinking 方法,尤其是在 pass@k 指标上。

NoThinking vs Thinking:推理模型无需思考也能有效_第3张图片

  • 在平行测试时间计算中,NoThinking 方法结合简单的最佳选择策略,能够在保持或提升准确性的同时,显著降低延迟。

NoThinking vs Thinking:推理模型无需思考也能有效_第4张图片

五、局限性

1、尽管 NoThinking 方法在多个基准测试中表现出色,但某些任务(如 LiveCodeBench)上其性能并不如其他任务显著。这表明 NoThinking 方法的有效性可能因任务而异。

2、在没有验证器的任务中,NoThinking 方法依赖于置信度选择策略来聚合多个输出,这可能不如任务特定的验证器可靠。

3、在高预算设置下,Thinking 方法在某些任务上仍然优于 NoThinking 方法,尤其是在 pass@1 指标上。

你可能感兴趣的:(大模型论文阅读解析,人工智能,语言模型,自然语言处理)