【论文阅读】AdaCtrl: Towards Adaptive and Controllable Reasoning via Difficulty-Aware Budgeting

AdaCtrl: Towards Adaptive and Controllable Reasoning via Difficulty-Aware Budgeting

      • 3 Method
        • 3.1 长度触发标签作为控制接口( Length-Trigger Tags as Controlling Interface)
        • 3.2 冷启动微调(Cold-start fine-tuning)
        • 3.3 难度感知的强化学习框架(Difficulty-aware reinforcement learning framework)
      • 4 数据集

AdaCtrl: Towards Adaptive and Controllable Reasoning via Difficulty-Aware Budgeting 介绍了AdaCtrl,一个旨在解决大型推理模型在处理简单问题时过度思考问题的框架。AdaCtrl通过动态调整推理长度来适应问题的难度,并允许用户手动控制推理深度,以在效率和效果之间取得平衡。

【论文阅读】AdaCtrl: Towards Adaptive and Controllable Reasoning via Difficulty-Aware Budgeting_第1张图片
本博客仅记录文章在方法上的创新:

3 Method

【论文阅读】AdaCtrl: Towards Adaptive and Controllable Reasoning via Difficulty-Aware Budgeting_第2张图片

3.1 长度触发标签作为控制接口( Length-Trigger Tags as Controlling Interface)

如图3所示,文章引入了两个特殊的长度触发标签“[Easy]”和“[Hard]”,以更有效地利用问题难度作为控制response length的信号。每个模型生成的response都以其中一个标签开头,表示预期的推理复杂度。当模型面对一个问题时,它会被指示生成一个以长度触发标签为前缀的response ,从而根据选择的标签来调整其后续的推理过程。通过赋予模型根据指定标签分配推理资源的能力,文章提供了一个简单的接口来控制response length:用户只需将首选的长度触发标签作为初始输入令牌。

3.2 冷启动微调(Cold-start fine-tuning)

冷启动微调的目的是为模型提供有效的初始化,以便在输出格式和难度估计方面进行训练。具体来说,通过在DeepMATH数据集上进行微调,模型可以学习到不同难度问题的处理策略。

  • 数据集构建

    • 对于简单问题(Easy problems),使用模型 M M M 生成简洁的response。
    • 对于复杂问题(Hard problems),使用一个强大的推理模型 R R R 生成详细的推理过程。
    • 过滤出正确的部分,构建数据集 D e D_e De D h D_h Dh
      D e = { ( q e i , [ r i , y i ] ) ∣ [ r i , y i ] = M ( q e i ) , I ( y i , y ^ i ) = 1 } D_e = \{(q_{ei}, [r_i, y_i]) | [r_i, y_i] = M(q_{ei}), I(y_i, \hat{y}_i) = 1\} De={(qei,[ri,yi])[ri,yi]=M(qei),I(yi,y^i)=1}
      D h = { ( q h i , [ r i , y i ] ) ∣ [ r i , y i ] = R ( q h i ) , I ( y i , y ^ i ) = 1 } D_h = \{(q_{hi}, [r_i, y_i]) | [r_i, y_i] = R(q_{hi}), I(y_i, \hat{y}_i) = 1\} Dh={(qhi,[ri,yi])[ri,yi]=R(qhi),I(yi,y^i)=1}
    • 其中, [ r i , y i ] [r_i, y_i] [ri,yi] 是模型生成的response,包括推理过程 r i r_i ri 和预测答案 y i y_i yi y ^ i \hat{y}_i y^i 是对应样本的正确答案, I ( y i , y ^ i ) = 1 I(y_i, \hat{y}_i) = 1 I(yi,y^i)=1 表示模型response [ r i , y i ] [r_i, y_i] [ri,yi] 是正确的。
  • 标签添加

    • 为简单问题的response添加 “[Easy]” 标签,为复杂问题的response添加 “[Hard]” 标签,构建最终的数据集 D D D
      D = { ( q i , [ t i , r i , y i ] ) } D = \{(q_i, [t_i, r_i, y_i])\} D={(qi,[ti,ri,yi])}
    • 其中, t i t_i ti 是长度触发标签(length-trigger tag),用于控制推理深度。
3.3 难度感知的强化学习框架(Difficulty-aware reinforcement learning framework)

强化学习框架旨在增强模型的自适应推理能力和对问题难度的自我评估。通过在线训练,模型可以更有效地评估问题的难度,并根据自身能力开发适应性的推理策略。

  • 奖励函数设计
    • 总体奖励 r ( y i ) r(y_i) r(yi) 由三个部分组成:
      r ( y i ) = r o ( y i ) + α ⋅ r f ( y i ) + β ⋅ r l ( y i ) r(y_i) = r_o(y_i) + \alpha \cdot r_f(y_i) + \beta \cdot r_l(y_i) r(yi)=ro(yi)+αrf(yi)+βrl(yi)

    • 其中, α \alpha α β \beta β 是超参数。

    • 基础奖励 r o ( y i ) r_o(y_i) ro(yi)

      • 基础奖励 r o ( y i ) r_o(y_i) ro(yi) 通常基于任务的完成情况,例如答案的正确性。
    • 长度触发标签匹配奖励 r f ( y i ) r_f(y_i) rf(yi)

      • 该奖励基于长度触发标签 t i t_i ti 和估计标签 t ^ i \hat{t}_i t^i 的匹配情况:

        r f ( y i ) = { 1.0 if  I ( t i , t ^ i ) = 1 0.0 if  I ( t i , t ^ i ) = 0 − 1.0 if  t i  cannot be found in  y i r_f(y_i) = \begin{cases} 1.0 & \text{if } I(t_i, \hat{t}_i) = 1 \\ 0.0 & \text{if } I(t_i, \hat{t}_i) = 0 \\ -1.0 & \text{if } t_i \text{ cannot be found in } y_i \end{cases} rf(yi)= 1.00.01.0if I(ti,t^i)=1if I(ti,t^i)=0if ti cannot be found in yi

      • 其中, I ( t i , t ^ i ) = 1 I(t_i, \hat{t}_i) = 1 I(ti,t^i)=1 表示标签匹配, I ( t i , t ^ i ) = 0 I(t_i, \hat{t}_i) = 0 I(ti,t^i)=0 表示标签不匹配。

    • 难度感知长度奖励 r l ( y i ) r_l(y_i) rl(yi)

      • 该奖励鼓励模型在处理简单问题时生成简洁的response,而在处理复杂问题时生成详细的response:
        r l ( y i ) = { − length ( y i ) if 问题简单 length ( y i ) if 问题复杂 r_l(y_i) = \begin{cases} -\text{length}(y_i) & \text{if } \text{问题简单}\\ \text{length}(y_i) & \text{if } \text{问题复杂}\\ \end{cases} rl(yi)={length(yi)length(yi)if 问题简单if 问题复杂

4 数据集

文章中使用了以下数据集:

  1. AIME2024

    • 包含30个样本。
    • 用于评估模型在较难的数学竞赛问题上的表现。
  2. AIME2025

    • 包含30个样本。
    • 用于评估模型在较难的数学竞赛问题上的表现。
  3. MATH500

    • 包含500个数学问题,难度较高,类似于数学奥林匹克竞赛题目。
  4. GSM8K

    • 包含8000个小学水平的数学问题,是四个数据集中最简单的。
  5. DeepMATH

    • 提供了每个问题的难度注释,用于冷启动微调和难度感知的强化学习。
    • 包含103,000个数学问题,分为简单和复杂问题。
    • 用于冷启动微调的数据集包括10,000个简单问题和20,000个复杂问题。
    • 用于难度感知强化学习的数据集包括30,000个额外的样本,其中10,000个简单问题和20,000个复杂问题。

你可能感兴趣的:(LLM,论文阅读,语言模型)