训练成本降低2000倍: 直接将推理能力注入LLM

论文标题

Resa: Transparent Reasoning Models via SAEs

论文地址

https://arxiv.org/pdf/2506.09967

代码地址

https://github.com/shangshang-wang/Resa

作者背景

南加州大学

动机

激发大模型的推理能力通常需要繁重的后训练工作(带 CoT 的 RL 或 SFT),这一过程不仅需要昂贵的数据与计算资源,还缺乏可解释性(并不清楚模型内部有何变化)。但实际上,“推理能力”并非是一项完全领域垂直的技能,不管是在什么数据上,推理过程中的认知模式、思维体系都存在相通之处,这表明繁杂的推理后训练存在较大的计算资源浪费

于是作者希望找到一种更简洁的训练方法,低成本、可解释、高效地实现大模型推理能力激发

本文方法

本文提出 Resa 训练方法,核心思想是通过稀疏自编码器(SAE),从某个已具备推理能力的模型中提取相关特征,然后直接注入到另一个模型中。这一过程无需过多数据与计算资源,并且通用可移植,与直接 RL 训练相比成本降低 2000 倍至 1 美元

一、稀疏自编码器

自编码器是一种信息重建架构,它对某一信息进行编码压缩、解码还原实现特征提取

训练成本降低2000倍: 直接将推理能力注入LLM_第1张图片

如上图所示,自编码器训练的中间产物便是信息的特征提取结果。在此基础上,如果给训练过程中添加稀疏惩罚(只允许少量特征被激活,其他维度为0),则可以实现更关键信息的提取

稀疏的中间产物具有良好的可观测性质:可以检查其中哪些单元在某问题上被激活,从而分析模型内部的推理模式

二、SAE训练

Resa 训练流程包含两个阶段,首先是在具备推理能力的源模型上,利用 SAE 提取出关键的推理特征。具体地,作者从开源数据集中抽取了一些推理问题,并整理成以下格式:

问题:[问题] [答案] < 答案 > 答案:[答案]

注意这里虽然使用了标记但仅用于激发模型推理能力,数据中并未直接提供推理过程。将这些样本输入源模型以生成推理过程,同时在模型的中间层插入一个 SAE 模块学习特征重建,从而提取关键中间特征

训练成本降低2000倍: 直接将推理能力注入LLM_第2张图片

三、SAE引导微调

将上述训练好的 SAE 模块,冻结后插入与源模型同家族的另一个非推理模型中,形成两条推理路径:【输入 -> 隐藏层 -> 输出】与【输入 -> 隐藏层 -> SAE -> 剩余隐藏层 -> 输出】,此阶段的训练目标是两条推理路径产生的输出(next token 预测的概率分布)尽可能相似,这一训练目标实现了维持模型原本性能,同时适应 SAE 带来的源模型特征。训练完成后 SAE 模块可以直接移除

训练成本降低2000倍: 直接将推理能力注入LLM_第3张图片

为了实现良好的可移植性,上述训练采用了 lora,如此一来 SAE 模块与引导微调结果模块都是可插拔的,方便开展后续跨数据、跨模型的实验

实验结果

一、推理能力注入效果

作者在1.5B模型上进行实验,以经过 RL 训练的 Tina 作为源模型,R1-Distill 作为目标模型,分别在 STILL 与 DeepScaleR 数据集上进行测试,结果如下所示

训练成本降低2000倍: 直接将推理能力注入LLM_第4张图片

可见 Resa 方法实现了对 RL 模型的有效移植,STILL 数据集上复现了98%的性能,DeepScaleR 上的分数甚至还更高

二、可移植性测试

首先测试 SAE 模块的可移植性。在 STILL 数据集上进行第一阶段的 SAE 训练,然后在不同的数据集上做第二阶段的引导 SFT,这些数据集包括完全覆盖了 STILL 内容的 DeepScaleR、存在不同程度交集的 Open-S1、II-Thought、Open-R1,测试结果如下所示,可见 Resa 方法始终能够达到与 RL 端到端训练相当的性能

训练成本降低2000倍: 直接将推理能力注入LLM_第5张图片

然后测试引导微调得到的 lora adapter 的可移植性。将在 Qwen 和 Qwen-Math 上训练得到的 lora 模块不经训练直接合并至 R1-distill 模型中,测试性能如下所示(合并前 R1-distill 的平均分为41.18)

在这里插入图片描述

以上结果表明 Resa 方法具有较强的泛化能力与可移植性,侧面证明其提取到了更抽象的推理策略,而非具体的知识记忆

三、SAE 预训练消融

在做 SAE 训练时,作者使用了3种训练设置:

  • 预训练: 使用 EleutherAI 训练好的 SAE 模型,直接插入目标模型进行引导微调
  • 预训练+微调: 使用 EleutherAI 训练好的 SAE 模型,在 Trigger 数据集上做微调后,再插入目标模型
  • 不预训练: 直接初始化一个 SAE 模型,在 Trigger 数据集上训练后插入目标模型

测试结果如下所示,可见直接使用预训练 SAE 的最终结果稍差,其余两种方法效果相近,这说明了 Trigger 数据集激发模型推理能力的有用性。相比之下,通用的特征提取不那么重要,可以简化掉预训练环节

训练成本降低2000倍: 直接将推理能力注入LLM_第6张图片

四、为什么说 SAE 提取特征就是源模型的推理能力

基于“推理特征主要在模型思考时被激活”这一假设,作者设计了一种特征识别方法:凡是在推理过程中(段落内)被激活,且没有在其他段落被激活的特征,被定义成“推理特征”。作者依次在 Resa 训练好的目标模型的每一层(输入层和输出层除外)插入 SAE,统计各层产生“推理特征”的数量:

训练成本降低2000倍: 直接将推理能力注入LLM_第7张图片

可见“推理特征”的数量与最终推理性能并无直接的线性关系,这否定了“推理特征越多,推理性能越好”这一朴素假设

那么我们通过 SAE 提取的推理特征与最终的推理性能到底有无关联?首先通过观察初始目标模型、源模型、训练后目标模型的特征数量分布:

训练成本降低2000倍: 直接将推理能力注入LLM_第8张图片

可见推理特征数量都呈现一种“三峰”的分布形态,可以利用 GMM(高斯混合模型)进行建模,上图中的橙色曲线便是 GMM 拟合结果

于是同样利用 GMM 对上表中不同层插入 SAE 得到的最终性能效果进行建模,结果表明,推理测试得分的 GMM 分布与推理特征数量的 GMM 分布之间紧密的结构对齐:

  • 高斯成分均值对应位置: 【5.6,15.1,23.0层】 v.s. 【4.9、14.5、22.7层】
  • 高斯成分权重: 【39%,37%,24%】 v.s. 【41%,37%,22%】
  • GMM扩散程度(熵衡量): 【3.202】 v.s. 【3.194】

可见“推理特征”数量尽管和推理性能之间没有明确的线性关系,但在 GMM 拟合后的视角下,二者的各类统计特征非常近似,这表明它们具有更加复杂且紧密的相关关系

总结

本文提出的 Resa 方法具有较好的应用价值:做业务推理模型时,我们也许没必要从头训练推理能力,而从一个更强的推理模型中提取通用的推理策略,合并至我们的各种业务模型上,进而节省一大笔计算开销

本文在1.5B尺寸的模型上做了比较充分的实验,但并没有探究更大尺寸模型的效果

你可能感兴趣的:(深度学习,人工智能,语言模型,自然语言处理,llama)