绒绒毛毛雨

Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models

文章目录

- 摘要
- 1 引言
- 2 背景：长思维链推理模型与过度思考现象
- - 2.1 思维链（CoT）推理
  - 2.2 长CoT推理模型中的过度思考问题
- 3 基于模型的高效推理
- - 3.1 基于长度奖励设计的强化学习（RL）
  - 3.2 使用可变长度CoT数据的监督微调（SFT）
  - - 3.2.1 构建可变长度CoT推理数据集
    - 3.2.2 微调方法
- 4 基于推理输出的高效推理
- - 4.1 将推理步骤压缩为更少的潜在表示
  - 4.2 推理过程中的动态推理范式
  - - 4.2.1 基于显式标准的动态推理
- 4.2.2 基于摘要的动态推理
- 5 基于输入提示的高效推理
- - 5.1 提示引导的高效推理
  - 5.2 提示属性驱动的推理路由
- 6 通过高效训练数据和模型压缩提升推理能力
- - 6.1 用更少的数据训练推理模型
  - 6.2 通过蒸馏和模型压缩提升小型语言模型的推理能力
- 7 评估与基准
- 8 应用与讨论
- - 8.1 应用
  - 8.2 讨论
- 9 结论

摘要

大型语言模型（LLMs）在复杂任务中展现出了卓越的能力。近期在大型推理模型（LRMs）方面的进展，例如OpenAI的o1和DeepSeek-R1，进一步提升了在系统2推理领域（如数学和编程）的性能，通过利用监督微调（SFT）和强化学习（RL）技术增强思维链（CoT）推理。然而，尽管较长的CoT推理序列能够提高性能，但也因冗长和重复的输出引入了显著的计算开销，这被称为“过度思考现象”。高效推理旨在优化推理长度，同时保持推理能力，提供了减少计算成本和提高实际应用响应性的实际好处。尽管其潜力巨大，高效推理的研究仍处于早期阶段。

本文提供了首个结构化综述，系统地调查和探索在LLMs中实现高效推理的当前进展。总体而言，基于LLMs的固有机制，我们将现有研究分类为几个关键方向：（1）基于模型的高效推理，考虑将完整推理模型优化为更简洁的推理模型或直接训练高效推理模型；（2）基于推理输出的高效推理，旨在推理过程中动态减少推理步骤和长度；（3）基于输入提示的高效推理，旨在根据输入提示的特性（如难度或长度控制）提升推理效率。此外，我们介绍了使用高效数据进行推理模型训练，探索小型语言模型的推理能力，并讨论评估方法和基准测试。我们维护一个公共仓库，以持续跟踪和更新这一前沿领域的最新研究。

1 引言

大型语言模型（LLMs）作为强大的人工智能工具，展现出在自然语言理解和复杂推理方面的先进能力。近年来，专注于推理的LLMs，即被称为具有推理能力的模型或大型推理模型（LRMs）[98]，如OpenAI的o1 [65]和DeepSeek-R1 [33]，在系统2推理领域[47]中显著提升了性能，尤其是在具有挑战性的数学[18,37]和编程任务[7,19]中。LRMs是基于基础的预训练模型（如LLaMA [32,86]）演变而来的，这些模型通过下一个标记预测进行训练[25]，通常利用思维链（CoT）[92]推理链生成明确的、逐步的推理序列，从而达到最终答案，显著提高了在推理密集型任务中的有效性。

LLMs的推理能力通常通过监督微调（SFT）和强化学习（RL）来发展，这些方法促进了迭代和系统性的问题解决能力。例如，DeepSeek-R1 [33]经过多轮SFT和RL训练，强调结构化思维模板和基于规则的奖励机制。特别是，基于规则的奖励在训练过程中提供了精确和明确的反馈信号，有效增强了超越预训练LLM的一般推理能力。

然而，尽管较长的CoT推理显著提升了准确性，逐步思考机制也导致输出响应冗长，从而产生了显著的计算开销和增加的推理时间。例如，在回答简单问题时，如“2加3等于多少？”会出现“过度思考问题”[10]。一些推理模型，尤其是较小的模型，可能生成数千个标记的推理序列。这种冗长性显著增加了推理成本和延迟，限制了推理模型在计算敏感的现实场景中的实际应用，例如实时自主驾驶系统、互动对话助手、精密机器人控制任务和大规模在线搜索引擎。

高效推理，特别是推理长度的缩减，在这些方面提供了显著的好处，直接降低成本并提高现实部署的可行性。最近，许多研究[34,35,57,59,104]探索了开发更简洁推理路径的方法，使得高效推理成为一个快速发展的研究领域。

在本文中，我们呈现了首个结构化综述，系统地探索LLMs中高效推理的进展。如图2所示，我们将现有研究分类为三个关键方向：（1）基于模型的高效推理，重点优化完整推理模型为更简洁的变体或直接训练高效推理模型；（2）基于推理输出的高效推理，在推理过程中动态减少推理步骤和长度；（3）基于输入提示的高效推理，基于输入特性（如难度或长度控制）提升推理效率。与模型压缩技术（如量化[29,50,97]或KV缓存压缩[55,76,107,110]）不同，这些技术主要关注于减少模型大小以实现轻量级推理，而LLMs中的高效推理则强调通过优化生成推理序列的长度和减少不必要的思考步骤来实现聪明且简洁的推理。

总体而言，我们总结了当前高效推理的关键方法，将其组织为以下几类：

具有长度奖励设计的强化学习（第3.1节）
变长CoT数据的监督微调（第3.2节）
将推理步骤压缩为更少的潜在表示（第4.1节）
推理过程中的动态推理范式（第4.2节）
受提示引导的高效推理（第5.1节）
路由提示以优化推理效率（第5.2节）

此外，我们还探讨了其他相关主题，包括：

使用高效数据训练推理模型（第6.1节）
小型语言模型的推理能力及模型压缩（第6.2节）
高效推理模型的评估与基准测试（第7节）

2 背景：长思维链推理模型与过度思考现象

2.1 思维链（CoT）推理

思维链（CoT）推理[92]是一种关键方法，旨在增强大型语言模型（LLMs）的推理能力。在这种设置中，模型通常被提示生成一个结构化的推理链，然后再得出最终答案。该领域的技术已被证明能提高整体准确性[92]，因为高质量的生成上下文通常会导致更一致和可靠的最终结果。已经开发出几种显著的CoT变体：自一致性CoT [90]通过采样多样的推理路径并通过边际化和聚合选择最一致的答案，取代了标准的贪婪解码方法。思维树（ToT）提示[102]进一步将推理过程结构化为树形结构并支持回溯，从而显著提高了解决可并行子任务的效率。而思维图（GoT）提示[6]则通过将思维结构化为图，允许对个别推理步骤进行迭代优化。尽管存在许多CoT变体，它们通常涉及不同的提示技术来引导模型的行为，有时还结合了类似控制器的机制来管理思维的进展和使用。

最近的推理模型，如DeepSeek-R1 [33]和OpenAI的o1 [57]，被认为或已知比其非推理对手更能帮助用户，如在聊天机器人竞技场的LLM排行榜中所示。这种能力在逻辑密集型任务（例如数学和编程）中特别有利，因为多步推理使LLMs能够在得出最终答案之前生成结构化的推理步骤。OpenAI o1模型被推测采用基于树的搜索方法，如蒙特卡罗树搜索（MCTS）[20,41]，结合过程奖励模型（PRM）以通过指导模拟探索推理路径并确定最佳解决方案。另一方面，DeepSeek-R1则通过监督微调和强化学习明确学习其推理能力，尤其强调规则基础的奖励机制以应对数学和编码任务。这些模型在得出最终答案之前，训练生成预定义格式的推理步骤。

2.2 长CoT推理模型中的过度思考问题

长CoT推理模型中的“过度思考现象”[10,83]指的是LLMs生成过于详细或不必要的复杂推理步骤，最终降低了它们解决问题的效率。特别是许多现代推理模型，尤其是参数规模较小的模型，倾向于生成冗长的推理或冗余的中间步骤，使得它们无法在用户定义的标记预算内提供答案。在更糟糕的情况下，过多的推理步骤会引入错误或模糊逻辑的清晰度，导致错误答案。图4展示了过度思考的一个例子。尽管模型在推理过程的早期就得出了正确答案，但它仍继续生成不必要的中间步骤，导致效率低下。考虑到与LLM推理相关的巨大资源成本（例如，OpenAI o1每生成100万标记的成本为60美元），这种行为是极为不受欢迎的。此外，如果更长的推理导致错误答案，问题将变得更加严重。相反，高效推理模型则会使用更少的推理步骤来获得正确答案，同时降低推理成本。

解决这一挑战尤为困难，因为推理能力模型的预训练方案通常明确鼓励生成延长的推理步骤以提高准确性。例如，DeepSeek-R1-Zero作为DeepSeek-R1的一个开发原型，其训练时间增加与响应长度延长和基准性能提升之间呈直接相关性[33]。这些趋势通常被视为成功推理训练的代理。因此，提高推理效率要求抵制某些预训练目标，成为一项非平凡的挑战。

本文旨在系统总结各种方法和策略，以实现开发具有高效率和强大推理能力的推理模型这一富有挑战性但有价值的目标。

3 基于模型的高效推理

从模型的角度来看，这些研究专注于微调大型语言模型（LLMs），以提高它们简洁而高效的推理能力。

3.1 基于长度奖励设计的强化学习（RL）

大多数推理模型采用基于强化学习的方法进行训练（例如，DeepSeek-R1 [33]、DeepSeek-R1-Zero [33]、OpenAI o1 [65]、QwQ-32B-Preview [84]），这些方法主要关注准确性奖励和格式奖励[33]。为了提高推理长度效率，一些研究提出在RL框架中整合长度奖励，这有效缩短了推理过程（如表5所示）。原则上，长度奖励为短的正确答案赋予更高的分数，而对冗长或不正确的答案进行惩罚，从而优化推理路径的长度。现有研究利用传统的RL优化技术结合显式的基于长度的奖励来控制思维链推理的长度。一些详细的长度奖励在表1中列出。

研究[3]提出利用基于正确性的长度奖励，较短的正确答案会获得更高的奖励。然后，他们应用传统的策略梯度方法，按照这一奖励方案引导LLMs生成简洁的推理步骤。从策略梯度扩展，以下讨论的工作主要基于近端策略优化（PPO）[71]，并加入了思维链长度惩罚。《揭开神秘面纱》[104]提供了来自RL实验的实证结果，考察了推理能力如何受到长度的影响。他们证明，RL并不总是能够一致或可靠地增加思维链的长度和复杂性，强调了控制思维链长度增长以确保稳定性能的必要性。为了解决这些问题，他们提出了一种基于余弦奖励的方案，基于简洁奖励公式的Dirichlet函数[56]，并提出了“超出长度惩罚”得分。由于思维链长度对性能的影响，Kimi k1.5 [83]在其策略优化中加入了长度惩罚（在线策略镜像下降的变体[85]），以改善长思维链的激活并促进有效模型合并。除了使用长度惩罚进行优化外，L1 [1]还在启动策略优化之前，使用指定长度约束指令（即“思考N个标记”）修改训练数据。O1-Pruner [57]引入了长度协调奖励，并结合PPO风格的损失，优化推理LLMs，通过有效缩短思维链的长度来实现。具体而言，长度协调奖励是基于参考模型输出与预测结果之间的思维链长度比率进行计算的。此外，该奖励结合了基于准确性的约束，比较预测与参考模型输出，确保缩短推理过程不会降低任务性能。DAST [74]不依赖于参考模型，利用SimPO [60]通过构建长度偏好数据集来微调推理LLMs。该数据集基于自定义的标记长度预算Lbudget生成，定义为正确响应的平均标记长度和最大允许生成长度的线性组合。

这些基于RL的方法能够减轻在推理能力LLMs中存在的过度思考问题，过度思考指的是不必要的延长推理过程，导致推理时间变长并超出计算预算。通过几乎无损地与LLMs的原始推理能力保持一致，这些预算高效的RL策略使推理LLMs在资源受限的场景中得到广泛应用。

3.2 使用可变长度CoT数据的监督微调（SFT）

使用可变长度的CoT数据微调LLMs是提高推理效率的有效方法。如图6所示，这系列工作通常包括：（1）通过各种方法构建可变长度的CoT推理数据集；（2）使用收集的数据对推理模型进行SFT，使LLMs能够学习封装有效知识的紧凑推理链。需要注意的是，这种方法不仅限于经过RL训练的推理模型；它也可以通过注入高效推理能力直接增强推理模型，类似于用于蒸馏推理模型的方法（例如，DeepSeek-R1-Distill-Qwen [33]）。

3.2.1 构建可变长度CoT推理数据集

可变长度的CoT推理数据集是指长/短推理步骤的数据集，这些数据集可以指导LLMs实现正确答案。现有研究通常通过对预训练推理模型进行提问来收集长CoT数据。基于长CoT数据，关键挑战是：如何收集短CoT数据？总体而言，可变长度的CoT推理数据集可以通过推理后或推理过程中创建。我们在表3中列出了一些详细的方法。

推理后CoT压缩。 这种方法通过在生成完整的推理后，使用启发式标准或LLMs减少冗余推理步骤来收集短CoT数据，如[105]、[40]和[95]所提出的。具体而言，[105]使用具有推理能力的LLMs生成推理和答案。在生成完整的CoT数据后，他们丢弃推理过程，仅使用问题和答案来提炼系统-1 LLMs。另一个工作C3oT通过压缩推理过程来提高推理效率[40]。长CoT推理步骤是通过明确提示LLMs生成的。然后，它使用GPT-4作为压缩器，以减少推理过程的长度，同时确保压缩后的推理保留所有关键信息并去除冗余词。此外，TokenSkip通过解释驱动来减少推理步骤[95]。它评估每个推理部分对最终答案的语义重要性，并减少推理标记。重要部分保留了可能提高最终答案准确性的关键推理步骤。推理后CoT压缩的优势在于能够实现更高的推理步骤减少率，促进更高效的推理。

在推理过程中获取压缩的CoT数据。 这种方法通过提示LLMs在推理和推理过程中生成短推理步骤来收集短CoT数据，如[53]、[62]、[34]和[59]所提出的。具体而言，[53]提出了一种类人步骤跳过的方法来生成更短的推理步骤。在第一阶段，基于原始训练数据集，他们手动创建通过跳过步骤获得的解决方案，或由人类专业知识引导，或随机合并或删除步骤。此外，这些简洁数据用提示标注，如“在n步骤内解决”。经过SFT后，模型能够生成更短的推理路径。在第二阶段，他们提示该模型通过内在地跳过或压缩步骤来解决问题。生成的简洁推理步骤连同问题和答案被收集为数据集，然后用于SFT，使LLMs以更少的步骤解决问题。此外，Token-Budget [34]提供了一个重要的见解：最佳的标记预算帮助LLMs主动遵循标记约束来完成推理过程。受到这个见解的启发，它提出了一种基于二分搜索的方法来实现最佳标记预算，并遵循这些预算生成短推理步骤。此外，[62]提出了一种基于采样的方法来提高推理效率。具体而言，它检查推理长度的分布，发现较短的解决方案比典型推理长度更频繁出现。基于这一发现，它提出了一种在测试时进行N个推理路径生成的最佳N（BoN）采样，并选择最短的一个。这些短推理路径被收集为数据集。最后，CoT-Value [59]通过混合长推理和非推理LLMs的参数来控制推理长度，以生成可变长度的推理步骤。在推理过程中进行CoT压缩的优势在于，天然生成的推理步骤与LLMs的内在知识对齐，从而促使LLMs更有效地学习。

3.2.2 微调方法

在收集可变长度CoT数据后，现有研究以几种方式微调LLMs以实现高效推理，这些方法包括标准微调（例如，低秩适应（LoRA）[38]或全面微调）和渐进微调。

标准微调。 大多数工作采用标准方法微调LLMs [34,40,53,62,95,105]。具体而言，这些方法采用LoRA [38]或全面微调[40]，以最小化困惑度损失函数或DPO损失函数[34]在推理效率数据集上的损失。LoRA使LLMs能够以不到1%的调优参数适应短推理步骤。此外，[53]观察到增长的推理效率能够推广到超出收集的数据集的领域。

渐进微调。 渐进微调旨在平滑地减少微调过程中的推理步骤[53,59]。一种方法是在微调LLMs时逐步减少数据的推理步骤，如[53]中所采用的。另一种有效的方法是逐步调整推理步骤的生成，如CoT-Value [59]所提出的。具体而言，它首先学习LoRA适配器∆θN和θL，其中具有∆θN的LLMs没有推理步骤，而具有∆θL的LLMs具有长推理。然后，通过α∆θN +(1−α)∆θL混合这两个参数，以生成可变长度的推理数据集。在这里，0 < α < 1 控制从∆θN到∆θL的参数转移，从而控制LLMs生成的推理长度。最终，它在生成的数据上微调LLMs，同时逐步将α从1减少到0。通过这种方式，它在微调过程中逐步提高推理效率。

4 基于推理输出的高效推理

从推理步骤的输出角度来看，这些研究专注于修改输出范式，以增强大型语言模型（LLMs）简洁而高效的推理能力。

4.1 将推理步骤压缩为更少的潜在表示

尽管标准的思维链（CoT）方法通过明确写出推理步骤提高了LLM的性能，但最近的研究[24]表明，简单地添加中间“思考”标记，甚至是毫无意义的填充词（例如“……”）[67]，也可以提高性能。[31]通过在隐藏空间中重复扩展来扩大更深层次的推理，而不是依赖冗长的文本。这些发现强调，收益往往来自于更多的隐藏计算，而不是纯粹的文本分解。基于潜在推理可以让LLMs更高效、灵活地推理，并减少（或不使用）明确的文本中间步骤，几种新方法专注于将显式的CoT压缩或替换成更紧凑的潜在表示。

关键问题是：如何将推理步骤压缩到潜在空间？

一般而言，这些方法可以分为两种类型：训练LLMs使用潜在表示进行推理或使用辅助模型。一些方法的可视化比较在图7中展示。

训练LLMs利用潜在表示。 在最早的探索中，Coconut（连续思维链）[35]将LLM的最终层隐藏状态视为“连续思维”，以替代传统的离散标记。然后，它重用这些隐藏状态作为下一个输入，表明将标记压缩为潜在表示能够通过减少中间“思考”标记的数量来提高准确性和效率。CODI [75]则采用与Coconut不同的训练过程，通过自蒸馏学习连续的潜在CoT。在CODI中，模型同时担任教师和学生，联合学习显式和隐式的CoT，同时对标记上的隐藏激活进行对齐，生成最终答案。这种自蒸馏过程使LLMs能够在内部进行推理，而不生成显式的CoT标记。同样，CCOT [12]将长CoT推理浓缩成简短且内容丰富的连续思考标记。首先，它为查询预计算完整的CoT，并选择最重要的隐藏状态作为压缩的金标准。CCOT模块（一个LoRA）被训练以预测这些关键标记。然后，DECODE模块（另一个LoRA）在查询和压缩标记上进行训练。在推理过程中，CCOT生成压缩的标记，DECODE利用这些标记生成简洁的推理步骤。

另一类工作是基于摘要的动态推理，正如第4.2节所提到的，探索在推理过程中压缩和总结推理步骤，这与“思考标记”的引入类似。另一项工作Heima [73]，受到Coconut [35]的启发，将潜在推理引入多模态大型语言模型（MLLMs）。Heima不再总是使用完整的、冗长的推理解释，而是用单个“思考标记”替代每个详细推理阶段。通过这一变化，训练数据被更新。每个推理阶段只是这些思考标记之一。然后，他们继续对模型进行微调，以实现高效推理。Token Assorted [79]采用混合方法。在训练过程中，部分CoT被通过VQ-VAE [88]学习到的离散潜在标记替换，然后LLM与部分和高层次的推理步骤进行训练。作者表明，将文本标记与潜在标记混合可以通过将某些推理步骤以紧凑的潜在形式表示来促进训练和推理。除了显式地将离散标记压缩到潜在空间外，[70]还表明，循环k层变换器L次可以模拟kL层模型的性能。这种循环机制有效地增加了模型的深度，而不增加参数，使得在潜在空间中实现迭代推理过程成为可能。该研究揭示，经过循环的模型隐式生成潜在思维，使其能够通过连续的循环模拟多步CoT推理。

在保持LLMs不变的情况下训练辅助模块。 虽然大多数连续空间推理的方法微调已经预训练的LLM，但SoftCoT [100]保持基础LLM不变。一个轻量级的辅助模型生成特定实例的软思考标记，并将其投影到被冻结的LLM的嵌入空间中。实验表明，SoftCoT始终能够提升性能，证明了用外部潜在推理标记增强LLMs的可行性。这些方法暗示着向潜在推理的更广泛转变，其中关键思维以压缩的、非文本形式发生。这类方法能够提升速度、自适应推理、并行回溯以及新的解释或部分揭示模型推理的方式。随着LLMs规模的增大和任务复杂性的增加，平衡全面推理与计算效率对于这些灵活且紧凑的潜在CoT范式非常有益。

4.2 推理过程中的动态推理范式

现有的研究集中在修改推理范式以实现更高效的推理。推理过程中的关键是选择适当的标准以指导推理策略。目前的无训练方法探索使用各种标准进行动态推理，例如基于奖励、基于置信度和基于一致性的选择性推理。此外，一种基于摘要的动态推理方法在训练期间内在地结合LLMs的输出摘要范式。

关键问题是：选择哪种标准来引导推理？什么是合适的高效推理范式？

4.2.1 基于显式标准的动态推理

使用强化学习（RL）进行的训练时间缩放[33]可以显著增强LLMs的推理能力。然而，它需要大量计算资源来扩大模型训练规模，这使得它变得过于昂贵[33]。作为替代方案，研究人员探索了测试时间推理，也称为测试时间缩放[77]。测试时间缩放利用各种推理策略，使模型在复杂问题上“思考更长、更广”。这种方法通过在推理过程中增加分配的计算资源，持续提高在需要推理的挑战性数学和编码问题上的性能[5,77]。

测试时间缩放利用各种推理策略生成更长和更高质量的CoT响应。缩放推理有几种方式：（1）最佳N（Best-of-N）采样[81,91]涉及为给定提示生成多个响应，扩大搜索空间以找到更好的解决方案。生成后，使用多数投票选择最佳响应，即选择出现频率最高的响应；或者通过奖励模型，基于预定义标准评估响应质量。这种方法已显示出显著增强LLMs的推理能力[5]。（2）基于束搜索（Beam-based searching）[5,26,30]，与最佳N不同，将生成过程结构化为多个步骤。束搜索在每一步选择最有前途的中间输出，并使用过程奖励模型[87]，同时丢弃不太理想的结果。这使得响应生成和评估的优化更加细致。（3）蒙特卡罗树搜索（MCTS）[44]，在多个解决路径中并行探索。MCTS沿着解决树的不同分支生成部分响应，对其进行评估，并将奖励值回传到更早的节点。然后，模型选择具有最高累积奖励的分支，从而确保比传统束搜索更精细的选择过程。

尽管测试时间缩放可以显著减少训练时间缩放的开销[5]，但生成的大量响应仍然使推理计算成本高昂。为了解决这一问题，最近的研究探索了优化测试时间缩放的方法。

基于奖励的高效推理。 规范性拒绝（Speculative Rejection）[81]是一种高效的推理时间算法，它通过动态减少计算开销来优化最佳N（BoN）解码（如图8左侧所示）。它生成多个响应，直到内存限制几乎达到，然后基于奖励模型评估丢弃低质量输出。这种自适应过滤显著降低了推理成本，相较于普通的BoN。另一方面，奖励引导的规范性解码（RSD）[48]提高了多步推理任务的规范性解码效率。与传统的规范性解码方法严格要求草稿模型与目标模型之间的准确标记匹配不同，RSD利用过程奖励模型（PRM）动态评估来自更小、更高效的草稿模型的中间输出。高奖励分数的输出被直接接受，而低分数的输出则由更大、更有能力的目标模型进一步优化。

基于置信度/确定性的自适应推理。 动态并行树搜索（DPTS）[26]通过引入两个主要的效率问题来优化LLMs中的树型推理：(1) 并行流线优化通过仅存储增量KV缓存更新和动态调整扩展节点的数量，提高内存和计算利用率；(2) 搜索与转换机制使用基于置信度的标准平衡探索与利用。总体而言，在推理过程中，系统会切断不确定的路径以节省时间。FastMCTS [44]是另一种基于置信度的方法，旨在优化多步推理数据合成。传统的拒绝采样独立生成多个候选响应，仅选择正确的，但通常效率低下，并且在不平衡采样时表现不佳。受到MCTS的启发，FastMCTS优先考虑高置信度的路径进行深层推理。此外，它根据问题的复杂性调整树的扩展，从而提高效率和推理的多样性。另一类研究利用确定性或不确定性度量来指导自适应推理。Certaindex [30]作为一种确定性度量，通过语义熵、奖励模型分数或两者的组合量化LLMs在推理过程中的置信度。较高的Certaindex表明进一步的推理步骤不太可能改变最终答案，从而允许提前终止以释放资源用于更具挑战性的查询。Dynasor是基于这一原则构建的推理系统，通过动态跟踪推理进度来优化计算调度，而不是均匀分配资源。长度过滤投票（Length-filtered Vote）[94]是另一项利用不确定性提高CoT推理的研究。该研究发现，较长的推理链并不总是提高准确性；相反，性能最初改善但最终因错误累积而下降。作者提供了数学分析，证明存在一个最佳的CoT长度，由模型能力和任务难度决定。为此，他们提出了长度过滤投票，一种基于长度的多数投票方法，通过CoT长度对答案进行分组，并基于预测不确定性选择最可靠的组。

基于一致性的选择性推理。 自截断最佳N（ST-BoN）[91]通过引入提前终止（如图8右侧所示）增强了BoN采样的效率，类似于规范性拒绝[81]。然而，与使用奖励模型的规范性拒绝不同，ST-BoN利用一致性作为衡量重要性的标准。具体而言，它利用潜在嵌入的一致性来评估响应质量。核心见解是：“样本越接近其他样本，其路径越可能导致正确答案。”然后，ST-BoN选择与其他样本最一致的嵌入链（CoE）并将其视为最佳样本。

4.2.2 基于摘要的动态推理

一些现有方法选择通过训练LLMs总结中间思考步骤来优化推理效率。LightThinker [108] 提倡训练LLMs学习何时以及如何压缩中间推理步骤。LightThinker 不再存储冗长的思维链，而是将冗长的推理压缩成紧凑的“主旨标记”，以减少内存和计算成本。实施这种摘要范式需要一个稀疏模式的注意力掩码，以确保模型仅关注必要的压缩表示。InftyThink [101] 引入了一种迭代推理方法，使得基本上可以实现无限的推理链，同时保持强大的准确性而不超过上下文窗口限制。它通过迭代生成思考、进行总结并丢弃先前的思考和总结，只保留最新的总结。此外，InftyThink 提供了一种将现有推理数据集转换为此范式下的迭代格式的技术。

5 基于输入提示的高效推理

从输入提示和问题的角度来看，这些研究专注于根据输入提示的特征施加长度限制或引导LLMs，以实现简洁和高效的推理。

5.1 提示引导的高效推理

提示引导的高效推理明确指示LLMs生成更少的推理步骤，是提高推理模型效率的一种直接且高效的方法。如表5所示，不同的方法提出了不同的提示，以确保模型输出简洁的推理结果。

关键问题是：哪些提示可以准确控制LLMs的推理长度？

通过变化提示强制简洁推理。 Token-Budget [34] 提出了在提示中设定标记预算，以减少不必要的推理标记。为了在保留准确性的同时优化效率，[34] 引入了TALE-EP，这是一种无训练的零-shot预算估计方法。TALE-EP 首先通过提示LLM自身估计合理的标记预算。然后，它将该估计纳入一个指定标记限制的提示中，引导LLM生成更高效且准确的响应。这项工作也在第3.2节中归类为进一步的SFT。

CoD [99] 观察到LLMs通常生成过于冗长的推理步骤，而人类通常仅记录最基本的见解。为提高推理效率，他们提出了草稿链（Chain-of-Draft）提示。与思维链提示类似，CoD 鼓励逐步推理，但引入了限制冗长的政策。例如，他们的提示指示：“逐步思考，但每个思考步骤仅保留至少五个单词的草稿。”他们发现这种方法在保留必要的中间步骤的同时保持了准确性，显著减少了标记使用量。[43] 系统地研究了不同提示下推理长度与模型准确性之间的关系，使用了明确的压缩指令（例如，“使用10个单词或更少”）。他们的分析揭示了推理长度与准确性之间的普遍权衡，表明不同的基于提示的压缩策略在同一准确性-压缩曲线上对齐。他们假设每个任务都有一个内在的标记复杂性，即成功解决问题所需的最小标记数。通过计算准确性压缩权衡的信息理论极限，他们发现现有基于提示的压缩方法远未达到这些极限，表明有显著的改进空间。[69] 引入了简洁思维链（Concise Chain-of-Thought，CCoT）提示，这是一种提示LLMs逐步推理的技术，同时明确指示它们“要简洁”。MARP [8] 引入修改提示以限制单步计算，有效地细化了推理边界。此外，他们增加了每步的计算，并减少了全局规划步骤。

提示后微调。 如第3节所述，一些方法使用基于提示的方法收集短CoT数据，然后应用SFT开发一个高效的推理模型[34]。除了直接进行基于提示的推理外，这些经过微调的模型在处理复杂推理挑战时通常会表现得更为出色。

5.2 提示属性驱动的推理路由

用户提供的提示可以从简单任务到困难任务不等。高效推理的路由策略动态决定语言模型如何处理查询，这基于它们的复杂性和不确定性。理想情况下，推理模型可以自动将较简单的查询分配给速度更快但推理能力较弱的LLMs，而将更复杂的查询指向速度较慢但推理能力较强的LLMs。

关键问题是：应该使用什么标准来确定提示的属性（例如，难度）？

未知标准。 Anthropic 发布的Claude 3.7 Sonnet [2] 是首个混合推理模型，值得注意。Claude 3.7 Sonnet通过RL开发，使其能够在复杂推理任务上分配更多时间进行深入分析，从而最终产生更好的结果。该模型提供两种响应模式：快速回答或逐步思考。用户可以利用API管理模型思考的时间。尽管路由标准的具体细节尚不明确，Claude 3.7 Sonnet代表了第一个混合推理模型，为后续的基于路由的大型推理模型奠定了基础。

训练分类器。 RouteLLM [63] 训练了一个查询路由器，以根据复杂性将传入查询分派给适当的LLMs。作者利用从Chatbot Arena收集的大量偏好数据作为训练数据，使得在问答和推理任务中能够有效做出路由决策。因此，较简单的查询被指向低延迟的LLMs，而复杂的查询则被分配给高延迟的、功能更强的LLMs，从而显著加快了整体推理效率。Sketch-of-Thought (SoT) [4] 利用路由和提示来最小化推理过程中的标记使用。一个轻量级的基于DistilBERT的路由器根据问题的特征动态选择最合适的范式。受到认知科学的启发，SoT采用三种不同的范式：概念链（Conceptual Chaining），即用最少的语言连接思想；分块符号化（Chunked Symbolism），将数学推理结构化为简洁的符号表示；专家词汇（Expert Lexicons），采用专家使用的领域特定速记。

不确定性。 除了依赖其他路由器，Self-Ref [16]使LLMs能够自主决定何时进行路由，通过提取内在的不确定性评分作为自路由指标。具体而言，他们对LLMs中的不确定性专用标记进行了微调，以使不确定性预测与问答和推理任务中的预测准确性对齐。这确保只有不确定或不正确的输出才会触发路由到更强大的LLMs，从而减少LLM推理的延迟。Confident或Seek Stronger [15]旨在为预测和初始化路由策略提供校准数据，无需访问用户查询。这种方法能够在确定LLM是否应自信地生成答案或将查询转交给更强模型的决策中实现更高效和可靠的决策，从而在在线LLM服务场景中从查询层面提高推理效率。

6 通过高效训练数据和模型压缩提升推理能力

6.1 用更少的数据训练推理模型

提高推理模型的效率不仅需要优化模型架构，还需要优化用于训练的数据。近期的研究表明，精心选择、构建和利用训练数据可以显著减少数据要求，同时保持甚至提高推理性能。尽管所有方法都专注于高效的数据选择，但它们在定义和利用效率方面有所不同。

关键问题是：如何构建更少但高质量的训练数据？

最小化但高影响的数据选择。 LIMO [103] 挑战了复杂推理任务需要大量训练数据的传统观念。他们引入了LIMO框架，利用最小但精心策划的示例来引导复杂推理能力。通过根据难度、广泛性和知识多样性选择高质量的问题，并根据最佳结构组织、有效的认知支架和严格的验证选择高质量的解决方案，仅使用817个精心挑选的训练样本，LIMO的表现超过了使用超过100,000个示例的先前模型。s1 [61] 通过控制测试时间计算资源来增强推理性能。他们基于质量、难度和多样性策划了一个紧凑的数据集s1K，包含1,000个高质量的问题及其推理轨迹。通过在该数据集上的有监督微调和实施“预算强制”，即在推理过程中调节推理时间，s1-32B在MATHandAIME24上超过了OpenAI o1-preview，证明了战略性测试时间缩放可以有效增强推理能力，而无需大量训练数据。

自我验证作为数据高效训练信号。 S2R [58] 通过强化学习为LLMs注入自我验证和自我修正能力。最初，模型在一个策划的数据集上进行微调，以建立这些能力。随后，采用基于结果和过程的强化学习进一步增强这些技能。仅用3,100个初始化样本，他们微调的模型在所有基础模型中持续提高了推理任务的性能。S2R微调后的Qwen2.5-Math-7B能够在MATH500和GSM8K上超过训练在相似数量的长CoT蒸馏数据上的模型。

6.2 通过蒸馏和模型压缩提升小型语言模型的推理能力

大型语言模型（LLMs）在各种复杂任务中展现出卓越的推理能力，这得益于它们在多样化数据集上进行的大规模训练。然而，它们巨大的计算和内存需求在资源受限的环境（如边缘设备、移动应用和实时系统）中部署时面临挑战。在效率、成本或延迟是主要关注点的情况下，小型语言模型（SLMs）提供了可行的替代方案。SLMs在严格的资源限制下仍能保持强大的推理能力，对于扩大AI驱动推理系统的可及性和实用性至关重要。为实现这一目标，主要探讨了两类方法：蒸馏和模型压缩。

关键问题是：小型语言模型在推理任务中的表现如何？模型压缩（例如，量化）对它们的推理能力有何影响？

蒸馏。 蒸馏是一种将LLMs的推理能力转移到SLMs的关键技术，同时保持效率。然而，[46]发现了一种称为小模型学习能力差距（Small Model Learnability Gap）的现象，突显了从大型模型向小型模型蒸馏复杂推理过程的挑战，表明SLMs难以模拟其大型对应物的推理深度。为解决这一问题，各种方法相继提出。[46]和[13]都探索了混合蒸馏，其中[46]结合了长短CoT推理示例，而[13]则将CoT和PoT（思维程序）结合，以提高从LLMs到SLMs的知识蒸馏效果。相比之下，[28]引入了反事实蒸馏，通过在原始问题中屏蔽因果特征来增强训练集，促使LLM完成屏蔽文本，并为每个数据生成多视角CoT（正面和负面视角），以增强知识蒸馏的效果。此外，[112]开发了一种反馈驱动的蒸馏技术，迭代地精炼蒸馏数据集。他们首先提示LLM生成初始蒸馏数据集，然后通过从现有问题创建多样且复杂的新问题来扩展它，最后使用这个丰富的数据集对SLMs进行微调。另一种策略由[111]提出，将探测和检索机制纳入蒸馏流程。它训练两个互补的蒸馏SLMs，一个探测模型和一个推理模型，探测模型检索相关知识，推理模型则利用这些知识构建逐步推理的答案。[9]在蒸馏过程中引入了自适应思维，允许模型根据任务的复杂性动态调整推理策略。此外，[49]提出了SKIntern，一个将符号知识内化到SLM中的框架，以提高CoT推理的质量和效率，而[109]引入了SCORE，一个从SLM生成自我修正数据并微调模型以作为自我修正推理者的流程。这些多样的蒸馏技术表明，从LLMs到SLMs有效转移推理能力不仅需要减小模型规模，还需要认真和战略性地构建知识转移流程，以保持逻辑深度和泛化能力。

剪枝和量化。 除了直接从LLMs蒸馏知识到SLMs外，另一种替代方法是使用量化和剪枝等技术将LLM压缩为SLM。[78]进行了一项全面研究，分析各种模型压缩技术对推理能力的影响。他们的研究结果表明，量化能够将模型精度降低到低位表示，但仍能很好地保持推理性能，使SLMs在显著降低内存和计算成本的同时保持逻辑一致性和解决问题的能力。

相比之下，剪枝是基于权重或神经元的重要性来移除模型中特定的权重或神经元，这会导致推理质量严重下降，破坏模型遵循多步逻辑过程的能力。这表明，基于压缩的方法比从零开始训练SLMs更有效，因为它们允许模型保留从LLMs继承的推理结构。然而，仍存在一个关键挑战：SLMs通常在指令跟随方面表现不佳，表明仅仅依靠压缩是不够的。可能需要额外的微调或适应方法，以使压缩模型与用户意图对齐，并确保它们能够有效地解释和执行复杂的推理任务。

7 评估与基准

近期研究引入了创新的基准和评估框架，以系统性评估LLMs的推理能力。随着LLMs在执行复杂推理任务的能力不断提升，对严格、标准化的评估指标和框架的需求变得愈加重要。

推理时间计算。 [66] 开发了Sys2Bench，这是一个综合套件，旨在评估LLMs在五个推理类别上的表现，包括算术、逻辑、常识、算法和规划任务。该基准包含11个多样的数据集，涵盖各种推理任务。它包括用于算术问题的GSM8K和AQuA，常识推理的StrategyQA和HotPotQA，逻辑推理的ProntoQA，算法任务的Game of 24和Bin Packing，以及规划任务的BlocksWorld、Rubik’s Cube、TripPlan和Calendar Plan。研究表明，仅仅扩大推理时间计算存在局限性，因为没有单一技术在所有推理任务中始终表现优异，这强调了多样化方法在提升LLM推理能力中的必要性。[51] 检查了各种常用策略如何影响LLMs的推理能力。此外，他们提出了一个广泛的实验基准，涉及六种推理导向任务的推理时间优化技术。[52] 研究了测试时间缩放（TTS）策略对LLM性能的影响，重点关注政策模型、过程奖励模型和问题难度如何影响TTS的有效性。他们的研究结果表明，计算最优的TTS策略高度依赖于这些因素。论文发现，在适当的TTS策略下，更小的模型（例如，1B参数的LLM）能够在复杂推理任务（如MATH-500）上超越显著更大的模型（例如，405B参数的LLM），这突显了量身定制的TTS方法在评估和提升LLM推理方面的重要性。

评估过度推理。 [21] 引入一个框架，以系统性分析LLMs中的“过度推理”，即模型倾向于进行过度的内部推理，而不是必要的环境交互。通过检查4,018条轨迹，研究识别了分析瘫痪、错误行为和过早退出等模式。[21] 还提出了一种新颖的“过度推理评分”，并显示较高的评分与任务表现下降之间存在强相关性。选择低过度推理评分的解决方案等缓解策略可以提高性能30%，同时减少43%的计算开销。

长CoT推理的影响。 [104] 提供了对长CoT推理机制的全面分析。在呈现几个关键见解的基础上，他们提出了一种奖励设计，以增强训练期间推理能力的稳定性并减少CoT长度，这在第3.1节中也有提到。[39] 发现推理链的长度与模型输出的有效性之间存在强关系。模型在推理步骤较长时通常表现更好，表明CoT长度在有效问题解决中比准确性更为关键。

8 应用与讨论

8.1 应用

自主驾驶。 高效推理的LLMs能够大大改善自主驾驶技术 [22]，帮助它们以类似人类的方式理解大量传感器数据，从而使汽车在复杂的驾驶情境中做出更好的决策，并在发生意外事件时快速反应。通过结合来自摄像头、激光雷达、雷达和其他传感器的信息，这些模型帮助汽车更安全地驾驶，选择更好的路线，并在发生风险时进行评估。此外，由于它们能够解释为何做出某些决策，这使得乘客和监管机构对这项技术更加信任，同时汽车也能更顺畅地与智能道路系统进行互动。

具身人工智能。 高效推理的LLMs使得具身人工智能 [27] 更加智能，帮助机器人和智能设备理解并对周围世界作出反应。这些模型以类似人类思维的方式处理来自摄像头、传感器和其他输入的大量数据。这种深入理解使得机器人能够迅速决定最佳移动方式，应对意外变化，并安全地与人进行互动。例如，在繁忙的工厂或家庭环境中，使用这些模型的机器人能够避开障碍物，适应新情况，甚至以简单的术语解释其行为。总体而言，高效推理的LLMs提升了具身人工智能系统在日常环境中的可靠性、安全性和实用性。

医疗保健。 高效推理的LLMs可以通过帮助医生和研究人员更容易地处理大量医疗数据来改善医疗保健 [36]。它们能够快速分析患者记录、检验结果和医学研究，发现可能很难察觉的重要趋势和模式。这种支持可以导致更快、更准确的诊断，更好的治疗建议，以及更少的错误。此外，这些模型可以将复杂的医学信息转化为通俗易懂的语言，使得医疗专业人员和患者更易于理解。总体而言，高效推理的LLMs使医疗过程更加顺畅和可靠，从而为患者提供更好的护理和结果。

8.2 讨论

提高推理能力。 从效率的另一角度来看，提高推理性能是一个重要话题 [11,80]。为了通过尽早剔除无效策略来优先考虑有前景的途径，Meta-Reasoner [80] 利用上下文多臂老虎机来评估推理进展和选择最佳策略。在每一轮中，LLM生成一个新的推理步骤，元推理器评估其输出并生成进度报告，利用上下文多臂老虎机选择推理步骤的最佳指导策略。ITT [11] 将每个变压器层视为内部思维过程中的一步。通过自适应路由动态分配额外处理能力给困难标记，ITT使得较小的语言模型能够在使用更少训练资源的情况下实现与较大模型相当的性能。

高效推理的安全性。 LLMs中的安全性和效率通常是相互对立的方向，因为优化一个往往会导致另一个的性能下降。在增强安全性时，例如过滤有害内容、减轻对抗攻击和实现自我修正，推理模型通常需要额外的计算资源和更长的推理序列，从而导致推理成本增加和响应时间延迟。相反，通过最小化标记使用和计算开销来优先考虑效率，可能会减少模型自我反思、验证输出或抵御对抗操控的能力。这种权衡反映了著名的“没有免费的午餐”原则，使得在安全性和效率之间保持谨慎的平衡至关重要。[42] 研究了大型CoT推理模型中安全检查的鲁棒性，揭示了商业系统中的严重安全缺陷。他们引入了恶意教育者基准，并展示了通过其劫持思维链（H-CoT）攻击，模型可以显著降低拒绝率，从而生成有害内容。[45] 研究了长推理模型的安全性。观察到虽然较长的输出能够实现自我修正并增强安全性，但某些攻击策略会利用扩展生成。他们提出了一种基于强化学习的方法动态控制输出长度，以保持推理质量和安全性。在长推理模型中平衡安全性和效率仍然是一个具有挑战性但至关重要的研究领域。

RL与SFT，哪个更好？ 在比较RL（第3.1节）和SFT（第3.2节）以创建高效推理语言模型时，答案并不明确，因为每种方法各有优势。RL允许模型通过试错学习，根据满意的决策给予奖励，这有助于它找到在新情况下解决问题的创造性方法。然而，这种方法有时可能不可预测，并且需要大量训练。另一方面，SFT通过人类或模型精心选择的高效CoT示例来教导模型，导致更一致的行为和更容易控制。然而，当面临训练数据中未涵盖的挑战时，SFT可能会遇到困难。实际上，结合这两种方法可能是一个有前景的方向，潜在地最佳，因为它利用了RL的创造力和SFT的可靠性，从而产生一个既适应性强又稳定的模型。

9 结论

本文提供了高效推理的首次结构化调查，将现有方法分为三类：基于模型的方法、基于推理输出的方法和基于输入提示的方法。此外，还讨论了高效数据利用、小型模型的推理能力、评估技术和基准测试，并附有持续更新的公共库以支持未来的研究。重要的是，高效推理的方法在各个领域提供了显著的实际利益：在医疗诊断中减少计算成本，在自主驾驶中增强实时决策和安全性，提升具身人工智能系统的可靠性和实用性，以及在金融算法交易和风险评估中实现更快、更有利的响应。这些进展突显了高效推理在大型语言模型中的广泛经济和社会价值。

你可能感兴趣的:(搜索推荐,语言模型,人工智能,自然语言处理)

为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
Qwen3 大模型实战：使用 vLLM 部署与函数调用（Function Call）全攻略曦紫沐大模型大模型部署 Qwen3 vLLM 函数调用
文章摘要本文将带你从零开始，深入掌握如何使用Qwen3-8B大语言模型，结合vLLM进行高性能部署，并通过函数调用（FunctionCall）实现模型与外部工具的智能联动。我们将详细讲解部署命令、调用方式、代码示例及实际应用场景，帮助你快速构建基于Qwen3的智能应用。一、Qwen3简介与部署环境准备Qwen3是通义千问系列的最新一代大语言模型，具备强大的自然语言理解和生成能力，尤其在函数调用、工
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
如何运用深度学习打造高效AI人工智能系统 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习 ai
如何运用深度学习打造高效AI人工智能系统关键词：深度学习、AI系统、神经网络、模型优化、实战开发摘要：本文将从深度学习的核心概念出发，结合生活实例和代码实战，系统讲解如何构建高效AI系统。我们会拆解数据准备、模型设计、训练优化、部署落地的全流程，揭秘“数据-模型-训练-推理”的协同机制，并通过具体案例演示从0到1开发AI系统的关键技巧，帮助开发者掌握打造高效AI系统的底层逻辑。背景介绍目的和范围在
非欧空间计算加速：图神经网络与微分几何计算的GPU优化（流形数据的内存布局优化策略）九章云极AladdinEdu 空间计算神经网络人工智能 gpu算力算法 java 开发语言
一、非欧空间计算的革命性意义与核心挑战在三维形状分析、社交网络建模、分子动力学模拟等领域，非欧几里得空间数据（流形数据）的处理正推动人工智能技术向更复杂的几何结构迈进。传统欧式空间优化方法在处理流形数据时面临根本性局限：黎曼度量导致距离计算失效、局部坐标系动态变化引发内存访问模式混乱、曲率变化影响并行计算效率。本文提出基于分块流形存储（BlockedManifoldStorage,BMS）与层次化
ChatGPT还不能写小说吗？刘若愚
最近，ChatGPT大热，据说可以写论文，编故事，好像无所不能。于是，我给它出了个题目：写一篇5万字的科幻小说。人物：刘若愚，化学家；刘子琪，大律师；仔仔，刘子琪的宠物猫；周金凝，医生；刘泽余，大侦探；赵政淇，程序猿；杰夫（Jeff）机器人它给我的回答是：我很抱歉，我是一个AI语言模型，无法写出如此长篇的小说。但我可以为您提供一些写作灵感和指导：确定故事背景和时间线：在科幻小说中，背景和时间线非常
AI心理学四层架构揭秘：语言模型为何“说谎“？ TGITCIC AI-大模型的落地之道语言模型人工智能自然语言处理大模型国产大模型大模型落地
第一章神经层：代码编织的"脑电图"1.1注意力权重的量子跃迁当Claude3.5Haiku处理"达拉斯所在州的首府"这类问题时，其注意力权重图谱呈现出量子跃迁特征。研究团队通过归因图技术捕捉到：在输入"达拉斯"的瞬间，模型内部Texas节点的激活强度达到87.6%，首府概念节点同步飙升至79.3%。这种非线性激活模式与人类大脑的默认模式网络惊人相似。模型层级激活时序决策路径可解释性神经层300ms
响应式编程实践：Spring Boot WebFlux构建高性能非阻塞服务 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人响应式编程实践：SpringBootWebFlux构建高性能非阻塞服务一、引言在当今数字化时代，互
企业级RAG的数据方案选择 - 向量数据库、图数据库和知识图谱南七小僧 AI技术产品经理网站开发人工智能数据库知识图谱人工智能
如何为企业RAG选择合适的数据存储方式摘要:本文讨论了矢量数据库、图数据库和知识图谱在解决信息检索挑战方面的重要性，特别是针对企业规模的检索增强生成（RAG）。看看海外人工智能企业Writer是如何利用知识图谱增强企业级RAG。要点概要：矢量数据库高效存储数据，但缺乏上下文和关联信息。图数据库优先考虑数据点之间的关系，受益于关系结构。知识图谱在语义存储方面表现出色，由于其能够编码丰富的上下文信息，
【人工智能入门必看的最全Python编程实战（1）】 DFCED 人工智能 python 开发语言深度学习找工作就业
--------------------------------------------------------------------------------------------------------------------1.AIGC未来发展前景未完持续…1.1人工智能相关科研重要性拥有一篇人工智能科研论文及专利软著竞赛是保研考研留学深造以及找工作的关键门票！！！拥有一篇人工智能科研论文
2025毫米波雷达技术白皮书：智能汽车与物联网的感知核心
随着人工智能、物联网（IoT）和智能汽车产业的迅猛发展，毫米波雷达技术正成为感知领域的核心驱动力。毫米波雷达凭借其高精度、全天候和强抗干扰能力，广泛应用于智能汽车的自动驾驶、物联网的环境感知以及工业自动化。2025年，毫米波雷达技术在性能、应用场景和市场规模上都达到了一个全新的高度。本白皮书将深入探讨毫米波雷达技术的核心优势、发展趋势及其在智能汽车与物联网中的应用前景，同时推荐各大品牌的领先产品方
从零开始构建深度学习环境：基于Pytorch、CUDA与cuDNN的虚拟环境搭建与实践（适合初学者）荣华富贵8 程序员的知识储备2 程序员的知识储备3 深度学习 pytorch 人工智能
摘要：深度学习正在引领人工智能技术的革新，而对于初学者来说，正确搭建深度学习环境是迈向AI研究与应用的第一步。本文将为读者提供一套详尽的教程，指导如何在本地环境中搭建Pytorch、CUDA与cuDNN，以及如何利用Anaconda和PyCharm进行高效开发。内容涵盖从环境配置、常见错误修正，到基础的深度学习模型构建及训练。我们旨在为深度学习零基础的入门者提供一个全面且易于理解的“保姆级”教程，
BEYOND BINARY REWARDS: TRAINING LMS TOREASON ABOUT THEIR UNCERTAINTY 樱花的浪漫大模型与智能体对抗生成网络与动作识别强化学习人工智能语言模型自然语言处理机器学习深度学习
https://gist.github.com/josherich/8a30dbf3d6ae0cae1048c3331f38fe80https://gist.github.com/josherich/8a30dbf3d6ae0cae1048c3331f38fe801引言与此担忧一致，研究表明，即使最初校准良好的大型语言模型（LLMs）在RL训练后也会变得过度自信（Lengetal.,2
Gradient-Adaptive Policy Optimization:Towards Multi-Objective Alignment of Large Language Models 樱花的浪漫大模型与智能体对抗生成网络与动作识别强化学习语言模型人工智能自然语言处理深度学习机器学习
2025.acl-long.549.pdfhttps://aclanthology.org/2025.acl-long.549.pdf1.概述大型语言模型（LLMs）（Anthropic,2023;OpenAI,2024）已经在广泛的实际应用中展示了显著的能力（Bubecketal.,2023），包括内容创作（Yuanetal.,2022）、编程辅助（Chenetal.,2021;Gaoetal.
人工智能概念之九：深度学习概述
文章目录相关文章一、深度学习的定位：AI时代的基石技术1.1技术生态全景图1.2技术革命的催化剂二、深度学习的双面性：性能优势与技术挑战2.1技术优势全景扫描2.2技术挑战深度剖析三、技术演进时间轴：70年的厚积薄发四、主流框架生态对比五、未来演进方向相关文章人工智能概念之二：人工智能核心概念：网页链接一、深度学习的定位：AI时代的基石技术1.1技术生态全景图深度学习处于人工智能（AI）技术金字塔
Uncovering Bias in Large Vision-Language Models at Scale with Counterfactuals 樱花的浪漫因果推断大模型与智能体人工智能算法机器学习语言模型自然语言处理
UncoveringBiasinLargeVision-LanguageModelsatScalewithCounterfactuals-ACLAnthologyhttps://aclanthology.org/2025.naacl-long.305/1.概述最近，大型视觉-语言模型（LVLMs）因其能够将语言模型（LLMs）的对话能力扩展到多模态领域而受到欢迎。具体来说，LVLMs可以根据文本提
H800核心技术突破与行业应用实战智能计算研究中心其他
内容概要在人工智能技术持续迭代的背景下，H800芯片凭借自主架构优化与算力跃升，成为推动行业场景化落地的关键驱动力。本文将从技术路径、性能突破与行业应用三个维度，系统解析H800如何在高并发计算与低延时响应领域实现底层架构创新。首先聚焦其自主架构优化的核心技术路径，包括动态资源调度算法与异构计算单元的深度协同设计，揭示其在能效比与计算密度上的突破逻辑；进一步结合算力跃升的具体表现，探讨该芯片如何通
智慧建筑：科技引领房地产与建筑业的未来 RedPhoenix45
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE智慧建筑：科技引领房地产与建筑业的未来随着科技的飞速发展，人工智能（AI）和智能化工具正以前所未有的速度改变着各行各业。在房地产与建筑领域，这种变革尤为显著。从建筑设计到施工管理，再到物业管理，智能化技术正在重塑行业的每一个环节。本文将探讨如何利用先进的智能化工具提升房地产与建筑行业的效率，并介绍一款革命性的开发工具——它
智慧施工：AI技术赋能建筑安全监测新纪元
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！智慧施工：AI技术赋能建筑安全监测新纪元在现代建筑行业中，施工安全始终是核心关注点之一。随着科技的飞速发展，人工智能（AI）和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统，并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
智慧工地系统：建筑行业数字化变革的引领者青云智慧园区 java
在建筑行业积极迈向数字化转型的浪潮中，智慧工地系统凭借“数据驱动、智能管控、协同增效”的核心优势，深度融合物联网、大数据、人工智能等前沿技术，构建起覆盖工程项目全生命周期的精细化管理体系。以下将从系统架构、核心功能模块、应用价值以及未来展望等方面，全方位剖析智慧工地系统如何实现施工全过程的智能化、高效化管理。一、系统架构：打造一体化协同管理平台智慧工地系统采用先进的分层架构设计，以底层的数据采集层
eclipse maven IXHONG eclipse
eclipse中使用maven插件的时候，运行run as maven build的时候报错 -Dmaven.multiModuleProjectDirectory system propery is not set. Check $M2_HOME environment variable and mvn script match. 可以设一个环境变量M2_HOME指
timer cancel方法的一个小实例 alleni123 多线程 timer
package com.lj.timer; import java.util.Date; import java.util.Timer; import java.util.TimerTask; public class MyTimer extends TimerTask { private int a; private Timer timer; pub
MySQL数据库在Linux下的安装 ducklsl mysql
1.建好一个专门放置MySQL的目录 /mysql/db数据库目录 /mysql/data数据库数据文件目录 2.配置用户，添加专门的MySQL管理用户 >groupadd mysql ----添加用户组 >useradd -g mysql mysql ----在mysql用户组中添加一个mysql用户 3.配置，生成并安装MySQL >cmake -D
spring------>>cvc-elt.1: Cannot find the declaration of element Array_06 spring bean
将-------- <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3
maven发布第三方jar的一些问题 cugfy maven
maven中发布第三方jar到nexus仓库使用的是 deploy:deploy-file命令有许多参数，具体可查看 http://maven.apache.org/plugins/maven-deploy-plugin/deploy-file-mojo.html 以下是一个例子： mvn deploy:deploy-file -DgroupId=xpp3
MYSQL下载及安装 357029540 mysql
好久没有去安装过MYSQL，今天自己在安装完MYSQL过后用navicat for mysql去厕测试链接的时候出现了10061的问题，因为的的MYSQL是最新版本为5.6.24，所以下载的文件夹里没有my.ini文件，所以在网上找了很多方法还是没有找到怎么解决问题，最后看到了一篇百度经验里有这个的介绍，按照其步骤也完成了安装，在这里给大家分享下这个链接的地址
ios TableView cell的布局张亚雄 tableview
cell.imageView.image = [UIImage imageNamed:[imageArray objectAtIndex:[indexPath row]]]; CGSize itemSize = CGSizeMake(60, 50); &nbs
Java编码转义 adminjun java 编码转义
import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class ChangeCharset { /** 7位ASCII字符，也叫作ISO646-US、Unicode字符集的基本拉丁块 */ public static final Strin
Tomcat 配置和spring aijuans spring
简介 Tomcat启动时，先找系统变量CATALINA_BASE，如果没有，则找CATALINA_HOME。然后找这个变量所指的目录下的conf文件夹，从中读取配置文件。最重要的配置文件：server.xml 。要配置tomcat，基本上了解server.xml，context.xml和web.xml。 Server.xml -- tomcat主
Java打印当前目录下的所有子目录和文件 ayaoxinchao 递归 File
其实这个没啥技术含量，大湿们不要操笑哦，只是做一个简单的记录，简单用了一下递归算法。 import java.io.File; /** * @author Perlin * @date 2014-6-30 */ public class PrintDirectory { public static void printDirectory(File f
linux安装mysql出现libs报冲突解决 BigBird2012 linux
linux安装mysql出现libs报冲突解决安装mysql出现 file /usr/share/mysql/ukrainian/errmsg.sys from install of MySQL-server-5.5.33-1.linux2.6.i386 conflicts with file from package mysql-libs-5.1.61-4.el6.i686
jedis连接池使用实例 bijian1013 redis jedis连接池 jedis
实例代码： package com.bijian.study; import java.util.ArrayList; import java.util.List; import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; import redis.clients.jedis.JedisPoo
关于朋友 bingyingao 朋友兴趣爱好维持
成为朋友的必要条件：志相同，道不合，可以成为朋友。譬如马云、周星驰一个是商人，一个是影星，可谓道不同，但都很有梦想，都要在各自领域里做到最好，当他们遇到一起，互相欣赏，可以畅谈两个小时。志不同，道相合，也可以成为朋友。譬如有时候看到两个一个成绩很好每次考试争做第一，一个成绩很差的同学是好朋友。他们志向不相同，但他
【Spark七十九】Spark RDD API一 bit1129 spark
aggregate package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} //测试RDD的aggregate方法 object AggregateTest { def main(args: Array[String]) { val conf = new Spar
ktap 0.1 released bookjovi kernel tracing
Dear, I'm pleased to announce that ktap release v0.1, this is the first official release of ktap project, it is expected that this release is not fully functional or very stable and we welcome bu
能保存Properties文件注释的Properties工具类 BrokenDreams properties
今天遇到一个小需求：由于java.util.Properties读取属性文件时会忽略注释，当写回去的时候，注释都没了。恰好一个项目中的配置文件会在部署后被某个Java程序修改一下，但修改了之后注释全没了，可能会给以后的参数调整带来困难。所以要解决这个问题。 &nb
读《研磨设计模式》-代码笔记-外观模式-Facade bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 百度百科的定义： * Facade（外观）模式为子系统中的各类（或结构与方法）提供一个简明一致的界面， * 隐藏子系统的复杂性，使子系统更加容易使用。他是为子系统中的一组接口所提供的一个一致的界面 * * 可简单地
After Effects教程收集 cherishLC After Effects
1、中文入门 http://study.163.com/course/courseMain.htm?courseId=730009 2、videocopilot英文入门教程（中文字幕） http://www.youku.com/playlist_show/id_17893193.html 英文原址： http://www.videocopilot.net/basic/ 素
Linux Apache 安装过程 crabdave apache
Linux Apache 安装过程下载新版本： apr-1.4.2.tar.gz（下载网站：http://apr.apache.org/download.cgi） apr-util-1.3.9.tar.gz（下载网站：http://apr.apache.org/download.cgi） httpd-2.2.15.tar.gz（下载网站：http://httpd.apac
Shell学习之变量赋值和引用 daizj shell 变量引用赋值
本文转自：http://www.cnblogs.com/papam/articles/1548679.html Shell编程中，使用变量无需事先声明，同时变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）中间不能有空格，可以使用下划线（_）不能使用标点符号不能使用bash里的关键字（可用help命令查看保留关键字）需要给变量赋值时，可以这么写：
Java SE 第一讲（Java SE入门、JDK的下载与安装、第一个Java程序、Java程序的编译与执行） dcj3sjt126com java jdk
Java SE 第一讲： Java SE：Java Standard Edition Java ME: Java Mobile Edition Java EE：Java Enterprise Edition Java是由Sun公司推出的（今年初被Oracle公司收购）。收购价格：74亿美金 J2SE、J2ME、J2EE JDK：Java Development
YII给用户登录加上验证码 dcj3sjt126com yii
1、在SiteController中添加如下代码： /** * Declares class-based actions. */ public function actions() { return array( // captcha action renders the CAPTCHA image displ
Lucene使用说明 dyy_gusi Lucene search 分词器
Lucene使用说明 1、lucene简介 1.1、什么是lucene Lucene是一个全文搜索框架，而不是应用产品。因此它并不像baidu或者googleDesktop那种拿来就能用，它只是提供了一种工具让你能实现这些产品和功能。 1.2、lucene能做什么要回答这个问题，先要了解lucene的本质。实际
学习编程并不难,做到以下几点即可! gcq511120594 数据结构编程算法
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
Java面试十问之三：Java与C++内存回收机制的差别 HNUlanwei java C++finalize()堆栈内存回收
大家知道， Java 除了那 8 种基本类型以外，其他都是对象类型（又称为引用类型）的数据。 JVM 会把程序创建的对象存放在堆空间中，那什么又是堆空间呢？其实，堆（ Heap）是一个运行时的数据存储区，从它可以分配大小各异的空间。一般，运行时的数据存储区有堆（ Heap）和堆栈（ Stack），所以要先看它们里面可以分配哪些类型的对象实体，然后才知道如何均衡使用这两种存储区。一般来说，栈中存放的
第二章 Nginx+Lua开发入门 jinnianshilongnian nginx lua
Nginx入门本文目的是学习Nginx+Lua开发，对于Nginx基本知识可以参考如下文章： nginx启动、关闭、重启 http://www.cnblogs.com/derekchen/archive/2011/02/17/1957209.html agentzh 的 Nginx 教程 http://openresty.org/download/agentzh-nginx-tutor
MongoDB windows安装基本命令 liyonghui160com
windows安装安装目录： D:\MongoDB\ 新建目录 D:\MongoDB\data\db 4.启动进城： cd D:\MongoDB\bin mongod -dbpath D:\MongoDB\data\db &n
Linux下通过源码编译安装程序 pda158 linux
一、程序的组成部分　　Linux下程序大都是由以下几部分组成：　　二进制文件：也就是可以运行的程序文件　　库文件：就是通常我们见到的lib目录下的文件　　配置文件：这个不必多说，都知道　　帮助文档：通常是我们在linux下用man命令查看的命令的文档　　二、linux下程序的存放目录　　linux程序的存放目录大致有三个地方：　　/etc, /b
WEB开发编程的职业生涯４个阶段 shw3588 编程 Web 工作生活
觉得自己什么都会 2007年从学校毕业，凭借自己原创的ASP毕业设计，以为自己很厉害似的，信心满满去东莞找工作，找面试成功率确实很高，只是工资不高，但依旧无法磨灭那过分的自信，那时候什么考勤系统、什么OA系统、什么ERP，什么都觉得有信心，这样的生涯大概持续了约一年。根本不是自己想的那样 2008年开始接触很多工作相关的东西，发现太多东西自己根本不会，都需要去学，不管是asp还是js，
遭遇jsonp同域下变作post请求的坑 vb2005xu jsonp 同域post
今天迁移一个站点时遇到一个坑爹问题,同一个jsonp接口在跨域时都能调用成功,但是在同域下调用虽然成功,但是数据却有问题. 此处贴出我的后端代码片段 $mi_id = htmlspecialchars(trim($_GET['mi_id '])); $mi_cv = htmlspecialchars(trim($_GET['mi_cv '])); 贴出我前端代码片段: $.aj