weixin_37763484

【2025智源大会论文解读】智能体-林衍凯

另一位人大老师的近期工作汇总，涉及数据合成（生成训练数据，指导agent模型）、奖励模型训练（用于监督agent进行规划）、主动行动（指导agent主动为人类提供服务）、工具选择（支持1600+工作调用）、多模态训练（操作手机）等。

0 新框架

具体实现还没有找到

0.1 MiniCPM4-Survey：

MiniCPM4-Survey是由THUNLP、中国人民大学和ModelBest联合开发的开源大语言模型智能体。它基于MiniCPM4 80亿参数基座模型，接受用户质量作为输入，自主生成可信的长篇综述论文。基于MiniCPM4-8B构建的MiniCPM4-Survey，能够生成可信的长篇调查报告，性能比肩更大模型，强于Webthinker-R1-7B等模型。

主要特性包括：

计划-检索-写作生成框架 — 我们提出了一个多智能体生成框架，包含三个核心阶段：计划（定义综述的整体结构）、检索（生成合适的检索关键词）和写作（利用检索到的信息，生成连贯的段落）。
高质量数据集构建——我们收集并处理大量人类专家写作的综述论文，构建高质量训练集。同时，我们收集大量研究论文，构建检索数据库。
多方面奖励设计 — 我们精心设计了包含结构、内容和引用的奖励，用于评估综述的质量，在强化学习训练阶段作奖励函数。
多步强化学习训练策略 — 我们提出了一个上下文管理器，以确保在促进有效推理的同时保留必要的信息，并构建了并行环境，维持强化学习训练高效。

1 webcpm

2023年的论文，《WEBCPM：用于中文长篇问答的交互式网络搜索》的论文，其核心方法是构建一个模仿人类在回答复杂问题时，如何通过与搜索引擎多次互动来“查找资料”和“整合答案”的AI框架。

传统方法往往是“一锤子买卖”式的检索，而这篇论文提出的方法则是“边想边搜”的动态过程 [cite: 16, 17, 18]。

1.1WebCPM的核心方法：会“思考和追问”的侦探

WebCPM框架则像一个聪明的侦探，他会把一个大案子（复杂问题）拆解成多个小线索（子问题），并通过与搜索引擎的多次互动来逐步逼近真相 [cite: 18, 19]。这个过程被分解为两个核心模型：搜索模型和合成模型。

1.1.1. 搜索模型 (Search Model)：像侦探一样收集线索

这个模型模仿人类的搜索行为，它不是一次性完成任务，而是在一个专门的网页搜索界面中，通过执行一系列动作来逐步收集信息 [cite: 9, 43] 。这个模型内部又被拆解为三个小模块 [cite: 114, 115]：

动作预测模块 (Action Prediction)：这是“大脑”，在每一步决定下一步该干什么。它有10个动作可选 [cite: 72]，比如：
- Search ：发起一次新的搜索。
- Load Page ：打开搜索结果中的第i个网页。

搜索查询生成模块 (Search Query Generation)：如果“大脑”决定要搜索，这个模块就负责生成具体的搜索关键词。它可能直接使用原始问题，也可能根据已有的信息，生成更精准的子问题或相关的关键词 [cite: 239]。

支撑事实提取模块 (Supporting Fact Extraction)：如果“大脑”决定摘录证据，这个模块就负责从当前网页内容中，精确地抽取出连续的句子作为支撑事实 [cite: 153]。

整个搜索过程示例：
面对“麦田怪圈是如何形成的？”这个问题，搜索模型可能会执行如下动作序列 [cite: 119]：

动作: Search 关键词: “麦田怪圈如何形成？”

动作: Load Page <1> (打开第一个搜索结果)

动作: 在页面中阅读后，执行 Quote，摘录下“人为说”的定义作为事实1。

动作: Go Back (返回搜索结果页)

动作: Load Page <3> (打开第三个搜索结果)

动作: 在新页面中阅读后，执行 Quote，摘录下“磁场说”的定义作为事实2。

…（重复这个过程，直到收集到足够的事实）…

动作: Finish

1.1.2. 合成模型 (Synthesis Model)：撰写最终的调查报告

当搜索模型收集完所有“证据”（支撑事实）后，合成模型就登场了 [cite: 45, 158]。

工作原理：它接收原始问题和搜索模型收集到的一系列支撑事实，然后将这些零散的事实组织、融合成一段通顺、连贯、有逻辑的详细答案 [cite: 2, 158]。

抗干扰训练：为了让这个模型更“聪明”，研究者在训练时耍了个“小花招”。他们会有意地在人类收集的正确事实中，随机混入一些从其他问题里拿来的、完全不相关的“假证据” [cite: 160, 161, 162] 。模型被要求在有干扰的情况下，依然能生成和原始答案一致的内容。通过这种方式，模型学会了忽略无关信息和噪音，只专注于利用真正有用的事实来生成答案 [cite: 163]。

总结：WebCPM的核心方法是将复杂的长篇问答任务，分解为一个动态、多步的交互式搜索过程和一个抗干扰的答案生成过程。它通过模仿人类“分解问题、搜索、阅读、摘录、再搜索”的行为模式，来更有效地收集高质量信息，并利用这些信息生成全面、详细的答案。

2 ToolLLM

这篇论文的核心方法是 ToolLLM，一个旨在提升开源大型语言模型（LLM）使用真实世界API（工具）能力的通用框架。 [cite: 4] 该框架通过高质量的数据构建、创新的推理算法和全面的评估体系，成功地让模型掌握了超过16,000个真实API的使用。 [cite: 1, 6]

ToolLLM框架主要由以下几个关键部分组成：

2.1. ToolBench：一个高质量的工具使用指令微调数据集

ToolBench是该研究的核心贡献之一，它是一个专门为训练LLM使用工具而构建的大规模、高质量指令微调数据集。 [cite: 5] 整个构建过程利用ChatGPT自动化完成，包含三个主要阶段：

API收集 (API Collection): 研究人员从一个名为RapidAPI Hub的平台收集了16,464个真实的RESTful API，这些API覆盖了金融、社交媒体、电子商务等49个不同类别。 [cite: 6, 39, 40]

指令生成 (Instruction Generation): 利用ChatGPT，针对收集到的API自动生成了大量多样的用户指令。 [cite: 7] 这些指令不仅涵盖了单个工具的使用场景，还包括了需要多个工具协作才能完成的复杂场景（例如，同一类别内的多工具或跨类别的多工具组合）。 [cite: 7, 46, 101, 102]

解决方案路径标注 (Solution Path Annotation): 针对每一条指令，研究团队再次使用ChatGPT来标注一个有效的解决方案路径，即一系列的API调用链。 [cite: 8]

2.2 DFSDT：一种创新的决策树推理算法

在进行解决方案路径标注时，研究人员发现传统的CoT (Chain-of-Thought) 或 ReACT 等推理方法存在局限性，例如容易出现错误传播且探索的解决方案空间有限。 [cite: 111, 112] 为了解决这个问题，他们提出了一种新颖的 基于深度优先搜索的决策树 (Depth-First Search-based Decision Tree, DFSDT) 算法。 [cite: 9]

DFSDT的核心思想是：

扩展搜索空间: 它允许LLM评估和探索多个不同的推理路径，而不仅仅是线性的单一路径。 [cite: 10, 114]

支持回溯和决策: 当模型在某个路径上遇到错误或发现此路不通时，可以回溯到上一个节点，并探索其他可能性，从而做出更审慎的决策。 [cite: 50, 115]

通过使用DFSDT，标注过程的效率和成功率得到了显著提升，尤其是在处理那些使用传统方法无法解决的复杂指令时。 [cite: 51] 同时，DFSDT也被用作一种通用的推理策略来增强LLM在实际应用中的决策能力。 [cite: 59]

ToolLLaMA：经过微调的强大工具使用模型

研究团队在他们构建的ToolBench数据集上，对开源的LLaMA模型进行了微调，最终得到了ToolLLaMA模型。 [cite: 12] 实验结果表明，ToolLLaMA在执行复杂的单工具和多工具指令方面表现出色，其性能与作为其“教师模型”的ChatGPT相当，并且显著优于Text-Davinci-003和Claude-2等其他模型。 [cite: 13, 56, 184] 更重要的是，ToolLLaMA展现了强大的泛化能力，能够有效地使用在训练期间从未见过的新API。 [cite: 13, 57]

API检索器与自动评估器

为了使整个框架更具实用性，该研究还包含另外两个组件：

神经API检索器 (Neural API Retriever): 在真实场景中，从海量API中手动挑选合适的工具是不现实的。 [cite: 61, 187] 因此，研究人员训练了一个使用Sentence-BERT模型为基础的API检索器，它可以根据用户指令自动推荐最相关的API给ToolLLaMA模型。 [cite: 12, 62]

自动评估器 (ToolEval): 为了高效、可扩展地评估LLM的工具使用能力，他们开发了一个名为ToolEval的自动评估器。 [cite: 11] ToolEval使用通过率（Pass Rate）和胜率（Win Rate）两个指标来衡量模型的表现，并且其评估结果与人类评估高度一致。 [cite: 52, 53, 54, 131]

综上所述，该论文的核心方法是通过 ToolLLM框架，特别是利用 DFSDT算法 构建了高质量的 ToolBench 数据集，并在此基础上训练出具备强大、泛化工具使用能力的 ToolLLaMA 模型，从而显著缩小了开源LLM与顶级闭源模型在工具使用能力上的差距。 [cite: 4, 186]

2.3 指令生成

指令生成是构建ToolBench数据集的第二个关键阶段，其核心目标是创建足够多样化且贴近真实世界应用场景的指令，特别是要覆盖单个工具和多个工具协同使用的复杂情况 [cite: 87]。

整个过程是利用ChatGPT自动完成的，具体可以分解为以下几个步骤：

2.3.1. 核心思路：从API到指令

研究人员采用了一种“自下而上”的策略 [cite: 88]。他们不是先凭空想出用户指令再去找对应的API，而是反过来：

首先，从整个API集合中抽取出一小组API [cite: 89]。

然后，让ChatGPT理解这些被选中的API的功能，并围绕它们生成可能的用户指令 [cite: 90]。

2.3.2. 生成方法与提示工程 (Prompting)

为了引导ChatGPT生成高质量的指令，研究人员精心设计了输入提示（Prompt）。每次提供给ChatGPT的提示都包含：

任务描述：清晰地说明需要生成什么样的指令 [cite: 95] 。例如，对于多工具场景，会要求创建的指令必须使用到多个不同工具的API [cite: 410]。

API文档：提供当前选中的所有API的详细文档，包括功能描述、必需参数、可选参数等，以帮助ChatGPT理解其功能和潜在的相互作用 [cite: 95]。

上下文示例 (In-context Examples)：提供3个由人类专家编写的高质量“种子”示例，通过上下文学习来规范ChatGPT的输出行为 [cite: 95, 96] 。研究人员总共为单工具和多工具场景分别准备了12个和36个不同的种子示例，每次随机抽取3个使用，以保证生成指令的多样性 [cite: 98]。

具体要求：提示中还包含非常具体的要求，比如：

指令内容要创新且详尽，并包含API调用所需的具体参数值（如，不要只说“一个地址”，而是提供具体的街道名称） [cite: 393, 398]。

指令应直接陈述需求，而不是询问“该用哪个API” [cite: 402]。

生成的指令在句式（祈使句、陈述句等）和语气（礼貌、直接等）上应富有多样性 [cite: 451, 452]。

2.3.3. 针对不同场景的API抽样策略

为了生成不同复杂度的指令，研究人员设计了三种抽样场景，这主要基于RapidAPI平台的层级结构 [cite: 101]：

I1 - 单工具指令 (Single-tool instructions)：遍历每一个工具，并为其包含的多个API生成指令 [cite: 100]。

I2 - 类别内多工具指令 (Intra-category multi-tool instructions)：为了避免随机组合的工具之间毫无关联，研究人员从同一个类别（如“金融”或“电影”）中随机选择2到5个工具，并为这些功能相关的工具生成协同任务指令 [cite: 101]。

I3 - 集合内多工具指令 (Intra-collection multi-tool instructions)：与类别类似，从同一个集合（Collection，一种更细粒度的分类）中选择工具来生成指令 [cite: 101]。

2.3.4. 后处理与最终产出

在ChatGPT生成指令后，会进行一个过滤步骤，剔除那些包含了“幻觉”（即不存在于所提供列表中的）API的指令 [cite: 104]。

经过以上所有步骤，最终收集到了近20万个合格的（指令，相关API）数据
对，为后续训练API检索器和ToolLLaMA模型打下了基础 [cite: 91, 104]。

2.4 解决方案路径标注

这是构建ToolBench数据集的是最具挑战性的阶段。其核心目标是为每一条用户指令，生成一个完整且有效的执行路径，这个路径由一系列的思考和API调用组成。

2.4.1. 基本流程：作为多轮对话的决策过程

整个标注过程被设计成一个与ChatGPT的多轮对话 [cite: 106]。

输入：给定一条用户指令（例如，“帮我朋友找一个生日礼物，她最喜欢的女演员是Hailee Steinfeld”）和一组相关的API [cite: 93, 105]。

执行：在每个步骤中，ChatGPT需要分析当前的状态，然后生成一个动作aₜ [cite: 107] 。这个动作的格式通常包含三个部分：“Thought”（思考），“API Name”（要调用的API名称），以及“Parameters”（调用API所需的具体参数） [cite: 109]。

反馈：执行动作（即真实调用API）后，会得到一个返回结果rₜ（Observation） [cite: 107, 94]。这个结果会被反馈给ChatGPT。

循环：ChatGPT基于历史的“动作-结果”序列，进行下一步的思考和决策，如此循环，直到任务完成 [cite: 107]。

结束：为了让模型知道何时结束，研究人员定义了两个特殊的结束函数：“Finish with Final Answer”（给出最终答案）和“Finish by Giving Up”（在多次尝试后放弃） [cite: 110]。

2.4.2. 核心挑战：传统方法的局限性

研究人员在初步研究中发现，像ReAct或CoT（思维链）这类传统的线性推理方法存在两大固有缺陷：

错误传播（Error Propagation）：一旦中间某一步出错了，这个错误会影响后续所有步骤，导致模型陷入死循环或最终失败 [cite: 111]。

探索有限（Limited Exploration）：这些方法只探索一条单一的推理路径 [cite: 111] 。对于复杂的指令，即便强如GPT-4也常常因为第一步走错而无法找到有效的解决方案，这使得标注工作非常低效和困难 [cite: 112]。

2.4.3. 创新方法：基于深度优先搜索的决策树 (DFSDT)

为了克服上述挑战，研究人员提出了一种名为 DFSDT (Depth-First Search-based Decision Tree) 的新方法 [cite: 49]。

核心思想：DFSDT不再是线性地走一步看一步，而是构建一个决策树来扩展搜索空间 [cite: 113] 。它允许模型在每个节点上评估多个不同的推理分支（即不同的“Thought”和API调用） [cite: 114]。

决策与回溯：模型可以做出更灵活的决策，选择一个最有希望的路径继续深入探索，或者当发现当前路径走不通时，可以放弃当前节点（通过调用“Finish by Giving Up”函数），回溯到上一个节点，并扩展一个新的、之前未尝试过的分支 [cite: 114, 115]。

保证多样性：在扩展新分支时，系统会提示模型它之前尝试过的失败路径，并明确要求它生成一个与之前所有尝试都不同的新动作，从而扩大搜索范围 [cite: 115]。

选择DFS的原因：之所以采用深度优先搜索（DFS）而非广度优先搜索（BFS），是因为标注任务的目标是只要找到一条可行的路径即可。DFS可以尽快深入探索直到找到一个成功解，从而节省大量的API调用成本；而BFS则会同时探索所有分支，成本过高 [cite: 116, 117]。

通过为所有生成的指令运行DFSDT算法，研究团队成功地为许多用传统方法无法解决的复杂指令找到了有效的解决方案路径 [cite: 51, 118] 。最终，他们保留了所有成功通过的标注结果，共计126,486个“(指令, 解决方案路径)”数据对，这些数据构成了训练ToolLLaMA模型的核心语料 [cite: 119]。

3 AgentRM

好的，我们来解读这篇名为《AgentRM：通过奖励建模增强智能体的泛化能力》的论文。

3.1 核心观点

这篇论文的核心观点是：为了提升AI智能体（Agent）在未知任务上的泛化能力，直接微调（finetune）一个“裁判”模型（即奖励模型 Reward Model, RM）来指导一个通用的“行动”模型（Policy Model），比直接微调“行动”模型本身要有效和稳健得多 [cite: 3]。

直接训练行动模型，很容易让它在熟悉的任务上表现出色，但在没见过的新任务上表现严重下滑，也就是“过拟合” [cite: 1, 16] 。而训练一个好的“裁判”，则能更普适地判断每一步行动的好坏，从而更好地指导行动模型在各种任务中做出决策 [cite: 23]。

3.2核心方法：AgentRM

基于以上发现，论文提出了 AgentRM，一个可泛化的奖励模型。它的主要作用是在AI智能体执行任务时，像一个经验丰富的教练一样，为每一步行动的“好坏”进行打分，从而指导智能体在测试时做出更好的决策 [cite: 4]。

论文探索了三种构建这个“裁判”（AgentRM）的方法 [cite: 5]，其中效果最好、也是本文重点的是显式奖励建模 (Explicit Reward Modeling)。

3.2.1 显式奖励建模 (Explicit Reward Modeling)

这个方法的目标是为智能体在任务过程中的每一步（state）都计算出一个精确的奖励分数，这个分数代表了“从当前这步开始，最终能成功完成任务的期望有多高”。由于在任务结束前，环境通常不提供中间奖励，所以这个分数需要通过算法来估算 [cite: 49]。

该方法借鉴了蒙特卡洛树搜索（MCTS）的思想来自动标注每一步的奖励分数 [cite: 42, 50]。流程如下：

探索与构建搜索树 (Explore & Build Search Tree)：

首先，有一个经过初步训练的“行动模型”（SFT Agent） [cite: 45]。

对于一个任务，让这个行动模型与环境互动，探索各种可能的行动路径 [cite: 45]。

所有这些探索路径被组织成一棵“搜索树”，树的节点代表状态（state），边代表动作（action） [cite: 51]。

MCTS估算节点价值 (Estimate Node Value)：

通过重复执行一个包含四个阶段的循环（w次）来不断优化这棵树，并估算每个节点的价值（即期望奖励） [cite: 55]。

选择 (Selection)：从根节点开始，使用UCT（Upper Confidence Bound for Trees）公式选择最值得探索的路径，直到抵达一个叶子节点 [cite: 56]。

扩展 (Expansion)：在选中的叶子节点上，让行动模型采样k个可能的下一步动作，从而在树上创建出新的子节点 [cite: 56]。

模拟 (Simulation)：对于新扩展出的节点，快速地执行n次完整的任务流程（rollout），并根据最终的任务结果（成功或失败）来估算这个节点的初始价值 [cite: 57]。

反向传播 (Backpropagation)：将模拟阶段获得的分数沿着路径反向传回，更新路径上所有父节点的访问次数 N(s) 和期望奖励 V(s) [cite: 58]。

训练奖励模型 (Reward Model Training)：

当搜索树构建完成后，树上每个被充分访问过的节点 s 都有了一个比较准确的期望奖励估值 V(s) [cite: 59]。

我们把这些“状态-奖励” (s, V(s)) 对提取出来，作为训练数据 [cite: 59]。

最后，训练一个语言模型（即AgentRM），让它学习预测任意一个状态 s 的奖励值，其目标是让预测值 V̂(s) 与树搜索估算出的 V(s) 之间的均方误差（MSE）最小 [cite: 59]。

3.2.2 如何使用AgentRM

训练好的AgentRM裁判模型，会在测试时（即面对新任务时）通过以下两种搜索方法来指导“行动模型”：

Best-of-N 采样：让行动模型生成N个完整的解决方案（轨迹），然后用AgentRM为每个方案打分，最后选择得分最高的那个作为最终答案 [cite: 6, 69]。

步级别束搜索 (Step-level Beam Search)：这是一种更精细的搜索。在任务的每一步，都生成多个（例如W1*W2个）可能的下一步动作，用AgentRM为这些动作打分，然后只保留分数最高的W1个“候选路径”，并在此基础上继续探索下一步，如此循环直到任务结束 [cite: 6, 70, 71, 72, 73, 74]。

4. PROACTIVE AGENT

这篇论文的核心方法是提出一个创新的数据驱动框架，旨在将大型语言模型（LLM）代理从被动的“反应式”系统转变为能够预测用户需求并主动提供帮助的“主动式”系统 [cite: 1, 3, 28]。

该方法主要包含以下几个关键部分：

4.1. 自动数据生成流水线 (Data Generation Pipeline)

为了训练和评估主动式代理，研究者构建了一个全面的自动化数据生成流水线，该流水线能够模拟用户活动和对代理预测任务的反应 [cite: 70, 72]。这个流水线由三个核心组件构成：

环境健身房 (Environment Gym): 这是一个模拟环境，为主动式代理提供了一个可以交互的沙盒 [cite: 73]。

事件生成 (Event Generation): 它能够根据特定场景（如编码、写作或日常生活）生成一系列连贯的环境事件 [cite: 30, 74, 77] 。为了保证真实性，这些事件基于从真实世界收集的用户活动数据（如键盘鼠标操作、网页浏览记录等） [cite: 4, 31, 84]。

状态维护 (State Maintenance): 当用户活动发生或代理执行任务时，它会更新和维护环境的状态 [cite: 77, 103]。

主动式代理 (Proactive Agent): 在流水线中，这个组件负责根据历史事件推断用户需求，并预测用户可能需要分配的任务 [cite: 78, 108] 。如果预测被接受，它会与环境健身房内的工具交互以完成任务 [cite: 79, 114]。

用户代理 (User Agent): 该组件模拟用户的行为和响应 [cite: 80] 。它会根据预定义的特征决定是否接受主动式代理提出的任务建议 [cite: 81, 126]。

4.2. 奖励模型 (Reward Model)

为了自动评估代理所提任务的恰当性，并模拟用户代理的判断，研究者训练了一个奖励模型 [cite: 6, 146]。

训练数据: 研究者首先收集了由人类标注员标记的预测任务，标签分为“接受”或“拒绝” [cite: 5, 129, 133]。

功能: 这个模型学习模拟人类的判断标准 [cite: 6] 。它作为一个自动评估器，用来判断LLM代理的主动行为是否恰当 [cite: 6] 。该奖励模型在F1分数上与人类判断的一致性高达91.80% [cite: 39, 142]。

4.3. ProactiveBench 数据集

利用上述数据生成流水线，研究者创建了一个名为ProactiveBench的大规模、多样化的数据集 [cite: 7]。

该数据集包含6,790个事件，覆盖了编码、写作和日常生活三个场景 [cite: 7, 36]。

它分为两部分：一部分用于训练代理模型（6,790个训练条目），另一部分用于训练和测试奖励模型（1,640个训练条目和120个测试条目） [cite: 37, 38]。

4.4. 模型微调与评估

最后，研究者使用ProactiveBench数据集对现有的大型语言模型（如LLaMA-3.1-8B和Qwen2-7B）进行微调，以激发和提升它们的“主动性” [cite: 8, 34] 。实验结果表明，经过微调的模型在主动提供帮助方面的性能（F1分数达到66.47%）显著优于所有现有的开源和闭源模型 [cite: 9, 44]。

具体步骤如下：

微调的基础是ProactiveBench这个专门设计的数据集 [cite: 7] 。该数据集通过一个自动化的数据生成流水线创建，包含了在不同场景下（编码、写作、日常生活）模拟的用户活动事件 [cite: 30, 36] 。至关重要的是，数据集中不仅有事件的记录，还包含了在这些事件下，主动式代理应该提出的“正确”任务建议，或者在用户不需要帮助时保持沉默的“正确”决策 [cite: 72, 113]。

在微调过程中，模型并非简单地接收数据，而是通过一个结构化的提示词模板来学习主动行为。这个模板指导模型如何思考和响应。

该模板包含以下几个关键部分：

角色 (Role): 定义模型的身份，即“一个为用户提供主动建议的有用助手” [cite: 351, 352]。

任务 (Task): 指示模型需要“根据事件理解用户正在做什么并预测他们的需求”，并且“只有在完全理解用户行为时才提供帮助” [cite: 352, 353]。

格式 (Format): 要求模型以特定的JSON格式进行响应，该格式包含以下字段 [cite: 354]：

Purpose: 用户上一步行动的目的 [cite: 355]。

Thoughts: 模型对用户行为的思考 [cite: 355]。

Proactive Task: 描述模型提议的任务；如果不需要帮助，则设置为’null’ [cite: 355]。

Response: 如果提议了任务，用以通知用户的话术 [cite: 355]。

规则 (Rules): 提供明确的规则，例如确保任务的相关性、考虑事件的时机、仅在必要时提供帮助，以及根据事件历史推断用户的目的 [cite: 355]。

通过这种结合了高质量模拟数据和精心设计的提示词模板的微调方法，模型能够学习到何时应该主动介入、应该提供何种帮助，以及何时应该保持沉默，从而显著提升其“主动性” [cite: 8, 195]。

5 AgentCPM-GUI

好的，我们来解读这篇名为《AgentCPM-GUI：通过强化微调构建移动端GUI智能体》的论文。

5.1核心目标

这篇论文的核心目标是创建一个能在**手机图形用户界面（GUI）**上自主执行任务的AI智能体（Agent）。简单来说，就是让AI学会像人一样操作手机App，比如根据指令“去Bilibili看李子柒最新的视频并点个赞”，AI能自动完成打开App、搜索、点击视频、点赞等一系列操作 [cite: 432]。

为了实现这个目标，并解决现有方法在数据质量、模型泛化性和非英语环境支持上的不足，论文提出了一套名为 AgentCPM-GUI 的核心方法，其关键在于一个三阶段渐进式训练流程 [cite: 28, 33]。

5.2 核心方法：三阶段渐进式训练

这个训练流程像是在培养一个孩子，从“认识物体”到“模仿动作”，再到“独立思考”，一步步地构建AI的能力。

第一阶段：视觉感知与定位 (Visual Perception and Grounding)

目标：教会模型“看懂”手机屏幕上的内容 [cite: 72]。这就像教孩子认识图片里的东西，比如“这是按钮”、“这是文字输入框”。

训练方法：

使用一个包含海量GUI截图和标注的大型数据集进行预训练 [cite: 99, 103]。

训练任务主要有两种 [cite: 100]：

OCR任务：给模型看一张截图，并用方框标出一个区域，让模型读出框里的文字（Bbox2Text）[cite: 169]。

控件定位任务：给模型一段文字描述（比如“打开网站的按钮”），让模型在截图上找到这个控件并输出其坐标（Fun2Point / Text2Point）[cite: 167, 168]。

效果：完成这个阶段后，模型具备了强大的底层视觉能力，能准确地将界面上的图标、按钮等视觉元素与它们的文字描述和功能对应起来 [cite: 104]。

第二阶段：有监督的模仿学习 (Supervised Imitation Learning)

目标：教会模型模仿人类在完成任务时的一系列连贯动作 [cite: 75, 77]。这就像让孩子观察并模仿大人如何一步步完成一个任务。

训练方法：

使用一个高质量的数据集，其中包含了大量“指令-操作序列”的轨迹。这些数据由人类标注员在真实的手机上操作主流App（覆盖中文和英文）记录下来的，确保了动作的真实性和准确性 [cite: 31, 108, 115, 127]。

通过监督式微调（SFT），让模型学习在给定一个指令和当前屏幕截图的情况下，预测出下一步应该执行的正确动作（如点击、滑动、输入文字等）[cite: 34, 76]。

为了让模型学会思考，训练数据中还加入了由GPT-4o生成的“思考过程”标注 [cite: 122, 123]。

效果：完成这个阶段后，模型建立了一个可靠的行为先验，能够生成符合逻辑、类似人类习惯的操作序列来完成简单任务 [cite: 34]。

第三阶段：强化微调 (Reinforcement Fine-tuning, RFT)

目标：让模型从简单的“模仿”升级为真正的“思考和规划”，提升其在复杂、长链条任务中的决策和泛化能力 [cite: 78, 218]。这就像孩子在掌握了基本动作后，通过不断试错和获得奖励来学会独立解决问题。

训练方法：

采用一种名为分组相对策略优化 (Group Relative Policy Optimization, GRPO) 的强化学习算法 [cite: 79, 137]。

对于一个任务，让当前的模型生成N个不同的动作序列（候选答案）[cite: 139]。

然后，一个奖励机制会对这些序列进行打分 [cite: 140]：

首先检查动作格式是否正确，格式错误直接得-1分 [cite: 143]。

如果格式正确但语义上是错误的操作，得0分 [cite: 144]。

如果格式和语义都完全正确，得1分 [cite: 144]。

GRPO算法会利用这些分数来更新模型的策略，鼓励模型生成能获得更高奖励的动作序列。

效果：经过RFT阶段，模型不再是死板地模仿训练数据，而是学会了更鲁棒的自主规划和适应性行为，能够更好地处理在模仿学习阶段未曾见过的复杂场景 [cite: 80]。

5.3 视觉感知与定位

这个阶段的核心目标是让模型具备强大的底层“眼力”，能够准确地理解屏幕截图上的内容，并将语言描述与界面上的具体控件（Widget）对应起来 [cite: 73]。

5.3.1. 训练数据的准备

为了训练模型的定位能力，研究人员从多个来源收集了大量的GUI数据：

数据来源：数据来自于多个开源数据集（如AITZ、GUICourse、OS-Atlas等）以及团队自己收集的中文App截图 [cite: 99]。

数据形式：原始数据是屏幕截图和与之对应的XML元数据，这些元数据详细描述了界面上每个控件的属性，包括边界框坐标 (bounding box)和文本内容 [cite: 172, 173]。

数据增强：为了防止模型只学会GUI相关的知识而遗忘其他能力，训练时会混入50%的通用多模态数据（如对话、视觉问答等），这有助于稳定视觉模块的能力 [cite: 102]。

数据规模：整个第一阶段的预训练使用了高达1200万个样本 [cite: 103]。

5.3.2. 具体的训练任务

控件定位的训练主要通过以下两种任务来完成 [cite: 100]：

Fun2Point (根据功能定位)：

任务描述：给模型一段关于某个控件功能的描述，模型需要输出该控件在屏幕上的中心点坐标 [cite: 167]。

例子：输入的功能描述是“这个按钮可以打开网站”，模型需要分析截图，找到对应的按钮并输出其坐标，如 POINT:[123,456] [cite: 68, 167]。

数据制作：功能描述标签是通过一个强大的视觉语言模型（Qwen2.5-VL-72B）为截图上的控件自动生成的 [cite: 177]。

Text2Point (根据文本定位)：

任务描述：给模型一个明确的文本字符串，模型需要在屏幕截图中找到这个文本所在的位置，并输出其坐标 [cite: 168]。

例子：输入的文本是“QQ音乐”，模型需要在截图中找到“QQ音乐”这个图标或文字，并输出其位置坐标 [cite: 417]。

数据制作：这类任务的标注数据可以直接从XML元数据中提取，将文本内容与其对应的边界框坐标对齐 [cite: 174]。

5.3.3. 模型的输出与评估

模型输出：在这些任务中，模型被训练来直接生成目标控件的点坐标 [cite: 185] 。这些坐标是归一化的，例如将屏幕的左上角定义为[0, 0]，右下角定义为[1000, 1000] [cite: 86]。

评估方式：判断模型预测是否正确的方式是，检查其生成的坐标点是否落在真实控件的边界框之内（在一定的容忍度下） [cite: 144, 185]。

通过这个阶段的专门训练，AgentCPM-GUI模型在进入更复杂的模仿学习和强化学习阶段之前，就已经打下了坚实的视觉基础，能够精确地识别和定位GUI上的各种元素 [cite: 74, 104]。

5.4 模仿人类操作行为

在第一阶段（视觉感知与定位）让模型“看懂”屏幕之后，第二阶段的目标是教会模型模仿人类在手机上完成任务时的一系列连贯动作 [cite: 75, 77]。这就像教一个孩子在认识了物品之后，开始模仿大人如何一步步操作。

5.4.1 训练数据：高质量的“操作录像”

这个阶段的成功很大程度上依赖于高质量的训练数据。由于公开的中文GUI交互数据集很稀缺 [cite: 107]，研究团队构建了一个大规模、高保真的数据集。

数据来源与规模：

团队自己收集了覆盖30多款主流中文App（如电商、社交、导航等）的数据 [cite: 108]。

总共包含了 5.5万条完整的任务轨迹，分解为 47万个原子操作步骤 [cite: 110]。

为了提升模型的跨语言泛化能力，他们还融合了多个公开的英文GUI数据集，如AITW、AITZ和AndroidControl等 [cite: 127]。

数据质量保证：

真机采集：所有操作轨迹都在真实的安卓手机上由人类标注员完成，而非模拟器，这保证了数据的真实性 [cite: 115, 116]。

动作确认：使用了一个定制的数据记录工具，标注员每完成一个动作（如点击、滑动），都需要手动确认后才会被记录，这有效避免了误操作和无关手势被录入数据 [cite: 117, 120]。

总数据量：经过整合和处理，整个第二阶段的SFT（监督式微调）使用了 690万 个实例进行训练 [cite: 134]。

5.4.2 训练方法：模仿人类的行为和思考

训练的核心是监督式微调 (Supervised Fine-tuning, SFT) [cite: 76]。模型被要求在看到用户指令和当前手机屏幕截图后，生成与人类标注员完全一致的下一步动作。

训练过程有几个关键点：

模仿动作 (Action Imitation)：模型学习生成一个JSON格式的动作指令，比如 {"POINT": [123,456]} 代表点击坐标(123,456)，或者 {"TYPE": "你好"} 代表输入文字“你好”。

引入“思考”过程 (Thought Generation)：为了让模型不仅是机械地模仿动作，更是学会“思考为什么这么做”，研究人员使用GPT-4o为2.4万条轨迹自动生成了“思考”过程的标注 [cite: 123]。
* 示例：在点击搜索按钮前，模型会先生成思考：“我应该点击这个图标…”。
* 重要性：论文强调，如果没有这个“思考预热”步骤，模型在下一阶段的强化学习中将无法生成有效的推理链，说明这一步对培养模型的规划能力至关重要 [cite: 125]。

防止“思维僵化” (Mitigating Mode Collapse)：研究发现，如果只用GUI交互数据进行训练，模型在后续强化学习阶段的思维会变得非常单一和重复 [cite: 130] 。为了解决这个问题，他们在训练数据中混入了50%的通用多模态对话数据，这有助于稳定模型的策略优化，保持其通用对话能力 [cite: 131]。

5.5 学习思考过程

在模型通过前两个阶段学会了“看懂屏幕”和“模仿动作”之后，第三阶段的目标是让模型从简单的模仿者，升级为能够自主思考和规划的“决策者”。这一阶段对于处理复杂的、长链条的任务至关重要 [cite: 218]。

5.5.1 核心训练算法：GRPO

这个阶段的核心算法是分组相对策略优化 (Group Relative Policy Optimization, GRPO) [cite: 137]。其基本流程如下：

生成候选方案：针对一个任务和当前的屏幕状态，让已经过SFT训练的模型生成 N 个不同的候选动作序列（即 N 种不同的操作方法） [cite: 139]。

评估与打分：对这 N 个候选方案中的每一个进行评估，并给出一个奖励分数 r [cite: 140]。

计算优势 (Advantage)：在这一组（Group）的 N 个候选方案内部，通过比较它们的得分，计算出每个方案的“相对优势” Â。简单来说，得分高于平均分的方案获得正优势，低于平均分的则获得负优势 [cite: 140, 141]。

更新策略：使用一个带惩罚项的优化目标函数，来更新模型的策略（policy）。更新的方向是提高生成“正优势”方案的概率，同时降低生成“负优势”方案的概率 [cite: 141]。

5.5.2 奖励机制的设计

如何给模型的动作打分是强化学习的关键。论文设计了一个细粒度的两阶段奖励验证方案 [cite: 142] ，分数范围被映射到 [-1, 1] [cite: 143]：

-1 分 (格式错误)：如果模型生成的动作不符合预设的JSON格式（比如，JSON结构损坏或缺少字段），则直接给予-1分的惩罚 [cite: 143]。

0 分 (语义错误)：如果动作的格式正确，但在任务逻辑上是错误的（例如，指令要求点击“确定”按钮，模型却点击了“取消”），则得0分 [cite: 144]。

1 分 (完全正确)：当动作的格式和语义都完全正确时，才能获得1分的奖励 [cite: 144]。

针对坐标的特殊规则：对于点击（POINT）这类需要坐标的操作，其正确性有更严格的定义：只有当模型预测的坐标点落在真实目标控件的边界框 (bounding box) 之内时，才算正确，才能得1分，否则为0分 [cite: 144, 145]。

这种精细的奖励设计，能同时鼓励模型生成语法正确且对任务有益的动作。

男士护肤品哪个牌子好？十大男士护肤品排行榜高省APP珊珊
很多男生意识到护肤的必要性，开始着手护肤，但不知道该选哪个男士护肤品品牌使用好。目前市面上很多男士护肤品品牌，可谓琳琅满目，让人眼花缭乱。男士挑选护肤品时，根据自己皮肤需求去正规渠道挑选合适的知名护肤品比较放心靠谱。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入
《玉骨遥》：大司命为什么不杀朱颜？原因没那么简单 windy天意晚晴
《玉骨遥》里，朱颜就是时影的命劫之人。重明与时影早就知道，他们一直瞒着大司命，如今大司命也知道了真相。可是大司命却没有杀朱颜，而是给朱颜下了诛心咒，还说时影的命劫已经破了，真的如此吗？1、计划总是赶不上变化的大司命从目前剧情来说，大司命还不如时影，他信心十足的事情总会有纰漏。他不让时影见命劫之女，结果时影还是遇上了。他想让时影走火入魔，一心复仇，结果时影在朱颜的劝说下放下了仇恨。大司命让时影开山收
day15｜前端框架学习和算法 universe_01 前端算法笔记
T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
C++ 计数排序、归并排序、快速排序每天搬一点点砖 c++数据结构算法
计数排序：是一种基于哈希的排序算法。他的基本思想是通过统计每个元素的出现次数，然后根据统计结果将元素依次放入排序后的序列中。这种排序算法适用于范围较小的情况，例如整数范围在0到k之间计数排序步骤：1初始化一个长度为最大元素值加1的计数数组，所有元素初始化为02遍历原始数组，将每个元素值作为索引，在计数数组中对应位置加13将数组清空4遍历计数器数组，按照数组中的元素个数放回到元数组中计数排序的优点和
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
JVM 内存模型深度解析：原子性、可见性与有序性的实现练习时长两年半的程序员小胡 JVM 深度剖析：从面试考点到生产实践 jvm java 内存模型
在了解了JVM的基础架构和类加载机制后，我们需要进一步探索Java程序在多线程环境下的内存交互规则。JVM内存模型（JavaMemoryModel，JMM）定义了线程和主内存之间的抽象关系，它通过规范共享变量的访问方式，解决了多线程并发时的数据一致性问题。本文将从内存模型的核心目标出发，详解原子性、可见性、有序性的实现机制，以及volatile、synchronized等关键字在其中的作用。一、J
Flowable 实战落地核心：选型决策与坑点破解练习时长两年半的程序员小胡 Flowable 流程引擎实战指南低代码 BPMN 流程引擎 flowable 后端 java
在企业级流程引擎的落地过程中，选型的准确性和坑点的预见性直接决定项目成败。本文聚焦Flowable实战中最关键的“选型决策”与“常见坑点”，结合真实项目经验，提供可落地的解决方案。一、流程引擎选型：从业务本质出发1.1选型的三大核心维度企业在选择流程引擎时，需避免陷入“技术崇拜”，应回归业务本质。评估Flowable是否适用，可从三个维度判断：业务复杂度若流程涉及动态审批链（如按金额自动升级审批）
SpringMVC的执行流程
1、什么是MVCMVC是一种设计模式。MVC的原理图如下所示M-Model模型（完成业务逻辑：有javaBean构成，service+dao+entity）V-View视图（做界面的展示jsp，html……）C-Controller控制器（接收请求—>调用模型—>根据结果派发页面2、SpringMVC是什么SpringMVC是一个MVC的开源框架，SpringMVC=Struts2+Spring，
力扣面试题07 - 旋转矩阵茶猫_ leetcode 矩阵算法 c语言
题目：给你一幅由N×N矩阵表示的图像，其中每个像素的大小为4字节。请你设计一种算法，将图像旋转90度。不占用额外内存空间能否做到？示例1:给定matrix=[[1,2,3],[4,5,6],[7,8,9]],原地旋转输入矩阵，使其变为:[[7,4,1],[8,5,2],[9,6,3]]示例2:给定matrix=[[5,1,9,11],[2,4,8,10],[13,3,6,7],[15,14,12,
Aop +反射实现方法版本动态切换
需求分析在做技术选型的时候一直存在着两个声音，mongo作为数据库比较mysql好，mysql做为该数据比mongo好。当然不同数据库都有有着自己的优势，我们在做技术选型的时候无非就是做到对数据库的扬长避短。mysql最大的优势就是支持事务，事务的五大特性保证的业务可靠性，随之而来的就是事务会产生的问题：脏读、幻读、不可重复度，当然我们也会使用不同的隔离级别来解决。（最典型的业务问题：银行存取钱）
通义万相2.2：开启高清视频生成新纪元 Liudef06小白特殊专栏 AIGC 人工智能人工智能通义万相2.2 图生视频
通义万相2.2：开启高清视频生成新纪元2025年7月28日，中国AI领域迎来里程碑时刻——通义万相团队正式开源其革命性视频生成模型Wan2.2的核心权重，这标志着开源社区首次获得支持720P高清视频生成的先进模型架构。一、架构革新：混合专家系统1.1MoE视频扩散架构通义万相2.2首次将混合专家（MoE）架构引入视频扩散模型，通过双专家系统实现计算效率与模型容量的平衡：classMoEVideoD
模拟退火(SA)：如何“故意走错路”，才能找到最优解？小瑞瑞acd 小瑞瑞学数模模拟退火算法 python 启发式算法算法
模拟退火(SA)：如何“故意走错路”，才能找到最优解？图示模拟退火算法如何通过接受较差解（橙色虚线标注）从局部最优（绿色点）逃逸，最终找到全局最优解（紫色点），展示其跳出局部极小值的能力。大家好，我是小瑞瑞！欢迎回到我的专栏！想象一下，你站在一座连绵不绝的山脉中，目标是找到海拔最低的那个山谷。你手上只有一个高度计，视野被浓雾笼罩，只能看清脚下的一小片区域。如果你是一个“贪心”的登山者，你的策略会非
今晚吃太饱了爱伤心的蚂蚁
今晚吃太饱了，两碗干饭，两碗肉汤，一碗牛奶银耳汤，感觉肚子都顶出来了，圆滚滚的！明早要早起，出发去小蚂蚁家！看着剩下的肉汤，倒掉多可惜，干掉了！看着小蚂蚁熬的银耳汤，倒掉多可惜，于是热了一下，顺便热袋牛奶倒进去，大娃喝点，小蚂蚁喝点，还剩下一大碗，继续干掉！吃的太饱，人也懒洋洋的，躺床上不想动，感受的肚子撑撑的感觉，好久没吃这么饱了！这一晚灌的都是汤汤水水的，天冷的晚上，半夜要睡不安稳咯！哈哈！小
你对待万事万物的态度行靜
昨晚爸爸把洒水壶灌满水，对我说：你也该去浇浇你阳台上的花咯。这么大的天气，几天没浇水都快死了。我才意识到自己容易突然间忽视一些事情。尤其是身旁的一些事，可能它们呆久了，反而习以为常。想想每天的生活状态就是在不断的重复着一些事，有点固定模式。没有什么特别发生。记录我的一天：上班，挤公交，用手机或电脑，吃饭，上课。没有
编程算法：技术创新的引擎与业务增长的核心驱动力
在数字经济时代，算法已成为推动技术创新与业务增长的隐形引擎。从存内计算突破冯·诺依曼瓶颈，到动态规划优化万亿级金融交易，编程算法正在重塑产业竞争格局。一、存内计算：突破冯·诺依曼瓶颈的算法革命1.1存内计算的基本原理传统计算架构中90%的能耗消耗在数据搬运上。存内计算（Processing-in-Memory）通过直接在存储单元执行计算，实现能效10-100倍提升：#传统计算vs存内计算能耗模型i
图论算法经典题目解析：DFS、BFS与拓扑排序实战周童學数据结构与算法深度优先算法图论
图论算法经典题目解析：DFS、BFS与拓扑排序实战图论问题是算法面试中的高频考点，本博客将通过四道LeetCode经典题目（均来自"Top100Liked"题库），深入讲解图论的核心算法思想和实现技巧。涵盖DFS、BFS、拓扑排序和前缀树等知识点，每道题配有Java实现和易错点分析。1.岛屿数量(DFS遍历)问题描述给定一个由'1'(陆地)和'0'(水)组成的二维网格，计算岛屿的数量。岛屿由水平或
承德十大亲子鉴定医院名单(附2024年10所正规医院) 国医基因陈主任
承德哪家医院可以做亲子鉴定？承德市中心医院、中国人民解放军第二六六医院、承德医学院附属医院等都可以做常规亲子鉴定采样采集，一般的医院并不可以为你提供常规亲子鉴定检测的服务。承德亲子鉴定中心地址：承德市西大街路北11号（承德国医基因）。一般只有少数三甲医院可以做亲子鉴定采样，或者当地亲子鉴定中心可以做亲子鉴定。如果想做亲子鉴定，最好直接到亲子鉴定中心内或亲子鉴定医院采样点内进行双方抽血鉴定，这样会更
践行8.0~第六周11.25-12.02 初队长
突破后的喜悦最可怕的不是自己不清楚，而是自己清楚了，却依然不心动，我想这就是我们每个人的惰性存在，在这一周的践行，我发现自己依然是停留在自己的模式当中，不断的恶性的轮回，虽然的话，那再晨间日记方面是纸质的填写，但是对一天的工作没有起到应有的计划和推动的作用而我自己呢，也有些时候的话会处于一个相对来讲放松的一个状态，时间的把控的话也有一些点的消极，所以在这周的间隙，重点是关注自己的三大目标为目标来进
5G基站信号加速器！AD8021ARZ-REEL7亚德诺超低噪声高速电压放大器专利失真消除技术! 深圳市尚想信息技术有限公司 5G通信高速运放 ADI黑科技 8K视频医疗超声
AD8021ARZ-REEL7ADI：重新定义高速放大器的性能极限！一、产品简介AD8021ARZ-REEL7是ADI（亚德诺半导体）推出的超低噪声高速电压反馈放大器，采用XFCB工艺和专利失真消除技术，专为4K/8K视频处理、医疗成像、5G通信等超高频应用设计。以1.8GHz带宽和0.1nV/√Hz超低噪声，成为高速信号调理的终极解决方案！二、五大颠覆性优势军工级信号保真度1.8GHz-3dB带
打造自己的梦想生态系统轻风style
今天听了第5周5.1的梦想系统和随堂练习：梦想仓库与八大关注表。参照老师给出的例子，列出了八大关注对应的自己的梦想。有些写的时候内心都在怀疑，但因为老师有说到，要没有分别心的去列出，不管是近的，远的，小的，大的，自己觉得可以实现的，或者觉得根本不可能实现的，都统统的列出来。就像音频中提到的，林语堂说过的话，梦想无论怎样模糊，总潜伏在我们心底，使我们的心境永远得不到宁静，直到这些梦想成为事实才止；像
我是孩子妈妈，我会让孩子饿着吗？松玲子
回老家过年，就是一场在关于喂养孩子问题上与老人的巅峰对决。前天我们回老家了，他爷爷奶奶就说孩子瘦了，就说我喂的不好，不按时喂，第一天夜里孩子总是睡一会就哭，睡一会就哭，夜里不知醒了多少次，弄得我真是几乎彻夜未眠。一大早，我还没起，我就听见他爷爷奶奶在外边说，今黑夜阳阳怎么老哭，是不是饿的，然后又延伸到我喂养的问题上，说不吃盐不行，不吃盐孩子没劲，吃蛋光吃个蛋黄，吃不饱，给他吃全蛋就行，哎呀我去，我
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
心力践行营十二期一阶学习打卡 LX_王彤彤
姓名：王彤彤时间：2021年4月24日一：朗读师父的十大人生哲学二：师父的早安分享感悟很喜欢这句话：所有的行动都是基于目标的尝试，没有所谓的失败，只是不同尝试后得到的不同结果，让我们更好地调整下一次的行动。三：感恩日记1.我太幸福了，我很感恩姑姑，因为姑姑放假又投喂了我，还给我带了饺子回家，这让我感觉很幸福。谢谢，谢谢，谢谢。2.我太幸福了，我很感恩师父晚上的直播，因为听他的分享我知道怎么更好的去
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
京东中秋节会打折吗？京东中秋节活动力度大吗？高省APP珊珊
京东中秋节会打折，并且活动力度通常是比较大的。以下是具体分析：京东中秋节打折情况降价促销：京东在中秋节期间会推出大规模的降价促销活动，涵盖食品、家居、家电等多个品类，以及众多热门品牌。消费者可以在此期间享受到实实在在的降价优惠。多种优惠形式：除了直接的降价促销，京东还会通过满减优惠、折扣促销、限时秒杀等多种形式的优惠活动来吸引消费者。这些优惠活动通常具有较高的吸引力，能够激发消费者的购买欲望。目前
Android 应用权限管理详解
文章目录1.权限类型2.权限请求机制3.权限组和分级4.权限管理的演进5.权限监控和SELinux强制访问控制6.应用权限审核和GooglePlayProtect7.开发者最佳实践8.用户权限管理9.Android应用沙箱模型10.ScopedStorage（分区存储）11.背景位置权限（BackgroundLocationAccess）12.权限回收和自动清理13.权限请求的用户体验设计14.G
AI模型训练中过拟合和欠拟合的区别是什么？ workflower 人工智能算法人工智能数据分析
在AI模型训练中，过拟合和欠拟合是两种常见的模型性能问题，核心区别在于模型对数据的学习程度和泛化能力：欠拟合（Underfitting）-定义：模型未能充分学习到数据中的规律，对训练数据的拟合程度较差，在训练集和测试集上的表现都不好（如准确率低、损失值高）。-原因：-模型结构过于简单（如用线性模型解决非线性问题）；-训练数据量不足或特征信息不充分；-训练时间太短，模型尚未学到有效模式。-表现：训练
农场种蔬菜赚钱小游戏有哪些五大可以赚钱的小游戏APP 氧惠帮朋友一起省
喜欢种菜吗？我特意带来农场种蔬菜赚钱小游戏排行榜2022，线上汇集了超多模拟种菜玩法，玩家可以免费种植赚钱哦！每天都有大量的种植任务，线上完成就能赚钱哦！快来下载吧！1.氧惠APP购物、看电影、点外卖、用氧惠APP！更优惠！氧惠（全网优惠上氧惠）——是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面，送1:1超级补贴(邀请好友自购多少，你就推广得多少，非常厉害)，欢迎各位
严重的DDoS 攻击澳大利亚主要宽带提供商 Fancy1816575412
本周早些时候，澳大利亚最大的固定无线宽带运营商CirrusCommunications遭受了一次重大的DDoS攻击，导致其一半以上的网络瘫痪。该公司在其网站上声称：“强大的架构、数百个传输站点以及光纤和微波回程的使用使其能够以非常高的正常运行时间提供高速”。CirrusCommunications表示，它覆盖了澳大利亚十大人口中心以及几个主要的区域中心，主要为企业和政府客户提供服务。然而，据The
3次创业身价百亿，2年前却被大众判“死刑”，李想如今怎样了？职心眼儿
他，19岁放弃高考去创业；25岁，成为亿万富豪，被央视评为“80后创业”领军人物；39岁，身价再次暴涨，一夜间闯过200亿大关。他，在3个领域连续创业20年，一家公司市值700亿，一家公司市值2000亿。而他的最高学历，却只有高中。这个人，就是理想汽车的创始人——李想。纵观李想的创业史，可谓是颇为传奇：一个既没背景，又没资金高中毕业生，怎么就让3位互联网巨头（张一鸣、王兴、程维）同时为自己站台？更
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方

【2025智源大会论文解读】智能体-林衍凯

0 新框架

0.1 MiniCPM4-Survey：

1 webcpm

1.1WebCPM的核心方法：会“思考和追问”的侦探

1.1.1. 搜索模型 (Search Model)：像侦探一样收集线索

1.1.2. 合成模型 (Synthesis Model)：撰写最终的调查报告

2 ToolLLM

2.1. ToolBench：一个高质量的工具使用指令微调数据集

2.2 DFSDT：一种创新的决策树推理算法

ToolLLaMA：经过微调的强大工具使用模型

API检索器与自动评估器

2.3 指令生成

2.3.1. 核心思路：从API到指令

2.3.2. 生成方法与提示工程 (Prompting)

2.3.3. 针对不同场景的API抽样策略

2.3.4. 后处理与最终产出

2.4 解决方案路径标注

2.4.1. 基本流程：作为多轮对话的决策过程

2.4.2. 核心挑战：传统方法的局限性

2.4.3. 创新方法：基于深度优先搜索的决策树 (DFSDT)

3 AgentRM

3.1 核心观点

3.2核心方法：AgentRM

3.2.1 显式奖励建模 (Explicit Reward Modeling)

3.2.2 如何使用AgentRM

4. PROACTIVE AGENT

4.1. 自动数据生成流水线 (Data Generation Pipeline)

4.2. 奖励模型 (Reward Model)

4.3. ProactiveBench 数据集

4.4. 模型微调与评估

5 AgentCPM-GUI

5.1核心目标

5.2 核心方法：三阶段渐进式训练

第一阶段：视觉感知与定位 (Visual Perception and Grounding)

第二阶段：有监督的模仿学习 (Supervised Imitation Learning)

第三阶段：强化微调 (Reinforcement Fine-tuning, RFT)

5.3 视觉感知与定位

5.3.1. 训练数据的准备

5.3.2. 具体的训练任务

5.3.3. 模型的输出与评估

5.4 模仿人类操作行为

5.4.1 训练数据：高质量的“操作录像”

5.4.2 训练方法：模仿人类的行为和思考

5.5 学习思考过程

5.5.1 核心训练算法：GRPO

5.5.2 奖励机制的设计

你可能感兴趣的:(大模型,人工智能,算法)