【论文解读】s3: 仅 2.4K 数据即可 RL 训练Search Agent

1st authro: Patrick Jiang

paper: [2505.14146] s3: You Don’t Need That Much Data to Train a Search Agent via RL

code: pat-jj/s3: s3 - Efficient Yet Effective Search Agent Training via RL for RAG

5. 总结 (结果先行)

s3 框架以其 “解耦搜索与生成、仅训练搜索代理、采用 GBR 奖励” (Figure 3) 的设计，为模型无关的 RAG 系统提供了一条有前景的路径。它清晰地证明了，我们可以在数据需求量极低 (Figure 1) 的情况下，显著提升 RAG 系统的性能和泛化能力，s3 的成功挑战了以往认为需要大量数据或端到端微调才能实现高性能 RAG 代理的普遍看法。它强调了针对性地学习“如何更好地搜索以服务于生成”，可能比试图同时优化搜索和生成本身更为有效和经济。

前瞻展望:

奖励信号的进一步优化: GBR 虽有效，但仍需调用 LLM 进行评估。探索更轻量级、无需 LLM 调用的 GBR 代理奖励函数，或者研究更高效的离线 RL 方法来利用 GBR，将是降低训练成本的关键。
复杂推理任务的扩展: s3 在当前 QA 数据集上表现优异，未来可以探索其在需要更长链条、更深度多轮交互和推理的复杂任务上的潜力。
GBR 思想的泛化: “超越基线的增益”这一思想，是否可以被泛化到其他需要 LLM 与外部工具 (如代码解释器、计算器、知识图谱) 交互的场景，以指导 LLM 更有效地利用这些工具？
搜索策略的可解释性: 深入分析 s3 学习到的搜索策略，理解其在不同类型问题上的行为模式，有助于进一步提升其鲁棒性和可信度。

1. 思想

现有的基于强化学习 (RL) 的 RAG 方法通常面临两难：

优化与下游任务脱节的搜索指标: 例如，仅优化 NDCG (Normalized Discounted Cumulative Gain) 这种纯搜索指标，而忽略了检索到的内容是否真的能帮助语言模型 (LLM) 生成更好的答案。
因为：相关≠关键，相关≠有用，相关≠信息补充
NDCG (Normalized Discounted Cumulative Gain) 是一种常用的衡量排名列表质量的评价指标。它衡量的是模型返回的文档（或其他条目）列表与理想排名列表的接近程度。
- G (Gain，增益): 指的是列表中每个文档的相关性得分。 $\text{Gain}=rel_i$ 相关性会被赋予一个数值等级（例如，0=不相关, 1=有点相关, 2=相关, 3=非常相关）。
- CG (Cumulative Gain，累积增益): 是到某个排名位置 $p$ 的累加。 $CG_p = \sum_{i=1}^{p} rel_i$ 。CG 没有考虑文档在列表中的位置。
- DCG (Discounted Cumulative Gain，折损累积增益): 为了解决 CG 不考虑位置的问题，DCG 引入了折损因子。思想: 排在越靠前的相关文档价值越高。因此，排在较低位置的文档的相关性得分会被一个对数因子折损。计算公式为：
  $DCG_p = \sum_{i=1}^{p} \frac{rel_i}{\log_2(i+1)}$
- N (Normalized，归一化): DCG 的值会随着查询的不同而变化（例如，某些查询可能有很多高度相关的文档，而另一些则很少）。为了使得不同查询之间的 DCG 值具有可比性，需要进行归一化。
  - IDCG (Ideal Discounted Cumulative Gain，理想折损累积增益): 对于当前查询，可能产生的最大 DCG 值。即所有相关文档按照其真实相关性从高到低排序后，再截取前 $p$ 个计算得到的 DCG 值。
  - NDCG: 就是用实际的 DCG 值除以理想的 IDCG 值：
    $NDCG_p = \frac{DCG_p}{IDCG_p}$
    NDCG 的取值范围是 0 到 1，值越接近 1 表示排名质量越好。
微调整个 LLM 以联合推理和检索: 这种端到端的方法将搜索与生成过程紧密耦合，不仅使得模型难以适配那些 API 调用受限、无法获取内部权重或架构的冻结模型 (frozen models) 或专有模型 (proprietary models)，而且训练成本高昂，需要大量数据。

大问题: 如何高效提升 RAG 系统在特定任务上的表现？
现有方案的局限: RL 优化搜索指标与下游脱节；端到端微调成本高、耦合紧。
关键思路:
1. 解耦 (Decouple): 将搜索代理 (Searcher) 与生成器 (Generator) 彻底分开。
2. 专注 (Focus): 仅通过强化学习训练搜索代理，使其学会如何为生成器找到最有用的信息。
3. 冻结 (Freeze): 生成器 LLM 保持不变，可以是任意黑盒模型。这大大增强了系统的通用性和实用性。
4. 奖励 (Reward): 引入一个新颖且直接与下游任务相关的奖励信号——“超越RAG的增益” (Gain Beyond RAG, GBR)。这个奖励衡量的是，相比于一个简单的、无学习的基线 RAG 系统，s3 的搜索代理多大程度上提升了最终生成答案的准确性。

2. 方法

s3 框架通过一个精心设计的流程，将搜索、选择与最终的生成分离开来，并通过 GBR 奖励指导搜索代理的学习。

2.1 结构与流程

s3 框架概览 (Figure 4):
给定一个问题 $Q$ ，s3 系统包含三个主要组件：

搜索代理 LLM (Policy) $\pi_{s3}$ ：一个可训练的 LLM，负责生成搜索查询、选择文档和决定何时停止搜索。
搜索引擎 (Search Engine) $\mathcal{R}$ ：一个标准的检索引擎 (如 BM25 或基于稠密向量的检索器)。
冻结的生成器 LLM (Frozen Generator) $\mathcal{G}$ ：一个不参与训练的 LLM，负责根据搜索代理提供的上下文生成最终答案。

循环流程 (Multi-Turn Search-Select Loop):
该循环从 $t = 0$ 开始，按以下步骤迭代进行，直到搜索代理决定停止或达到最大轮次 $T$ ：

查询生成 (Query Generation): 在第 $t$ 轮，搜索代理 $\pi_{s3}$ 根据当前状态 (包含原始问题和历史搜索信息) 生成一个搜索查询 $q_t$ 。查询的格式通常是 ...。
搜索 (Search): 利用搜索引擎 $\mathcal{R}$ ，根据查询 $q_t$ 检索到一组文档 $D_t = \mathcal{R}(q_t)$ 。这些文档以 ... 的形式呈现给搜索代理。
选择 (Select): 搜索代理从 $D_t$ 中选择一个它认为有用的文档子集 $D_{sel}^t \subseteq D_t$ ，这些选中的文档ID通常放在 ... 标签内。
停止决策 (Stop decision): 搜索代理输出一个决策 [1/0]，其中 1 表示搜索完成，0 表示需要继续下一轮搜索。

初始化 (Initialization): 为了确保 GBR 奖励有一个合理的比较基线，循环在 $t = 0$ 时，使用原始问题 $Q$ 作为初始查询 $q_0 = Q$ ，检索初始文档 $D_0 = \mathcal{R}(Q)$ ，并从中选择一个子集 $D_{sel}^0$ 。这模拟了朴素 RAG 的初始检索步骤。

最终上下文与答案生成:
当循环终止时，所有轮次中被选择的有用文档被汇总为最终的上下文 $D_{s3} = \bigcup_{t=0}^{T} D_{sel}^t$ 。
然后，这个上下文 $D_{s3}$ 与原始问题 $Q$ 一起被传递给冻结的生成器 $\mathcal{G}$ ，以生成最终答案 $\hat{A} = \mathcal{G}(Q, D_{s3})$ 。

2.2 奖励

奖励信号: 超越RAG的增益 (Gain Beyond RAG, GBR):
GBR 是 s3 训练搜索代理 $\pi_{s3}$ 的核心。它直接量化了 s3 的搜索策略相比于一个固定的、朴素的 top-k RAG 基线所带来的下游生成性能提升。
$Acc(\mathcal{G}(Q, D_{s3}), A) - Acc(\mathcal{G}(Q, D_{RAG}), A)$

$D_{RAG} = \mathcal{R}(Q)$ : 朴素 RAG 基线 (这里 $D_{RAG}=D_0$ )，即直接使用原始问题 $Q$ 通过搜索引擎 $\mathcal{R}$ 一次性检索得到的 top-k 文档集合。
$Acc(\cdot, \cdot)$ : 一个任务相关的准确率评估函数。在论文中，它被实例化为 “生成准确率 (Generation Accuracy, GenAcc)” 。评估 $\mathcal{G}$ 生成的答案与标准答案 $A$ 的一致性。
- GenAcc: 论文提出的评价指标，旨在比传统的 Exact Match (EM) 更能捕捉答案的语义正确性：
  
  $\text{GenAcc} = \text{span-check} \lor \text{judge-check}$ (逻辑或，即只要任一检查通过，则为1)。
  1. 输入: 模型预测 $p$ ，标准答案集合 $A$ 。
  2. 标准化: 对 $p$ 和 $A$ 中的所有答案进行小写转换，移除标点符号和冠词 (如 “a”, “an”, “the”)。
  3. 跨度检查 (span_check): 检查 $A$ 中的任何一个标准化后的标准答案 $\in A$ 是否是标准化后预测 $p$ 的一个子字符串 (token span)。如果是，则 GenAcc = 1。
  4. LLM判断 (judge_check): 如果 span_check 未通过 (即 GenAcc 仍为 0)，则调用一个轻量级的 LLM (如 Claude-3-Haiku) 进行语义判断。LLM 的提示大致为：“请判断预测答案 ‘{p}’ 是否包含了标准答案 ‘{str(A)}’ 中的任何一个？请直接回答 ‘yes’ 或 ‘no’。” 如果 LLM 回答 ‘yes’，则 GenAcc = 1，否则为 0。

2.3 训练

训练优化: 为了提高训练效率，在计算 GBR 奖励时，预先计算基线准确率 $Acc(\mathcal{G}(Q, D_{RAG}), A)$ ，并且仅在那些基线准确率为 0 的样本上进行训练。这意味着 s3 专注于学习如何解决那些朴素 RAG 难以处理的“硬”问题。

搜索策略优化 (Search Policy Optimization):
s3 不使用针对搜索任务的SFT ，直接开始强化学习优化搜索代理 $\pi_{s3}$ 的策略。论文采用了近端策略优化 (Proximal Policy Optimization, PPO) 算法，因其具有较好的经验稳定性和样本效率。
PPO 的目标函数可以表示为：
$L^{PPO}(\theta) = \hat{\mathbb{E}}_t \left[ \min(r_t(\theta)\hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_t) \right]$
其中:

$\theta$ : 搜索代理 LLM $\pi_{s3}$ 的参数。
$\hat{\mathbb{E}}_t$ : 表示对在一个 rollout (即一次完整的搜索轨迹) 中所有时间步 $t$ 上收集的经验样本求期望。
$r_t(\theta) = \frac{\pi_{\theta}(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}$ : 概率比率 (probability ratio)。 $\pi_{\theta}(a_t|s_t)$ 是当前策略在状态 $s_t$ 下采取动作 $a_t$ 的概率， $\pi_{\theta_{old}}(a_t|s_t)$ 是收集该样本时旧策略的概率。
$\hat{A}_t$ : 在时间步 $t$ 的优势函数 (Advantage function) 的估计值，它衡量了在状态 $s_t$ 下采取动作 $a_t$ 相对于平均动作的好坏程度。在 s3 中，一个 rollout 的总奖励是该轨迹最终的 GBR 值。
$\epsilon$ : 裁剪参数 (clipping parameter)，是一个小常数 (例如 0.2)，用于限制 $r_t(\theta)$ 的范围在 $[1-\epsilon, 1+\epsilon]$ 内。 $\text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)$ 操作确保了策略更新不会过于激进，从而提高了训练的稳定性。

通过最大化这个目标函数，搜索代理 $\pi_{s3}$ 学习如何执行一系列动作 (生成查询、选择文档、决定停止) 来最大化最终的 GBR 奖励。

3. 优势

极高的数据效率 (Extreme Data Efficiency):
- s3 仅需 2.4k 个训练样本即可在多个基准测试中超越那些使用远超其数据量 (例如，Search-R1 使用 170k 样本，DeepRetrieval 使用 70k 样本) 进行训练的基线模型。通过 GBR 奖励专注于难例以及解耦设计实现的。
彻底的模块化与兼容性 (Thorough Modularity and Compatibility):
- 搜索器与生成器的完全解耦是 s3 的核心特征。这意味着：
  - 搜索代理可以独立优化，而无需改动生成器。
  - 生成器可以是任意冻结的 LLM，包括那些不开放模型权重、仅提供 API 访问的商业模型或专有模型。这极大地扩展了 s3 的适用范围。
  - 可以灵活替换和升级搜索器或生成器组件。
直接优化下游任务效用 (Direct Optimization of Downstream Utility):
- 通过 GBR 奖励机制，s3 的搜索代理的学习目标直接与最终生成答案的质量挂钩 (通过 Generation Accuracy 衡量)。这避免了传统 RL4RAG 方法中优化中间搜索指标 (如召回率、NDCG) 可能与最终任务性能不完全一致的问题。
避免生成器过拟合特定答案形式 (Avoids Generator Overfitting to Specific Answer Forms):
- 由于生成器 LLM 在 s3 的训练过程中始终保持冻结状态，强化学习的优化压力完全施加在搜索代理上。这避免了在端到端联合训练中，生成器可能过拟合于从特定检索文档中提取和复述答案的特定表面形式，从而提高了生成答案的鲁棒性和泛化性。
轻量级搜索代理 (Lightweight Search Agent):
- s3 可以使用相对较小的 LLM (如论文中的 7B 模型) 作为搜索代理，而将更强大的 (可能也是更大的或专有的) LLM 用作冻结的生成器。这在计算资源和成本方面具有优势。

4. 实验

实验设置

数据集:
- 通用问答 (General QA): 使用了六个广泛应用的QA数据集，包括 NQ, TriviaQA, PopQA, HotpotQA, 2WikiMultihopQA, 和 Musique。s3 的训练数据主要来源于 NQ 和 HotpotQA 的一个子集 (约 2.4k 样本)。
- 医疗问答 (Medical QA): 使用了 MIRAGE 基准测试套件，包含五个医疗领域的 QA 数据集。值得注意的是，s3 没有在任何医疗数据上进行训练，其在该领域的表现完全是零样本迁移的结果。
生成器 LLM: 实验中测试了多种冻结的生成器 LLM，包括 Qwen2.5-7B-Instruct, Qwen2.5-14B-Instruct, 以及 Claude-3-Haiku，以验证 s3 的模型无关性。
搜索器 LLM: s3 的搜索代理基于 Qwen2.5-7B-Instruct 进行训练。
基线模型:
- 端到端微调模型: SFT (Supervised Fine-Tuning), R1 (复现 DeepSeek-R1-Zero 但使用小模型), Search-R1 (联合检索与生成)。
- 静态检索+冻结生成器: RAG-BM25, RAG-E5 (使用 E5 嵌入)。
- 主动检索+冻结生成器: IRCoT (零样本链式思考与检索), Search-01 (推理时检索控制器)。
- RL 优化检索指标: DeepRetrieval-BM25 (优化召回率和 NDCG)。

实验结论

通用领域 RAG 性能卓越:
- 在所有测试的生成器 (Qwen2.5-7B, Qwen2.5-14B, Claude-3-Haiku) 下，s3 (使用7B搜索器) 在六个通用 QA 数据集上的平均 GenAcc 均取得了最高分。关键是 s3 仅使用了 2.4k 训练样本。
医疗领域的零样本迁移能力:
- 尽管 s3 仅在通用 QA 数据上训练，但在 MIRAGE 医疗 QA 基准测试中，当使用 Wikipedia+PubMed+Textbook 作为知识库，并以 Claude-3-Haiku 作为生成器时，s3 取得了 76.6% 的平均准确率 (judge_check)，在所有对比的检索增强方法中表现最佳。这表明 s3 学到的搜索策略具有良好的领域泛化性。
数据和训练效率:
- 训练 s3 达到收敛大约需要 20 个 PPO 步骤 (对应 2.4k 训练样本)，总耗时约 114 分钟。相比之下，Search-R1 需要约 2100 个 PPO 步骤 (对应 170k 样本)，总耗时约 3780 分钟。即使考虑到 s3 在每个 PPO 步骤中因为需要调用冻结 LLM 计算 GBR 奖励而耗时更长 (5.7m vs 1.8m per step)，其总训练时间也大幅缩短了约 33 倍。
GBR 奖励的有效性:
- 论文在 Takeaway #1 中强调，“仅优化搜索器比端到端优化 RAG 更好”。s3 持续优于 Search-R1 (Ret) (即 Search-R1 模型仅用于检索，然后送入固定的生成器)，这表明 s3 提升的主要是搜索质量，而非对生成器的某种“调校”。
- GBR 奖励直接与下游任务性能挂钩。使用 GenAcc 作为奖励信号，在性能和计算成本之间取得了很好的平衡。虽然 LLMJudge (完全依赖 LLM 判断奖励) 可能得到略高的最终分数，但其计算成本过高不适合大规模训练。
消融实验:
- “从搜索开始 (Begin with Search)”，即用原始问题初始化第一轮搜索，对于性能至关重要。移除该步骤会导致所有数据集性能显著下降。
- “文档选择 (Document Selection)” 步骤（即 $\pi_{s3}$ 从检索结果中选择子集 $D_{sel}^t$ ），虽然移除它有时会在某些数据集 (如 NQ, 2Wiki) 上略微提升性能 (可能是因为避免了过于激进的剪枝)，但完整的 s3 系统通过选择文档，显著减少了传递给生成器的 token 数量 (平均减少 2.6 倍至 4.2 倍)，从而大幅提升了整体的推理效率和降低了成本。

x86-64汇编语言训练程序与实战十除以十等于一
本文还有配套的精品资源，点击获取简介：汇编语言是一种低级语言，与机器代码紧密相关，特别适用于编写系统级代码及性能要求高的应用。nasm编译器是针对x86和x86-64架构的汇编语言编译器，支持多种语法风格和指令集。项目Euler提供数学和计算机科学问题，鼓励编程技巧应用，前100个问题的答案可共享。x86-64架构扩展了寄存器数量并引入新指令，提升了数据处理效率。学习汇编语言能够深入理解计算机底层
移动端城市区县二级联动选择功能实现包 good2know
本文还有配套的精品资源，点击获取简介：本项目是一套为移动端设计的jQuery实现方案，用于简化用户在选择城市和区县时的流程。它包括所有必需文件：HTML、JavaScript、CSS及图片资源。通过动态更新下拉菜单选项，实现城市到区县的联动效果，支持数据异步加载。开发者可以轻松集成此功能到移动网站或应用，并可基于需求进行扩展和优化。1.jQuery移动端解决方案概述jQuery技术简介jQuery
日更006 终极训练营day3 懒cici
人生创业课（2）今天的主题：学习方法一：遇到有用的书，反复读，然后结合自身实际，列践行清单，不要再写读书笔记思考这本书与我有什么关系，我在哪些地方能用到，之后我该怎么用方法二：读完书没映像怎么办?训练你的大脑，方法：每读完一遍书，立马合上书，做一场分享，几分钟都行对自己的学习要求太低，要逼自己方法三：学习深度不够怎么办？找到细分领域的榜样，把他们的文章、书籍、产品都体验一遍，成为他们的超级用户，向
（二）SAP Group Reporting (GR) 核心子模块功能及数据流向架构解析
数据如何从子公司流转到合并报表的全过程，即数据采集→合并引擎→报表输出，特别是HANA内存计算如何优化传统ETL瓶颈。SAPGroupReporting(GR)核心模块功能及数据流向的架构解析，涵盖核心组件、数据处理流程和关键集成点，适用于S/4HANA1809+版本：一、核心功能模块概览模块功能关键事务码/FioriApp数据采集(DataCollection)整合子公司财务数据（SAP/非SA
9、汇编语言编程入门：从环境搭建到简单程序实现神经网络酱汇编语言 MEPIS GNU工具链
汇编语言编程入门：从环境搭建到简单程序实现1.数据存储介质问题解决在处理数据存储时，若要使用MEPIS系统，需确保有其可访问的存储介质。目前，MEPIS无法向采用NTFS格式（常用于Windows2000和XP工作站）的硬盘写入数据。不过，若硬盘采用FAT32格式，MEPIS就能进行写入操作。此外，MEPIS还能将文件写入软盘和大多数USB闪存驱动器。若工作站连接到局域网，还可通过FTP协议或挂载
实时数据流计算引擎Flink和Spark剖析程小舰 flink spark 数据库 kafka hadoop
在过去几年，业界的主流流计算引擎大多采用SparkStreaming，随着近两年Flink的快速发展，Flink的使用也越来越广泛。与此同时，Spark针对SparkStreaming的不足，也继而推出了新的流计算组件。本文旨在深入分析不同的流计算引擎的内在机制和功能特点，为流处理场景的选型提供参考。（DLab数据实验室w.x.公众号出品）一.SparkStreamingSparkStreamin
英伟达靠什么支撑起了4万亿？AI泡沫还能撑多久？
英伟达市值突破4万亿美元，既是AI算力需求爆发的直接体现，也暗含市场对未来的狂热预期。其支撑逻辑与潜在风险并存，而AI泡沫的可持续性则取决于技术、商业与地缘政治的复杂博弈。⚙️一、英伟达4万亿市值的核心支撑因素技术垄断与生态壁垒硬件优势：英伟达GPU在AI训练市场占有率超87%，H100芯片的FP16算力达1979TFLOPS，领先竞品3-5倍。CUDA生态：400万开发者构建的软件护城河，成为A
MotionLCM 部署优化踩坑解决bug AI算法网奇 aigc与数字人深度学习宝典文生motion
目录依赖项windowstorchok：渲染黑白图问题解决：humanml3d：sentence-t5-large下载数据：报错：Nomodulenamed'sentence_transformers'继续报错：fromtransformers.integrationsimportCodeCarbonCallback解决方法：推理相关转mesh：module‘matplotlib.cm‘hasno
JVM 内存模型深度解析：原子性、可见性与有序性的实现练习时长两年半的程序员小胡 JVM 深度剖析：从面试考点到生产实践 jvm java 内存模型
在了解了JVM的基础架构和类加载机制后，我们需要进一步探索Java程序在多线程环境下的内存交互规则。JVM内存模型（JavaMemoryModel，JMM）定义了线程和主内存之间的抽象关系，它通过规范共享变量的访问方式，解决了多线程并发时的数据一致性问题。本文将从内存模型的核心目标出发，详解原子性、可见性、有序性的实现机制，以及volatile、synchronized等关键字在其中的作用。一、J
什么是缓存雪崩？缓存击穿？缓存穿透？分别如何解决？什么是缓存预热？ daixin8848 缓存 redis java 开发语言
缓存雪崩：在一个时间段内，有大量的key过期，或者Redis服务宕机，导致大量的请求到达数据库,带来巨大压力-给key设置不同的TTL、利用Redis集群提高服务的高可用性、添加多级缓存、添加降级流策略缓存击穿：给某一个key设置了过期时间，当key过期的时间，恰好这个时间点有大量的并发请求访问这个key，可能会瞬间把数据库压垮-互斥锁：缓存失败时，只允许一个请求去加载数据并更新缓存，其他请求阻塞
JAVA接口机结构解析秃狼 SpringBoot 八股文 Java java 学习
什么是接口机在Java项目中，接口机通常指用于与外部系统进行数据交互的中间层，负责处理请求和响应的转换、协议适配、数据格式转换等任务。接口机的结构我们的接口机的结构分为两个大部分，外部接口机和内部接口机，在业务的调度上也是通过mq来实现的，只要的目的就是为了解耦合和做差异化。在接口机中主要的方法就是定时任务，消息的发送和消费，其他平台调用接口机只能提供外部接口机的方法进行调用，外部接口机可以提供消
Aop +反射实现方法版本动态切换
需求分析在做技术选型的时候一直存在着两个声音，mongo作为数据库比较mysql好，mysql做为该数据比mongo好。当然不同数据库都有有着自己的优势，我们在做技术选型的时候无非就是做到对数据库的扬长避短。mysql最大的优势就是支持事务，事务的五大特性保证的业务可靠性，随之而来的就是事务会产生的问题：脏读、幻读、不可重复度，当然我们也会使用不同的隔离级别来解决。（最典型的业务问题：银行存取钱）
最新阿里四面面试真题46道：面试技巧+核心问题+面试心得风平浪静如码
前言做技术的有一种资历，叫做通过了阿里的面试。这些阿里Java相关问题，都是之前通过不断优秀人才的铺垫总结的，先自己弄懂了再去阿里面试，不然就是去丢脸，被虐。希望对大家帮助，祝面试成功，有个更好的职业规划。一，阿里常见技术面1、微信红包怎么实现。2、海量数据分析。3、测试职位问的线程安全和非线程安全。4、HTTP2.0、thrift。5、面试电话沟通可能先让自我介绍。6、分布式事务一致性。7、ni
上半年居民消费榜出炉！这个城市的人最能花 BBM优选官方
上半年居民消费榜出炉哪个地方的人最能花钱？国家统计局公布的数据显示上海上半年居民人均可支配收入32612元居民人均消费支出21321元均为全国最高成为最能挣钱也最能花钱的城市1上海人均消费支出全国第一国家统计局公布的31省份居民人均消费支出数据显示，上海、北京、天津上半年居民人均消费支出排名前三。其中，上海上半年居民人均消费支出21321元，位居榜首。上海也是上半年全国仅有的居民人均消费支出突破2
LVS+Keepalived实现高可用和负载均衡 2401_84412895 程序员 lvs 负载均衡运维
2、开启网卡子接口配置VIP[root@a~]#cd/etc/sysconfig/network-scripts/[root@anetwork-scripts]#cp-aifcfg-ens32ifcfg-ens32:0[root@anetwork-scripts]#catifcfg-ens32:0BOOTPROTO=staticDEVICE=ens32:0ONBOOT=yesIPADDR=10.1
京东家电年销售额是去年的1300%，主要来自于他.... Shanshan小课堂
经过大半个月角逐纠缠，时间终于来到6月18日，618全球年中购物节迎来最高潮。作为国内最大的家电零售平台，京东家电从18日0点开始，便开启了飞速狂奔的模式，仅8分钟销售额就突破20亿元!展现出强劲的增长势头与家电主场的王者霸气的同时，也让各家电品牌实现了爆发式增长，美的、海尔、格力、奥克斯均在3分钟内突破1亿元大关。在今年的618中，除了消费者已经熟悉的网购形式外，线上线下联动的融合模式、社交电商
编程算法：技术创新的引擎与业务增长的核心驱动力
在数字经济时代，算法已成为推动技术创新与业务增长的隐形引擎。从存内计算突破冯·诺依曼瓶颈，到动态规划优化万亿级金融交易，编程算法正在重塑产业竞争格局。一、存内计算：突破冯·诺依曼瓶颈的算法革命1.1存内计算的基本原理传统计算架构中90%的能耗消耗在数据搬运上。存内计算（Processing-in-Memory）通过直接在存储单元执行计算，实现能效10-100倍提升：#传统计算vs存内计算能耗模型i
基于redis的Zset实现作者的轻量级排名周童學 Java redis 数据库缓存
基于redis的Zset实现轻量级作者排名系统在今天的技术架构中，Redis是一种广泛使用的内存数据存储系统，尤其在需要高效检索和排序的场景中表现优异。在本篇博客中，我们将深入探讨如何使用Redis的有序集合（ZSet）构建一个高效的笔记排行榜系统，并提供相关代码示例和详细的解析。1.功能背景与需求假设我们有一个笔记分享平台，用户可以发布各种笔记，系统需要根据用户发布的笔记数量来生成一个实时更新的
【项目实战】容错机制与故障恢复：保障系统连续性的核心体系本本本添哥 004 -研效与DevOps运维工具链 002 -进阶开发能力分布式
在分布式系统中，硬件故障、网络波动、软件异常等问题难以避免。容错机制与故障恢复的核心目标是：通过主动检测故障、自动隔离风险、快速转移负载、重建数据一致性，最大限度减少故障对业务的影响，保障系统“持续可用”与“数据不丢失”。以下从核心机制、实现方式、典型案例等维度展开说明。一、故障检测：及时发现异常节点故障检测是容错的第一步，需通过多维度手段实时感知系统组件状态，确保故障被快速识别。1.健康检查与心
营销活动-大转盘無缺520
写在前面最近，首先营销活动工具这块我是再熟悉不过了。曾经做了不下20个活动工具，然后通过监控活动数据反推活动的好坏。文中主要讲解幸运大转盘营销工具一.大转盘定义大转盘是比较常见的营销活动工具，它是通过消费者用户控制【开始/停止】操作获得奖品物品。用户在不知道自己能获得什么奖品的条件下，然后通过抽奖，大概率的获得未知的奖品。类似最近流行的盲盒玩法。二.为什么做大转盘大转盘是最常用的抽奖类的活动工具之
Java 队列 tryxr java 开发语言队列
队列一般用什么哪种结构实现队列的特性数据入队列时一定是从尾部插入吗数据出队列时一定是从头部删除吗队列的基本运算有什么队列支持随机访问吗队列的英文表示什么是队列队列从哪进、从哪出队列的进出顺序队列是用哪种结构实现的Queue和Deque有什么区别Queue接口的方法Queue中的add与offer的区别offer、poll、peek的模拟实现如何利用链表实现队列如何利用顺序表实现队列什么叫做双端队列
分支和循环（下） tryxr 服务器运维
写⼀个猜数字游戏游戏要求：1.电脑⾃动⽣成1~100的随机数2.玩家猜数字，猜数字的过程中，根据猜测数据的⼤⼩给出⼤了或⼩了的反馈，直到猜对，游戏结束1.随机数生成要想完成猜数字游戏，⾸先得产⽣随机数，那怎么产⽣随机数呢？randC语⾔提供了⼀个函数叫rand，这函数是可以⽣成随机数的，函数原型如下所⽰：intrand(void);rand函数会返回⼀个伪随机数，这个随机数的范围是在0~RAND_
5G-RAN与语义通信RAN 一去不复返的通信er 智简网络&语义通信 5G 人工智能语义通信
1️⃣RAN协议栈与TCP/IP五层协议栈的对应关系a.物理层（TCP/IP）↔PHY（RAN）对应关系：5GNRRAN的物理层直接对应TCP/IP的物理层。功能对比：TCP/IP物理层：负责比特流的物理传输，如通过电缆、光纤或无线介质传输信号。RAN物理层：处理无线信号的调制、编码、信道估计和传输（如OFDM、LDPC编码）。在5GNR中，物理层负责将数据映射到无线信道（如PDSCH、PUSCH
第二十二天（数据结构，无头节点的单项链表）肉夹馍不加青椒 c语言数据结构
线性表：一个线性表里面可以是任意的数据元素，但是同一个线性表里面数据应该是同类型的1存在一个/唯一被称为第一个节点的节点2存在一个/唯一被称为最后一个节点的节点3除了第一个以外，每一个元素都有一个前驱节点4除了最后一个，每一个元素都有一个后继节点满足以上性质，这个表就被称为线性表数组就是一个线性表想实现线性表的保存，我们需要考虑下面的事情1元素要保存2元素与元素之间的序偶关系谁是前面的谁是后面的我
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
D124:如何训练独立思考力？大栗子_
当我们要判断一个理论或者思想是否正确，需要有三个层次，分别是体验、解释和分析。首先看体验。很多时候，我们会相信“听上去、感觉是对的”的事情。我们之前讲的太空笔的故事之所以大多数人都认为是对的，就是有一些看似真实的关键词，比如美国，NASA，设计等，这些词看起来非常权威，但是离我们又遥远，这时候我们的大脑就会放松警惕了。于是，我们毫不犹豫就接受了。说到这里，你有没有发现之前的电视广告中的各种高让我们
社交电商平台有哪些？社交电商怎么做？氧惠评测
社交电商平台有很多，以下是一些常见的社交电商平台：氧惠APP是与以往完全不同的抖客+淘客app！2024全新模式，我的直推也会放到你下面。主打：带货高补贴，深受各位带货团队长喜爱（训练营导师每天出单带货几万单）。注册即可享受高补贴+0撸+捡漏等带货新体验。送万元推广大礼包，教你如何1年做到百万团队。珊珊导师氧惠邀请码888999，注册送万元推广大礼包，教你如何1年做到百万团队。氧惠app：氧惠ap
AI模型训练中过拟合和欠拟合的区别是什么？ workflower 人工智能算法人工智能数据分析
在AI模型训练中，过拟合和欠拟合是两种常见的模型性能问题，核心区别在于模型对数据的学习程度和泛化能力：欠拟合（Underfitting）-定义：模型未能充分学习到数据中的规律，对训练数据的拟合程度较差，在训练集和测试集上的表现都不好（如准确率低、损失值高）。-原因：-模型结构过于简单（如用线性模型解决非线性问题）；-训练数据量不足或特征信息不充分；-训练时间太短，模型尚未学到有效模式。-表现：训练
mysql复习立夏的李子 mysql 数据库 database
mysqlselect语法selectfromjoinwheregroupbyhavingorderbylimit联合查询innerjoin（）leftjoin（以左表为基准，匹配右表，不匹配的返回左表，右表以null值填充）rightjoind··(去除列重复的数据)索引类型主键索引(PrimaryKey)唯一索引(Unique)常规索引(Index)全文索引(FullText)索引准则索引不是
在人间(阿伟林秀芳柳娇娇)全本免费在线阅读_人间乐事全文阅读《人间芳韵》一米文库2
在人间(阿伟林秀芳柳娇娇)全本免费在线阅读_人间乐事全文阅读《人间芳韵》主角配角：阿伟林秀芳柳娇娇小说别名：在人间、人间乐事、人间芳韵简介：和美艳寂寞的小姨上山，不小心被她女儿看到……关注微信公众号【一米文库】回复书号【1017】即可阅读小说【在人间】全文内容！！！【戳我继续阅读】“嗯~~阿伟，你好强壮……”芳姨喝多了酒，被我搀扶着艰难的往卧室走去。她身上香喷喷的，温香软玉靠在我身上，性感的红唇几
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23