Python算法实战

用通俗易懂的方式讲解：一文详解大模型 RAG 模块

文章目录

什么是 RAG？
- 技术交流&资料
- 通俗易懂讲解大模型系列
RAG模块化
- 什么是模块化RAG？
索引模块
- 块优化
- - 滑动窗口
  - 从小到大
  - 元数据附加
- 结构化组织
- - 层次化索引
  - 知识图谱文档组织
预检索模块
- 查询扩展
- - 多查询
  - 子查询
  - CoVe
- 查询转换
- - 重写
  - HyDE
- 查询路由
- - 元数据路由器/过滤器
  - 语义路由器
- 查询构建
检索模块
- 检索模型选择
- - 稀疏检索器
  - 密集检索器
- 检索器微调
- - SFT（自我训练）
  - LSR（语言模型监督检索器）
  - RL（强化学习）
  - Adapter
后处理模块
- 重新排序
- - 基于规则的重新排序
  - 模型基础的重新排序
- 压缩和选择
- - LLMLingua
  - Recomp
  - 选择性上下文
  - LLM批评
生成模块
- 生成器选择
- - 云API基础生成器
  - 本地部署
- 生成器微调
- - SFT
  - RL
  - 蒸馏
调度模块
- 调度
- - 基于规则
  - 基于提示
  - 基于调整
- 检索融合
- - 概率集成
  - RRF（互惠排名融合）
典型的RAG流程模式
- 微调阶段
- - 检索器微调
  - 生成器微调
- 推理阶段
- - 顺序结构
  - 条件结构
  - 分支结构
  - 循环结构
  - 迭代结构
  - 递归结构
  - 自适应结构
- 企业案例
- - OpenAI
  - Baichuan
  - Databricks

什么是 RAG？

RAG 技术是一种检索增强生成的方法，结合了大型语言模型和检索系统的优势，以提高生成内容的准确性、相关性和时效性。

相比于仅依赖大型语言模型的生成，RAG技术可以从外部知识库中检索信息，避免了模型的幻觉问题，并提升了对实时性要求较高问题的处理能力。与传统的知识库问答系统相比，RAG技术更加灵活，可以处理非结构化的自然语言文本。

RAG并非旨在取代已有的知识库问答系统，而是作为一种补充，强调实时性和准确性，并且通过结合生成和检索机制来提升自然语言处理任务的效果。

技术交流&资料

技术要学会分享、交流，不建议闭门造车。一个人可以走的很快、一堆人可以走的更远。

成立了大模型技术交流群，本文完整代码、相关资料、技术交流&答疑，均可加我们的交流群获取，群友已超过2000人，添加时最好的备注方式为：来源+兴趣方向，方便找到志同道合的朋友。

方式①、微信搜索公众号：机器学习社区，后台回复：加群
方式②、添加微信号：mlc2060，备注：来自CSDN + 技术交流

通俗易懂讲解大模型系列

做大模型也有1年多了，聊聊这段时间的感悟！
用通俗易懂的方式讲解：大模型算法工程师最全面试题汇总
用通俗易懂的方式讲解：不要再苦苦寻觅了！AI 大模型面试指南（含答案）的最全总结来了！
用通俗易懂的方式讲解：我的大模型岗位面试总结：共24家，9个offer
用通俗易懂的方式讲解：大模型 RAG 在 LangChain 中的应用实战
用通俗易懂的方式讲解：一文讲清大模型 RAG 技术全流程
用通俗易懂的方式讲解：如何提升大模型 Agent 的能力?
用通俗易懂的方式讲解：ChatGPT 开放的多模态的DALL-E 3功能，好玩到停不下来！
用通俗易懂的方式讲解：基于扩散模型（Diffusion）,文生图 AnyText 的效果太棒了
用通俗易懂的方式讲解：在 CPU 服务器上部署 ChatGLM3-6B 模型
用通俗易懂的方式讲解：使用 LangChain 和大模型生成海报文案
用通俗易懂的方式讲解：ChatGLM3-6B 部署指南
用通俗易懂的方式讲解：使用 LangChain 封装自定义的 LLM，太棒了
用通俗易懂的方式讲解：基于 Langchain 和 ChatChat 部署本地知识库问答系统
用通俗易懂的方式讲解：在 Ubuntu 22 上安装 CUDA、Nvidia 显卡驱动、PyTorch等大模型基础环境
用通俗易懂的方式讲解：Llama2 部署讲解及试用方式
用通俗易懂的方式讲解：基于 LangChain 和 ChatGLM2 打造自有知识库问答系统
用通俗易懂的方式讲解：一份保姆级的 Stable Diffusion 部署教程，开启你的炼丹之路
用通俗易懂的方式讲解：对 embedding 模型进行微调，我的大模型召回效果提升了太多了
用通俗易懂的方式讲解：LlamaIndex 官方发布高清大图，纵览高级 RAG技术
用通俗易懂的方式讲解：为什么大模型 Advanced RAG 方法对于AI的未来至关重要？
用通俗易懂的方式讲解：使用 LlamaIndex 和 Eleasticsearch 进行大模型 RAG 检索增强生成
用通俗易懂的方式讲解：基于 Langchain 框架，利用 MongoDB 矢量搜索实现大模型 RAG 高级检索方法
用通俗易懂的方式讲解：使用Llama-2、PgVector和LlamaIndex，构建大模型 RAG 全流程

RAG模块化

模块化RAG呈现出一种高度可扩展的范式，将RAG系统划分为模块类型、模块和运算符三层结构。每种模块类型代表着RAG系统中的一个核心流程，包含多个功能模块。

每个功能模块又包含多个具体的运算符。整个RAG系统变成了多个模块和相应运算符的排列组合，形成我们所说的RAG流程。在流程中，可以在每个模块类型中选择不同的功能模块，在每个功能模块内部，又可以选择一个或多个运算符。

什么是模块化RAG？

模块化RAG是指检索增强生成技术的一种演进形式，其进展带来了更加多样化和灵活的过程，具体体现在以下关键方面：

增强数据获取：RAG已经超越了传统的非结构化数据，现在包括半结构化和结构化数据，在预处理结构化数据方面更加关注，以改善检索并减少模型对外部知识来源的依赖。
整合技术：RAG正在整合其他技术，包括微调、适配器模块和强化学习，以增强检索能力。
可适应的检索过程：检索过程已经发展到支持多轮检索增强，利用检索内容来指导生成，反之亦然。此外，自主判断和LLM的使用增加了通过确定检索的需求来回答问题的效率。

索引模块

索引是将文本分解为可管理的块的过程，在组织系统中是一个至关重要的步骤，面临着三个主要挑战：

不完整的内容表示。块的语义信息受到分割方法的影响，在更长的上下文中会导致重要信息的丢失或被淹没。
不准确的块相似性搜索。随着数据量的增加，检索中的噪音增加，导致频繁与错误数据匹配，使检索系统变得脆弱且不可靠。
引用轨迹不清晰。检索到的块可能来自任何文档，缺乏引用轨迹，可能导致存在来自多个不同文档的块，尽管在语义上相似，但包含的内容却是完全不同的主题。

块优化

较大的块可以捕捉更多的上下文，但也会产生更多的噪音，需要更长的处理时间和更高的成本。而较小的块可能无法完全传达所需的上下文，但它们的噪音较少。

滑动窗口

平衡这些需求的一种简单方法是使用重叠的块。通过使用滑动窗口，语义转换得到增强。然而，存在一些限制，包括对上下文大小的控制不够精确，截断单词或句子的风险，以及缺乏语义考虑。

从小到大

关键思想是将用于检索的块与用于合成的块分开。使用较小的块可以提高检索的准确性，而较大的块可以提供更多的上下文信息。

元数据附加

块可以使用元数据信息进行丰富，例如页码、文件名、作者、时间戳、摘要，或者块可以回答的问题。

结构化组织

提高信息检索效率的一种有效方法是为文档建立分层结构。通过构建块结构，RAG系统可以加速检索和处理相关数据。

层次化索引

在文档的层次结构中，节点按照父子关系排列，与之关联的块链接到这些节点上。数据摘要存储在每个节点上，有助于快速遍历数据，并帮助RAG系统确定要提取的块。这种方法还可以缓解由块提取问题引起的幻觉。

构建结构化索引的方法主要包括：

结构意识。对文档进行段落和句子分割。
内容意识。利用PDF、HTML、Latex等文件的内在结构。
语义意识。基于NLP技术，如利用NLTK，对文本进行语义识别和分割。

知识图谱文档组织

在构建文档的层次结构时，利用知识图谱（KGs）有助于保持一致性。它描述了不同概念和实体之间的关系，显著降低了幻觉的可能性。

预检索模块

RAG的主要挑战之一是用户提出精确清晰的问题是困难的，不明智的查询会导致检索效果不佳。

问题措辞不当。问题本身复杂，语言组织不佳。
语言复杂性和歧义性。当处理专业词汇或具有多重含义的模糊缩写时，语言模型经常会遇到困难。

查询扩展

将单个查询扩展为多个查询丰富了查询的内容，为解决特定细微差别的缺乏提供了进一步的上下文，从而确保生成的答案的最佳相关性。

多查询

通过使用提示工程来通过LLM扩展查询，这些查询可以并行执行。查询的扩展不是随意的，而是经过精心设计的。这种设计的两个关键标准是查询的多样性和覆盖范围。

子查询

子问题规划的过程代表了生成必要的子问题，以在组合时为原始问题提供上下文并完全回答。这个添加相关上下文的过程原则上类似于查询扩展。具体来说，可以使用从最少提示到最多提示的方法，将复杂问题分解为一系列更简单的子问题。

CoVe

CoVe（Chain-of-Verification）是由Meta AI提出的另一种查询扩展方法。扩展的查询经过LLM的验证，以达到减少幻觉的效果。经过验证的扩展查询通常具有更高的可靠性。

查询转换

重写

原始查询在实际场景中并不总是最佳的LLM检索条件。因此，我们可以提示LLM重写查询。除了使用LLM进行查询重写外，还可以利用专门的较小语言模型，例如RRR（重写-检索-阅读）。

HyDE

当响应查询时，LLM构建假设文档（假定答案），而不是直接在向量数据库中搜索查询及其计算的向量。它专注于从答案到答案的嵌入相似性，而不是寻求问题或查询的嵌入相似性。此外，它还包括反向HyDE，它专注于从查询到查询的检索。

查询路由

根据不同的查询，将其路由到不同的RAG管道，这适用于一个灵活的RAG系统，设计用于适应多样化的场景。

元数据路由器/过滤器

第一步涉及从查询中提取关键字（实体），然后基于块内的关键字和元数据进行过滤，缩小搜索范围。

语义路由器

另一种路由方法涉及利用查询的语义信息。具体方法请参见语义路由器。当然，也可以采用混合路由方法，结合基于语义和基于元数据的方法，以增强查询路由的效果。

查询构建

将用户的查询转换为另一种查询语言，以访问替代数据源。常见的方法包括：

文本到Cypher
文本到SQL

检索模块

检索过程在RAG中起着至关重要的作用。利用强大的PLM可以有效地在潜在空间中表示查询和文本，从而促进问题和文档之间的语义相似性的建立，以支持检索。

检索模型选择

Hugging Face的MTEB排行榜评估了几乎所有可用的嵌入模型在8个任务上的性能 C-MTEB侧重于评估中文嵌入模型的能力，涵盖了6个任务和35个数据集。

稀疏检索器

尽管稀疏编码模型可能被认为是一种略显过时的技术，通常基于诸如词频统计之类的统计方法，但由于其更高的编码效率和稳定性，它们仍然具有一定的地位。常见的系数编码模型包括BM25和TF-IDF。

密集检索器

建立在BERT架构上的编码器-解码器语言模型，例如ColBERT。
像BGE和Baichuan-Text-Embedding这样的全面多任务微调模型。
基于云API的模型，例如OpenAI-Ada-002和Cohere Embedding。
面向大规模数据应用的下一代加速编码框架Dragon+。
混合/混合检索

检索器微调

在某些情况下，上下文可能与预训练模型在嵌入空间中认为相似的内容有所偏离，特别是在高度专业化的领域，如医疗保健、法律和其他丰富专有术语的领域中，调整嵌入模型可以解决这个问题。虽然这种调整需要额外的工作，但它可以大大提高检索效率和领域对齐度。

SFT（自我训练）

可以基于领域特定数据构建自己的微调数据集，使用LlamaIndex可以迅速完成此任务。

LSR（语言模型监督检索器）

与直接从数据集构建微调数据集不同，LSR利用语言模型生成的结果作为监督信号，在RAG过程中微调嵌入模型。

RL（强化学习）

受RLHF（从人类反馈中进行强化学习）的启发，利用基于语言模型的反馈通过强化学习来强化检索器。

Adapter

有时，对整个检索器进行微调可能成本高昂，特别是在处理无法直接微调的基于API的检索器时。在这种情况下，我们可以通过引入Adapter模块并进行微调来缓解这一问题。

后处理模块

将整个文档块检索并直接输入LLM的上下文环境并不是一个最佳选择。对文档进行后处理可以帮助LLM更好地利用上下文信息。

主要挑战包括：

中间丢失。与人类类似，LLM倾向于只记住长文本的开头和结尾，而忘记中间部分。
噪声/反事实块。检索到的嘈杂或事实相互矛盾的文档可能会影响最终的检索生成。
上下文窗口。尽管检索了大量相关内容，但大型模型对上下文信息长度的限制阻止了所有内容的包含。

重新排序

重新排序已检索到的文档块，而不改变其内容或长度，以增强LLM对更关键的文档块的可见性。具体来说：

基于规则的重新排序

根据某些规则，计算指标以重新排序文档块。常见的指标包括：

多样性
相关性
MRR

MMR的背后思想是减少冗余并增加结果的多样性，它常用于文本摘要。MMR根据查询相关性和信息新颖性的综合标准，在最终的关键短语列表中选择短语。

模型基础的重新排序

利用语言模型对文档块进行重新排序，可选的模型包括：

来自BERT系列的编码器-解码器模型，例如SpanBERT
专门的重新排序模型，例如Cohere rerank或bge-raranker-large
通用的大型语言模型，例如GPT-4

压缩和选择

在RAG过程中的一个常见误解是认为尽可能检索更多相关文档并将它们连接起来形成一个冗长的检索提示是有益的。然而，过多的上下文可能会引入更多的噪音，降低LLM对关键信息的感知，并导致诸如“中间丢失”之类的问题。解决这个问题的常见方法是压缩和选择检索到的内容。

LLMLingua

通过利用对齐和训练良好的小型语言模型，例如GPT-2 Small或LLaMA-7B，可以实现从提示中检测和删除不重要的标记，将其转换为人类难以理解但LLM很好理解的形式。

Recomp

Recomp引入了两种类型的压缩器：一种是抽取式压缩器，从检索到的文档中选择相关的句子；另一种是生成式压缩器，通过将多个文档中的信息融合产生简洁的摘要。这两种压缩器都经过训练，以在生成的摘要被添加到语言模型的输入时提高语言模型在最终任务上的性能，同时确保摘要的简洁性

选择性上下文

通过识别并删除输入上下文中的冗余内容，可以简化输入，从而提高语言模型的推理效率。选择性上下文类似于“停用词移除”策略。

LLM批评

另一种直观且有效的方法是让LLM在生成最终答案之前评估已检索的内容。这使得LLM可以通过LLM批评过滤掉相关性较差的文档。

生成模块

利用LLM根据用户的查询和检索到的上下文信息生成答案。

生成器选择

根据场景的不同，LLM的选择可以分为以下两种类型：

云API基础生成器

基于云API的生成器利用第三方LLM的API，例如OpenAI的ChatGPT、GPT-4和Anthropic Claude等。优势包括：

无服务器压力
高并发性
能够使用更强大的模型

缺点包括：

数据通过网络传递，存在数据隐私问题
无法调整模型（在绝大多数情况下）

本地部署

本地部署的开源或自行开发的LLM，例如Llama系列、GLM等。其优势和劣势与基于云API的模型相反。本地部署的模型提供更大的灵活性和更好的隐私保护，但需要更高的计算资源。

生成器微调

除了直接使用LLM外，根据场景和数据特征进行目标微调可以获得更好的结果。这也是使用本地部署设置的最大优势之一。常见的微调方法包括以下几种：

SFT

当LLM在特定领域缺乏数据时，可以通过微调向LLM提供额外的知识。Huggingface的微调数据也可以作为一个初始步骤。

微调的另一个好处是能够调整模型的输入和输出。例如，它可以使LLM适应特定的数据格式，并按照指示以特定的风格生成响应。

RL

通过强化学习将LLM的输出与人类或检索器的偏好进行对齐是一个潜在的方法。例如，手动注释最终生成的答案，然后通过强化学习提供反馈。除了与人类偏好保持一致外，还可以与微调模型和检索器的偏好保持一致。

蒸馏

当情况阻止访问强大的专有模型或更大参数的开源模型时，一种简单有效的方法是将更强大的模型（例如GPT-4）蒸馏为更小的模型。

调度模块

Orchestration指的是控制RAG过程的模块。与以前固定的过程不同，RAG现在涉及在关键点做出决策，并根据结果动态选择下一步。与Naive RAG相比，这也是模块化RAG的主要特点之一。

调度

Judge模块评估RAG过程中的关键点，确定是否需要检索外部文档存储库，答案是否满意，以及是否需要进一步探索。它通常用于递归、迭代和自适应检索。具体来说，它主要包括以下两种操作符：

基于规则

下一步的行动基于预定义的规则确定。通常，生成的答案会得分，然后根据得分是否达到预定义的阈值来决定是否继续或停止。常见的阈值包括令牌的置信水平。

基于提示

LLM自主确定下一步的行动。主要有两种方法实现这一点。第一种方法涉及提示LLM反思或根据对话历史进行判断，如ReACT框架所示。这里的好处是消除了对模型进行微调的需要。然而，判断的输出格式取决于LLM是否遵循指令。基于提示的案例是FLARE。

基于调整

第二种方法涉及LLM生成特定的令牌来触发特定的操作，这种方法可以追溯到Toolformer，并应用于RAG，例如Self-RAG。

检索融合

如前面关于查询扩展的部分所述，当前的RAG过程不再是一个单一的管道。它通常需要通过多个分支来扩展检索范围或多样性。因此，在扩展到多个分支之后，融合模块被依赖于来合并多个答案。

概率集成

融合方法基于从多个分支生成的不同令牌的加权值，从而全面选择最终的输出。加权平均是主要采用的方法。参见REPLUG。

RRF（互惠排名融合）

RRF是一种将多个搜索结果列表的排名结合起来生成单一统一排名的技术。与满足任何单一分支下的重新排序相比，与满足任何单一分支下的重新排序相比，RRF产生的结果更为有效。

典型的RAG流程模式

微调阶段

检索器微调

直接微调检索器。 构建用于检索的专门数据集，并对密集检索器进行微调。例如，使用开源检索数据集或基于特定领域数据构建数据集。
添加可训练的适配器模块。 直接微调基于云API的嵌入模型。
LM监督检索（LSR）。 根据LLM生成的结果对检索器进行微调。
LLM奖励RL： 仍然使用LLM输出结果作为监督信号。利用强化学习来使检索器与生成器对齐。

生成器微调

直接微调。通过外部数据集的微调可以为生成器提供额外的知识。另一个好处是能够定制输入和输出格式。通过设置问答格式，LLM可以理解特定的数据格式，并根据指令进行输出。
GPT-4蒸馏。在使用开源模型的本地部署时，一个简单有效的方法是使用GPT-4批量构建微调数据，以增强开源模型的能力。
LLM/人类反馈的强化学习。基于最终生成的答案的反馈进行强化学习。除了使用人类评估之外，GPT-4还可以作为评估法官。

推理阶段

顺序结构

RAG流的顺序结构将RAG的模块和操作以线性管道的形式组织起来，如下图所示。如果包括了前检索和后检索模块类型，则代表了典型的高级RAG范式；否则，它体现了典型的简单RAG范式。

最广泛使用的RAG流水线目前是顺序结构，通常在检索之前包括查询重写或HyDE，并在检索后包括重新排序操作，例如QAnything案例。

在RRR中，Query Rewrite模块是一个较小的可训练语言模型，在强化学习的背景下，重写器的优化被形式化为马尔可夫决策过程，LLM的最终输出作为奖励。检索器利用稀疏编码模型BM25。

条件结构

具有条件结构的RAG流涉及根据不同条件选择不同的RAG路径。通常，这是通过路由模块实现的，该模块根据查询关键词或语义确定路径。

基于问题类型选择不同路径，针对特定情景导向不同的流。例如，当用户询问严肃问题、政治问题或娱乐话题时，来自大模型的答案容忍度不同。不同的路由分支通常在检索源、检索过程、配置、模型和提示方面有所不同。

分支结构

具有分支结构的RAG流与条件方法不同之处在于，它涉及多个平行分支，而不是在条件方法中从多个选项中选择一个分支。在结构上，它可以分为两种类型：

前检索分支（多查询，并行检索）。这涉及扩展原始查询以获取多个子查询，然后针对每个子查询进行单独的检索。在检索之后，该方法允许基于子问题和相应的检索内容立即生成答案。或者，它可能仅涉及使用扩展的检索内容，并将其合并为生成的统一上下文。

后检索分支（单一查询，并行生成）。该方法保留原始查询并检索多个文档块。随后，它同时使用原始查询和每个文档块进行生成，最终将生成的结果合并在一起。

REPLUG体现了经典的后检索分支结构，其中为每个分支预测了每个标记的概率。通过加权可能性合集，将不同的分支聚合在一起，最终生成的结果用于通过反馈对检索器进行微调，称为Contriever。

循环结构

具有循环结构的RAG Flow是模块化RAG的一个重要特征，涉及相互依赖的检索和推理步骤。通常包括一个用于流程控制的Judge模块。这可以进一步分为迭代、递归和自适应（主动）检索方法。

迭代结构

有时，单次检索和生成可能无法有效解决需要广泛知识的复杂问题。因此，在RAG中可以使用迭代方法，通常涉及固定数量的迭代进行检索。

迭代检索的一个典型案例是ITER-RETGEN，它迭代进行检索增强生成和生成增强检索。检索增强生成根据所有检索到的知识输出任务输入的响应。在每次迭代中，ITER-RETGEN利用上一次迭代的模型输出作为特定上下文，帮助检索更相关的知识。循环的终止由预定义的迭代次数确定。

递归结构

递归检索的特征特点与迭代检索相反，其清晰依赖于先前步骤并持续深化检索。通常，递归检索具有终止机制作为递归检索的退出条件。在RAG系统中，递归检索通常涉及查询转换，依赖于每次检索的新重写查询。

递归检索的典型实现，如ToC，涉及递归执行RAC（递归增强澄清），逐渐将子节点插入澄清树中，从初始模糊问题（AQ）开始。在每个扩展步骤中，根据当前查询执行段落重新排名，以生成明确的问题（DQ）。在达到最大有效节点数或最大深度时，树的探索结束。一旦构建了澄清树，ToC收集所有有效节点并生成全面的长文本答案来解决AQ。

自适应结构

随着RAG的发展，逐渐从被动检索转向了自适应检索的出现，也称为主动检索，这在一定程度上归功于LLM的强大能力。这与LLM Agent共享一个核心概念。

RAG系统可以主动确定检索的时机，并决定何时结束整个过程并生成最终结果。基于判断标准，这可以进一步分为基于提示和基于调整的方法。

基于调整的方法涉及对LLM进行微调以生成特殊标记，从而触发检索或生成。这个概念可以追溯到Toolformer，其中生成特定内容有助于调用工具。在RAG系统中，这种方法用于控制检索和生成步骤。一个典型的案例是Self-RAG。具体来说：

给定一个输入提示和前一个生成结果，首先预测特殊标记“Retrieve”是否有助于通过段落检索增强持续的生成。
如果需要检索，模型生成：评价标记来评估检索段的相关性，下一个响应段，以及评价标记来评估响应段中的信息是否得到段的支持。
最后评价标记评估响应的整体效用，并选择最佳结果作为最终输出。

企业案例

OpenAI

OpenAI团队的Demo Day演示并不能完全代表OpenAI的实际操作。在努力提高RAG成功率的过程中，OpenAI团队从45%的准确率开始，并尝试了各种方法，确定了最终用于生产的方法。

他们探索了假设性文档嵌入（HyDE）、微调嵌入和其他方法，但结果并不令人满意。通过尝试不同大小的信息块和嵌入不同的内容部分，他们将准确率提高到了65%。通过重新排名和针对不同类型问题定制的方法，他们进一步将准确率提高到了85%。最终，通过结合提示工程、查询扩展和其他方法，他们实现了98%的准确率。

Baichuan

Baichuan是受Meta的CoVe启发而设计的，提出了一种将复杂提示拆解为多个独立并行可检索的查询的方法。Baichuan利用了自己的专有TSF（Think-Step Further）来推断和挖掘用户输入背后更深层次的问题，从而更精确、全面地理解用户意图。

在检索步骤中，百川智能开发了百川文本嵌入向量模型，该模型在高质量的中文数据上进行了预训练，包括超过1.5万亿个标记。他们通过专有的损失函数解决了对比学习中的批大小依赖性问题。这个向量模型已经超越了C-MTEB。

此外，他们引入了稀疏检索和重新排名模型（未透露），形成了一种混合检索方法，将向量检索与稀疏检索并行使用，显著提高了召回率达到95%。

此外，他们引入了自我批评，使大型模型能够根据提示、相关性和效用对检索到的内容进行内省，并进行二次审查以选择最匹配和高质量的候选内容。

Databricks

https://docs.databricks.com/en/generative-ai/retrieval-augmented-generation.html

Databricks作为大数据领域的领先服务提供商，在RAG设计中保持了其独特的特点和优势。

当用户输入问题时，系统从预处理的文本向量索引中检索相关信息，并结合提示工程生成响应。上半部分，即非结构化数据管道，遵循主流的RAG方法，并没有显示出任何特殊性。

你可能感兴趣的:(大模型理论与实战,大模型,人工智能,大模型,langchain,深度学习,RAG,检索增强生成,多模态大模型)

x86-64汇编语言训练程序与实战十除以十等于一
本文还有配套的精品资源，点击获取简介：汇编语言是一种低级语言，与机器代码紧密相关，特别适用于编写系统级代码及性能要求高的应用。nasm编译器是针对x86和x86-64架构的汇编语言编译器，支持多种语法风格和指令集。项目Euler提供数学和计算机科学问题，鼓励编程技巧应用，前100个问题的答案可共享。x86-64架构扩展了寄存器数量并引入新指令，提升了数据处理效率。学习汇编语言能够深入理解计算机底层
男士护肤品哪个牌子好？十大男士护肤品排行榜高省APP珊珊
很多男生意识到护肤的必要性，开始着手护肤，但不知道该选哪个男士护肤品品牌使用好。目前市面上很多男士护肤品品牌，可谓琳琅满目，让人眼花缭乱。男士挑选护肤品时，根据自己皮肤需求去正规渠道挑选合适的知名护肤品比较放心靠谱。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入
《玉骨遥》：大司命为什么不杀朱颜？原因没那么简单 windy天意晚晴
《玉骨遥》里，朱颜就是时影的命劫之人。重明与时影早就知道，他们一直瞒着大司命，如今大司命也知道了真相。可是大司命却没有杀朱颜，而是给朱颜下了诛心咒，还说时影的命劫已经破了，真的如此吗？1、计划总是赶不上变化的大司命从目前剧情来说，大司命还不如时影，他信心十足的事情总会有纰漏。他不让时影见命劫之女，结果时影还是遇上了。他想让时影走火入魔，一心复仇，结果时影在朱颜的劝说下放下了仇恨。大司命让时影开山收
day15｜前端框架学习和算法 universe_01 前端算法笔记
T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
《极简思维》第三部分小洋苏兮
整理你的人际关系如何改善人际关系？摘录：因为人际关系问题是人们生活中不快乐的主要原因。感想：感觉这个说的挺对，之前我总是埋头学习，不管舍友不管自己的合作伙伴的一些事情，但实际上，这学期关注了之后好多了摘录：“亲密关系与社交会让你健康而快乐。这是基础。太过于关注成就或不太关心人际关系的人都不怎么快乐。基本上来说，人类就是建立在人脉关系上的。”感想：但是如果有时想的太多就不太好，要以一个开放的心态跟别
我不懂什么是爱，但我给你全部我拥有的香尧
因为怕黑，所以愿意陪伴在夜中行走的人，给他一点点的安全感。因为渴望温柔与爱，所以愿意为别的孩子付出爱与温柔。因为曾遭受侮辱和伤害，所以不以同样的方式施于其他人。如果你向别人出之以利刃，对方还了你爱与包容，真的不要感激他，真的不要赞美他。每一个被人伤害过的人心里都留下了一颗仇恨的种子，他也会想要有一天以眼还眼，以牙还牙。但他未让那颗种子生根发芽，他用一把心剑又一次刺向他自己，用他血荐仇恨，开出一朵温
日更50天有什么收益？星湾二宝
坚持在平台上日更50天了，平台也为我生成了日更50天徽章，小开心一下这份坚持。日更50天徽章那坚持50天都有哪些收益呢？收益一，就是最直观的那些钻和贝，我这边确实不太高，但是这些贝足够支撑我保持会员的资格，能够在发文的时候帮助友友们去除广告，方便阅读。钻和贝收益二，文章的收获，日更50天，坚持写作3.7万文字，书写的文字也从开始的流水账/碎碎念逐渐加入自己的思考和观点。以前，一个念头会一晃而过，如
别再讲道理啦，对方听不进去的方所
我之前写过一篇叫做《你总妄想改变他人》，然后就有朋友跟我说，有一些方法可以改变他人之类的。嗯，是这样，但是任何具体的问题，都要限定好语境，描述清楚前提条件，然后再表达观点，我的这位朋友的说法就犯了一刀切的错误，这样并不能让讨论正常展开（这篇我得先给她看看，不然可能会挨揍）。好了，hhhh，谁让她不能写文章呢，我就来再说一说吧。我前面说过，我们在学到一个道理、学会一种方法之后，总是迫不及待地想要去与
Git 与 GitHub 的对比与使用指南一念& 其它 git github
Git与GitHub的对比与使用指南在软件开发中，Git和GitHub是两个密切相关但本质不同的工具。下面我将逐步解释它们的定义、区别、核心概念以及如何协同使用，确保内容真实可靠，基于广泛的技术实践。1.什么是Git？Git是一个分布式版本控制系统，由LinusTorvalds于2005年创建。它的核心功能是跟踪代码文件的变化，帮助开发者管理项目历史记录、协作和回滚错误。Git是开源的，可以在本地
英伟达靠什么支撑起了4万亿？AI泡沫还能撑多久？
英伟达市值突破4万亿美元，既是AI算力需求爆发的直接体现，也暗含市场对未来的狂热预期。其支撑逻辑与潜在风险并存，而AI泡沫的可持续性则取决于技术、商业与地缘政治的复杂博弈。⚙️一、英伟达4万亿市值的核心支撑因素技术垄断与生态壁垒硬件优势：英伟达GPU在AI训练市场占有率超87%，H100芯片的FP16算力达1979TFLOPS，领先竞品3-5倍。CUDA生态：400万开发者构建的软件护城河，成为A
ARM 和 AMD 架构的区别 m0_69576880 arm开发 windows 架构
ARM架构和AMD架构是两种不同的计算机处理器架构，它们有以下几个主要区别：设计出发点、兼容性、性能特点、市场定价。设计出发点：①ARM构架：ARM架构最初是为嵌入式系统设计的，旨在提供低功耗和高效能的解决方案。它主要应用于移动设备、嵌入式系统和物联网设备②AMD架构：AMD架构是基于x86架构的扩展，旨在提供与Intel架构兼容的处理器。它主要用于台式机、服务器和工作站等计算机系统。兼容性：AR
Linux系统配置（应用程序） 1风天云月 Linux linux 应用程序编译安装 rpm http
目录前言一、应用程序概述1、命令与程序的关系2、程序的组成3、软件包封装类型二、RPM1、RPM概述2、RPM用法三、编译安装1、解包2、配置3、编译4、安装5、启用httpd服务结语前言在Linux中的应用程序被视为将软件包安装到系统中后产生的各种文档，其中包括可执行文件、配置文件、用户手册等内容，这些文档被组织为一个有机的整体，为用户提供特定的功能，因此对于“安装软件包”与“安装应用程序”这两
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
JVM 内存模型深度解析：原子性、可见性与有序性的实现练习时长两年半的程序员小胡 JVM 深度剖析：从面试考点到生产实践 jvm java 内存模型
在了解了JVM的基础架构和类加载机制后，我们需要进一步探索Java程序在多线程环境下的内存交互规则。JVM内存模型（JavaMemoryModel，JMM）定义了线程和主内存之间的抽象关系，它通过规范共享变量的访问方式，解决了多线程并发时的数据一致性问题。本文将从内存模型的核心目标出发，详解原子性、可见性、有序性的实现机制，以及volatile、synchronized等关键字在其中的作用。一、J
Flowable 实战落地核心：选型决策与坑点破解练习时长两年半的程序员小胡 Flowable 流程引擎实战指南低代码 BPMN 流程引擎 flowable 后端 java
在企业级流程引擎的落地过程中，选型的准确性和坑点的预见性直接决定项目成败。本文聚焦Flowable实战中最关键的“选型决策”与“常见坑点”，结合真实项目经验，提供可落地的解决方案。一、流程引擎选型：从业务本质出发1.1选型的三大核心维度企业在选择流程引擎时，需避免陷入“技术崇拜”，应回归业务本质。评估Flowable是否适用，可从三个维度判断：业务复杂度若流程涉及动态审批链（如按金额自动升级审批）
Flowable 高级扩展：自定义元素与性能优化实战练习时长两年半的程序员小胡 Flowable 流程引擎实战指南流程图 flowable BPMN 流程引擎 java
在前五篇文章中，我们从基础概念、流程设计、API实战、SpringBoot集成，到外部系统协同，逐步构建了Flowable的应用体系。但企业级复杂场景中，原生功能往往难以满足定制化需求——比如需要特殊的审批规则网关、与决策引擎联动实现动态路由，或是在高并发场景下优化流程引擎性能。本文将聚焦Flowable的高级扩展能力，详解如何自定义流程元素、集成规则引擎，并掌握大型系统中的性能调优策略。一、自定
互信息：理论框架、跨学科应用与前沿进展大千AI助手人工智能 Python #OTHER 人工智能深度学习算法互信息香农通信随机变量
1.起源与核心定义互信息（MutualInformation,MI）由克劳德·香农（ClaudeShannon）在1948年开创性论文《AMathematicalTheoryofCommunication》中首次提出，该论文奠定了现代信息论的基础。互信息用于量化两个随机变量之间的统计依赖关系，定义为：若已知一个随机变量的取值，能为另一个随机变量提供的信息量。数学上，对于离散随机变量XXX和YYY，
Java | 多线程经典问题 - 售票 Ada54
一、售票需求1）同一个票池2）多个窗口卖票，不能出售同一张票二、售票问题代码实现（线程与进程小总结，请戳：Java|线程和进程，创建线程）step1：定义SaleWindow类实现Runnable接口，覆盖run方法step2：实例化SaleWindow对象，创建Thread对象，将SaleWindow作为参数传给Thread类的构造函数，然后通过Thread.start()方法启动线程step3
SpringMVC的执行流程
1、什么是MVCMVC是一种设计模式。MVC的原理图如下所示M-Model模型（完成业务逻辑：有javaBean构成，service+dao+entity）V-View视图（做界面的展示jsp，html……）C-Controller控制器（接收请求—>调用模型—>根据结果派发页面2、SpringMVC是什么SpringMVC是一个MVC的开源框架，SpringMVC=Struts2+Spring，
企业级区块链平台Hyperchain核心原理剖析 boyedu 区块链区块链企业级区块链平台 Hyperchain
Hyperchain作为国产自主可控的企业级联盟区块链平台，其核心原理围绕高性能共识、隐私保护、智能合约引擎及可扩展架构展开，通过多模块协同实现企业级区块链网络的高效部署与安全运行。以下从核心架构、关键技术、性能优化、安全机制、应用场景五个维度展开剖析：一、核心架构：分层解耦与模块化设计Hyperchain采用分层架构，将区块链功能解耦为独立模块，支持灵活组合与扩展：P2P网络层由验证节点（VP）
JAVA接口机结构解析秃狼 SpringBoot 八股文 Java java 学习
什么是接口机在Java项目中，接口机通常指用于与外部系统进行数据交互的中间层，负责处理请求和响应的转换、协议适配、数据格式转换等任务。接口机的结构我们的接口机的结构分为两个大部分，外部接口机和内部接口机，在业务的调度上也是通过mq来实现的，只要的目的就是为了解耦合和做差异化。在接口机中主要的方法就是定时任务，消息的发送和消费，其他平台调用接口机只能提供外部接口机的方法进行调用，外部接口机可以提供消
Aop +反射实现方法版本动态切换
需求分析在做技术选型的时候一直存在着两个声音，mongo作为数据库比较mysql好，mysql做为该数据比mongo好。当然不同数据库都有有着自己的优势，我们在做技术选型的时候无非就是做到对数据库的扬长避短。mysql最大的优势就是支持事务，事务的五大特性保证的业务可靠性，随之而来的就是事务会产生的问题：脏读、幻读、不可重复度，当然我们也会使用不同的隔离级别来解决。（最典型的业务问题：银行存取钱）
通义万相2.2：开启高清视频生成新纪元 Liudef06小白特殊专栏 AIGC 人工智能人工智能通义万相2.2 图生视频
通义万相2.2：开启高清视频生成新纪元2025年7月28日，中国AI领域迎来里程碑时刻——通义万相团队正式开源其革命性视频生成模型Wan2.2的核心权重，这标志着开源社区首次获得支持720P高清视频生成的先进模型架构。一、架构革新：混合专家系统1.1MoE视频扩散架构通义万相2.2首次将混合专家（MoE）架构引入视频扩散模型，通过双专家系统实现计算效率与模型容量的平衡：classMoEVideoD
氧惠官方邀请码333777，氧惠邀请码怎么获得？氧惠邀请码有什么套路？知行导师
问：氧惠邀请码怎么获得？答：氧惠官方邀请码333777返点高佣金高真的高。问：氧惠邀请码有什么套路？答：氧惠官方邀请码333777返点高佣金高真的高。氧惠APP汇聚各大主流电商和生活服务平台优惠，展示全网全品类商品，满足网购爱好者对品质好货与极致性价比的追求，并同时享受大平台购物权益保障。满足用户日常吃喝玩乐衣食住行的聚合APP，独特的商业模式，响应国家号召，为实现全民共富而努力奋斗。氧惠邀请码3
深入理解汇编语言子程序设计与系统调用网安spinage 汇编语言开发语言汇编算法
本文将全面解析汇编语言中子程序设计的核心技术以及系统调用的实现方法，涵盖参数传递的多种方式、堆栈管理、API调用等关键知识点，并提供实际案例演示。一、子程序设计：参数传递的艺术1.寄存器传参：高效简洁.386.modelflat,stdcalloptioncasemap:none.dataxdd5;定义变量ydd6sumdd?.code;函数定义：addxy1addxy1procpushebpmo
【老房翻新】92平轻奢简约风，将和谐之美融入空间！没人比我更懂装修
在客厅空间中，设计师于冷静的空间基调中选用了层次感丰富的黄蓝色作为主要跳色，搭配黑白纹理的地毯与单椅，为空间增加了时尚摩登的气息。艺术感的单品突出点亮了空间，绿植的点缀、留白的软饰则增强了空间的呼吸性。点击此处添加图片说明文字点击此处添加图片说明文字设计师力求使每一处的设立都在空间中达到相互间的呼应与制衡，将艺术的跃动之美赋于空间之上，也将空间的和谐之美融于生活之中。点击此处添加图片说明文字点击此
今晚吃太饱了爱伤心的蚂蚁
今晚吃太饱了，两碗干饭，两碗肉汤，一碗牛奶银耳汤，感觉肚子都顶出来了，圆滚滚的！明早要早起，出发去小蚂蚁家！看着剩下的肉汤，倒掉多可惜，干掉了！看着小蚂蚁熬的银耳汤，倒掉多可惜，于是热了一下，顺便热袋牛奶倒进去，大娃喝点，小蚂蚁喝点，还剩下一大碗，继续干掉！吃的太饱，人也懒洋洋的，躺床上不想动，感受的肚子撑撑的感觉，好久没吃这么饱了！这一晚灌的都是汤汤水水的，天冷的晚上，半夜要睡不安稳咯！哈哈！小
你对待万事万物的态度行靜
昨晚爸爸把洒水壶灌满水，对我说：你也该去浇浇你阳台上的花咯。这么大的天气，几天没浇水都快死了。我才意识到自己容易突然间忽视一些事情。尤其是身旁的一些事，可能它们呆久了，反而习以为常。想想每天的生活状态就是在不断的重复着一些事，有点固定模式。没有什么特别发生。记录我的一天：上班，挤公交，用手机或电脑，吃饭，上课。没有
京东家电年销售额是去年的1300%，主要来自于他.... Shanshan小课堂
经过大半个月角逐纠缠，时间终于来到6月18日，618全球年中购物节迎来最高潮。作为国内最大的家电零售平台，京东家电从18日0点开始，便开启了飞速狂奔的模式，仅8分钟销售额就突破20亿元!展现出强劲的增长势头与家电主场的王者霸气的同时，也让各家电品牌实现了爆发式增长，美的、海尔、格力、奥克斯均在3分钟内突破1亿元大关。在今年的618中，除了消费者已经熟悉的网购形式外，线上线下联动的融合模式、社交电商
编程算法：技术创新的引擎与业务增长的核心驱动力
在数字经济时代，算法已成为推动技术创新与业务增长的隐形引擎。从存内计算突破冯·诺依曼瓶颈，到动态规划优化万亿级金融交易，编程算法正在重塑产业竞争格局。一、存内计算：突破冯·诺依曼瓶颈的算法革命1.1存内计算的基本原理传统计算架构中90%的能耗消耗在数据搬运上。存内计算（Processing-in-Memory）通过直接在存储单元执行计算，实现能效10-100倍提升：#传统计算vs存内计算能耗模型i
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S