「RAG 技术通过在 AI 生成过程中引入外部知识检索,从基础的文档查询发展到多模态、Multi-Agent 体协同的智能架构,让 AI 回答更准确、更全面」
「核心组件」
嵌入模型: 将文本转换为向量表示
生成模型: 负责最终的内容生成
重排序模型: 优化检索结果的相关性
向量数据库: 存储和检索向量化的内容
提示模板: 规范化的查询处理模板
AI Agent: 智能决策和任务协调
图例 1
Naive RAG
Naive RAG(Retrieval-Augmented Generation)是最基础的一种架构,用于结合检索和生成来处理复杂的任务,比如问答或内容生成。
其基本架构如下:
负责从知识库(如文档集合或数据库)中找到与输入查询相关的上下文。
通常基于向量检索技术,使用嵌入模型(如 Sentence Transformers 或 OpenAI Embeddings)将查询和文档嵌入到向量空间中,计算相似性并返回最相关的文档。
接收用户输入和检索到的上下文,生成最终的回答或内容。
通常使用大型语言模型(如 GPT 或 T5)来生成自然语言输出。
用户输入一个查询(如问题)。
检索模块从知识库中找出与查询相关的文档片段。
将检索结果连同查询一起传递给生成模块。
生成模块基于上下文生成回答或内容。
简单高效:由于模块化设计,容易实现和调试。
可扩展性强:检索模块和生成模块可以独立优化或替换。
存在局限性:Naive RAG 通常假设检索的上下文是完备的,这在知识库更新不及时或检索效果不佳时可能导致生成结果不准确。
文档问答:基于企业内部文档或外部知识库回答用户提问。
内容生成:辅助生成新闻、摘要等需要结合外部信息的内容。
技术支持:从常见问题解答(FAQ)库中检索答案并生成自然语言响应。
Naive RAG 是 RAG 系列架构的起点,更复杂的变种(如使用多轮交互或强化学习优化)通常在此基础上扩展。
Retrieve-and-rerank
Retrieve-and-Rerank 是在基础 RAG 架构上的增强版本,通过引入重排序(Reranking)步骤,进一步优化检索结果的相关性。这种方法非常适合在需要高精度答案的任务中使用。
在基础 RAG 的检索阶段(Retriever)之后,加入一个额外的重排序模块,以更好地筛选检索结果,提高传递给生成模块(Generator)上下文的质量。
检索模块从知识库中找到一批初步相关的文档(例如,前 50 个文档)。
使用向量检索(如基于余弦相似度或欧几里得距离)快速生成候选文档集合。
传统方法:BM25、TF-IDF 等。
深度学习模型:基于 BERT 的交互式检索模型(如 Cross-Encoder)。
混合方法:将检索分数与语义模型得分结合。
将初步检索到的候选文档集合交给一个专门的重排序模型。
重排序模型可以是:
输出一个按相关性排序的高质量文档列表。
仅使用重排序后的前 N 个文档作为上下文,生成回答或内容。
高相关性的上下文能显著提升生成质量。
检索模块
:FAISS、ElasticSearch、BM25 等。
重排序模块
:BERT、MiniLM、ColBERT(使用 Cross-Encoder)等。
生成模块
:GPT、T5、LLaMA 等。
通过这种方式,Retrieve-and-Rerank 在原始 RAG 架构的基础上增强了检索的相关性,显著提升了最终生成的质量。
Multimodal RAG
与基础 RAG 类似,Multimodal RAG 也由检索模块(Retriever)和生成模块(Generator)组成,但增强了对多模态数据的支持:
能处理和索引不同模态的数据,如图像、视频或音频的特征。
通常利用预训练模型将非文本模态(如图像)转换为嵌入向量,存储在统一的向量数据库中。
检索时,将用户输入(文本或其他模态)编码为嵌入向量,与数据库中的嵌入进行匹配。
接受多模态的上下文,例如文本和图像的组合。
利用专门设计的多模态生成模型(如 Flamingo、BLIP-2)生成回答或内容。
能够根据上下文模态灵活调整生成策略。
流程
用户输入可以是文本(如问题)或其他模态(如图像)。
多模态检索模块找到与输入相关的多模态上下文。
将检索结果传递给生成模块,结合上下文生成多模态回答或内容。
在多模态数据之间建立共同表示,例如将图像特征和文本特征映射到同一个向量空间。
常用技术:CLIP、Align-before-Fuse、BLIP 等。
将检索到的不同模态的上下文信息进行有效融合,为生成模块提供统一的输入。
方式:早期融合(将模态特征直接拼接)、晚期融合(分别处理后再结合)。
多模态生成需要具备同时处理文本和非文本模态的能力。
模型:Flamingo、BLIP-2、Visual ChatGPT 等。
图像:使用 CLIP、DINO 等模型提取图像特征。
文本:使用 Sentence Transformers 或 OpenAI Embeddings。
通过 Multimodal RAG,可以实现复杂的跨模态任务,为各种应用提供更强大的解决方案。
Graph RAG
Graph RAG是对基础 RAG 架构的一种扩展,通过引入
图数据库 来增强知识点之间的关联和文档间关系的理解。这种架构不仅提高了检索的精准性,还能更好地利用知识的上下文和结构化信息。
Graph RAG 的核心思想是在知识检索过程中利用图数据库(如 Neo4j、TigerGraph)来存储和管理数据。通过将文档、实体和它们之间的关系建模为图结构,可以更高效地处理复杂的知识连接和语义关系。
图数据库存储文档及其结构化关系(节点和边),提供上下文的关系视图。
节点:可以表示实体(如人名、地名)、文档或知识片段。
边:表示节点之间的关系(如“引用”“从属”“因果”等)。
查询不仅基于文档内容,还利用图的结构进行关系推理。
可通过图查询语言(如 Cypher)实现复杂的知识检索。
将检索到的多层次上下文(文档和其相关节点)输入到生成模型。
生成模型结合图关系信息,生成更精准、更上下文相关的输出。
文档:“爱因斯坦提出了相对论。”
节点:爱因斯坦
、相对论
边:提出
从知识库或文档集合中提取实体、关系和文本内容,构建图数据库。
示例:
用户输入问题,如“相对论的提出者是谁?”。
将查询转换为图查询(例如,搜索与“相对论”相关的节点和边)。
Graph RAG 将知识管理和自然语言生成相结合,利用图数据库强大的关系建模能力,大幅提升了文档间关系的理解和复杂问题的解决能力。
Hybrid RAG
Hybrid RAG 结合了多种技术的优势,包含图结构和传统检索方法
Graph RAG 是对基础 RAG 架构的一种扩展,通过引入
图数据库 来增强知识点之间的关联和文档间关系的理解。这种架构不仅提高了检索的精准性,还能更好地利用知识的上下文和结构化信息。
Graph RAG 的核心思想是在知识检索过程中利用图数据库(如 Neo4j、TigerGraph)来存储和管理数据。通过将文档、实体和它们之间的关系建模为图结构,可以更高效地处理复杂的知识连接和语义关系。
图数据库存储文档及其结构化关系(节点和边),提供上下文的关系视图。
节点:可以表示实体(如人名、地名)、文档或知识片段。
边:表示节点之间的关系(如“引用”“从属”“因果”等)。
查询不仅基于文档内容,还利用图的结构进行关系推理。
可通过图查询语言(如 Cypher)实现复杂的知识检索。
将检索到的多层次上下文(文档和其相关节点)输入到生成模型。
生成模型结合图关系信息,生成更精准、更上下文相关的输出。
文档:“爱因斯坦提出了相对论。”
节点:爱因斯坦
、相对论
边:提出
从知识库或文档集合中提取实体、关系和文本内容,构建图数据库。
示例:
用户输入问题,如“相对论的提出者是谁?”。
将查询转换为图查询(例如,搜索与“相对论”相关的节点和边)。
Graph RAG 将知识管理和自然语言生成相结合,利用图数据库强大的关系建模能力,大幅提升了文档间关系的理解和复杂问题的解决能力。
Agentic RAG Router
Agentic RAG Router 使用 AI Agent 来路由和处理查询,可以选择最适合的处理路径
Agentic RAG Router 是一种更高级的 Retrieval-Augmented Generation (RAG) 架构,通过引入AI Agent 作为路由器,根据用户的查询动态选择最合适的处理路径或模块。它在复杂、多任务场景中具有明显优势,因为不同查询可能需要不同的数据源或处理逻辑。
Agentic RAG 的核心是一个智能路由器(Agent),负责理解用户查询并决定如何处理。整个系统通常由以下模块组成:
使用大型语言模型(如 GPT 或其他 LLM)作为路由器,分析查询的意图和类型。
基于查询选择最合适的检索模块和生成模块。
可以动态配置执行逻辑,比如调用特定知识库或外部 API。
文本检索:文档、FAQ。
图像检索:视觉数据库。
图数据库:复杂关系推理。
不同的检索模块可以处理不同的数据源或模态:
Router 决定调用哪种检索模块或多模块组合。
自然语言生成(文本)。
图像生成或描述(视觉)。
表格生成或数据分析(结构化数据)。
针对不同任务优化的生成模块:
直接回答(无需检索)。
检索后回答(RAG 流程)。
调用外部工具或 API(如计算器或代码执行器)。
Router 分析用户查询,可能的处理路径包括:
“这张图片中的内容是什么?”
“帮我从文档中找出关于技术趋势的摘要。”
用户输入问题或任务描述,例如:
任务分类:问答、生成、推理等。
数据模态识别:文本、图像、表格等。
优化目标:速度优先或准确性优先。
Router 分析查询的意图和模态,可能包含:
文本问答:调用文本检索模块 + GPT 生成模块。
图像问答:调用图像嵌入模型(如 CLIP) + 图像描述生成模块。
多模态组合:同时调用文本和图像检索模块,结合生成。
根据分析结果,Router 调用最适合的检索模块和生成模块。
示例:
文本:FAISS、ElasticSearch。
图像:CLIP、DINO。
图数据库:Neo4j。
文本生成:T5、BART、GPT。
图像生成:DALLE-2、Stable Diffusion。
数据生成:Pandas、NumPy。
Agentic RAG Router 的灵活性使其成为解决复杂问题的强大工具。通过将智能路由与强大的检索和生成能力相结合,它可以显著提升处理多模态、多任务场景的效率和准确性。
Agentic RAG Multi-Agent
Agentic RAG Multi-Agent 使用多个专门的 AI Agent 协同工作,可以调用不同的工具(如向量搜索、网页搜索、Slack、Gmail 等)
Agentic RAG Multi-Agent 是 Retrieval-Augmented Generation (RAG) 的进一步进化版本,它引入多个专门的 AI Agent,每个 Agent 负责不同的任务或工具调用。通过这些 Agent 的协同工作,系统能够在复杂、多源数据环境中灵活高效地处理任务,比如同时检索向量数据库、执行网页搜索、查询第三方 API,甚至与工具(如 Slack、Gmail)交互。
Agentic RAG Multi-Agent 的核心特性是多个专用 Agent 的协作,每个 Agent 可以完成特定任务或调用特定工具。整个系统由以下组件组成:
作为中央调度器,负责解析用户意图、分派任务,并整合多个 Agent 的输出。
主控 Agent 可以使用 LLM(如 GPT-4)来执行复杂的任务规划和路由。
向量搜索 Agent:从向量数据库中检索相关内容。
网页搜索 Agent:实时从互联网获取最新信息。
通信工具 Agent:与 Slack、Gmail 等进行交互。
数据处理 Agent:处理结构化数据(如表格或数据库查询)。
模态特定 Agent:如图像分析、语音识别等。
每个 Agent 负责特定类型的任务或工具,例如:
“帮我分析这份文件的摘要,并用邮件发送给团队。”
“找出过去一周相关的行业趋势,并通知 Slack 频道。”
用户提出一个复杂的请求,例如:
提取摘要:调用向量检索 Agent 或文本处理工具。
搜索趋势:调用网页搜索 Agent。
发送通知:调用 Slack 或 Gmail Agent。
主控 Agent 将任务分解为子任务:
向量检索:FAISS、Weaviate。
网页搜索:Google API、Bing Search API。
通信工具:Slack API、Gmail API。
数据分析:Pandas、NumPy。
LangChain:支持 Agent 编排。
Tools SDK:实现与外部工具的接口。
用户输入: “帮我从数据库和互联网找出过去一周的行业趋势,并用摘要发邮件给团队。”
系统执行:
检索数据库:调用向量搜索 Agent。
搜索互联网:调用网页搜索 Agent。
生成摘要:调用文本生成 Agent。
发送邮件:调用 Gmail Agent。
向量搜索 Agent:检索内部数据库的行业报告。
网页搜索 Agent:爬取过去一周的行业新闻。
文本生成 Agent:将数据整合为摘要。
Gmail Agent:将摘要发送给团队。
通过 Agentic RAG Multi-Agent,复杂任务可以自动化完成,显著提升效率和用户体验,尤其在需要跨模态、跨工具协作的场景中表现尤为出色。
感谢你们的阅读和喜欢,我收藏了很多技术干货,可以共享给喜欢我文章的朋友们,如果你肯花时间沉下心去学习,它们一定能帮到你。
因为这个行业不同于其他行业,知识体系实在是过于庞大,知识更新也非常快。作为一个普通人,无法全部学完,所以我们在提升技术的时候,首先需要明确一个目标,然后制定好完整的计划,同时找到好的学习方法,这样才能更快的提升自己。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
为了成为更好的 AI大模型 开发者,这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】