RAG 作者Douwe Kiela : RAG已死? RAG万岁!

每隔几个月,人工智能领域就会出现类似的情况。一个拥有更大上下文窗口的新模型问世,社交媒体上便充斥着 “检索增强生成(RAG)已死” 的宣告。Meta 公司的最新突破再次引发了这一讨论 —— Llama 4 Scout 理论上高达 1000 万词元的上下文窗口,确实代表着一次真正的重大进步。

但这些论断,无论是针对上下文窗口的突破、微调技术的进步,还是模型上下文协议(MCP)的出现,都误解了检索增强生成(RAG)的目的,也不明白它为何在人工智能领域始终占有一席之地。

https://contextual.ai/blog/is-rag-dead-yet/

检索增强生成(RAG)的初衷


五年前,我在 Meta 基础人工智能研究团队(FAIR,前身为脸书人工智能研究团队)的团队提出了检索增强生成(RAG)的概念。检索增强生成(RAG)的目标是利用外部知识来增强模型,创造出一种集参数记忆和非参数记忆之大成的解决方案。

简单来说,检索增强生成(RAG)通过从语言模型未训练过的数据源中检索相关信息,并将其注入模型的上下文,从而扩展语言模型的知识库。

这种方法旨在解决生成式语言模型的诸多缺陷:

  • 无法获取私有(企业内部)数据:模型通常在公开数据上进行训练,但往往需要不断变化和扩展的专有信息。
  • 过时的参数知识:即便频繁更新模型,模型的训练截止时间与当下之间始终存在差距。
  • 产生幻觉和归属问题:模型常常会编造出听起来合理但实际错误的信息。检索增强生成(RAG)通过让回复基于真实来源,并提供引用信息让用户核实,从而解决了这一问题。


听起来很熟悉吧?现在已经不是 2020 年了,但同样的问题在今天依然存在。如果说有什么不同的话,那就是随着各组织推动人工智能系统处理日益复杂和关键的任务,这些问题变得更加突出了。核心挑战依然存在:我们如何将强大的生成式模型与公司所依赖的海量知识存储联系起来呢?

为什么我们仍然需要检索增强生成(RAG)(并且永远需要)


高效且精确的检索在人工智能领域始终会发挥重要作用。这一点在领英(LinkedIn)上一篇被广泛分享的帖子中已有清晰阐述,但我还是要重申一下我们不能仅仅将所有数据都加载到模型上下文中的原因:


可扩展性 —— 企业的知识库是以太字节(TB)或拍字节(PB)来计量的,而不是以词元来计算。即便拥有 1000 万词元的上下文窗口,你所能获取的也只是可用信息中的极小一部分。这就是为什么检索技术方面的创新一直在快速推进,混合搜索、查询转换、自我反思、主动检索等方面的进展,以及对结构化数据的支持,都有助于从知识库中找到合适的信息。


准确性 —— 实际有效的上下文窗口与产品发布时所宣传的大不相同。多项研究一致表明,在模型达到其官方设定的上下文窗口极限之前很久,其性能就已经开始下降。在实际测试中也出现了同样的情况,模型很难准确引用其上下文中较靠后的信息。这种 “上下文断崖” 现象意味着,仅仅往上下文窗口中塞入更多内容,并不能带来更好的结果。

RAG 作者Douwe Kiela : RAG已死? RAG万岁!_第1张图片

延迟性 —— 将所有内容都加载到模型的上下文中会导致响应时间大幅变长。对于面向用户的应用程序而言,这会带来糟糕的体验,因为人们往往在得到答案之前就放弃了交互操作。基于检索的方法只需添加最相关的信息,就能实现更快的响应速度。


高效性 —— 你每次在回答一个简单问题时,会通读一整本教科书吗?当然不会!检索增强生成(RAG)就相当于直接跳到相关的页面。处理更多的词元不仅速度更慢,而且效率极低,相比利用检索增强生成(RAG)精准定位所需信息的方式,成本也要高得多。

警惕错误的二分法


在谷歌上搜索 “检索增强生成(RAG)与…… 对比”,你会看到一长串建议的查询补全内容,比如 “长上下文”“微调” 以及 “模型上下文协议(MCP)” 等。这种表述方式制造了一种人为的选择,并没有反映出这些技术实际上是如何最好地协同发挥作用的。

RAG 作者Douwe Kiela : RAG已死? RAG万岁!_第2张图片

实际上,这些概念没有一个是相互排斥的,甚至也并非相互冲突 —— 它们都以互补的方式帮助解决前沿模型的局限性:

  • 检索增强生成(RAG)能够获取模型知识库之外的信息。
  • 微调可以改进对这些信息的处理和应用方式。
  • 更长的上下文允许检索到更多信息,以便模型进行推理。
  • 模型上下文协议(MCP)简化了智能体与检索增强生成(RAG)系统(以及其他工具)的集成。


我们在实际应用中看到的最先进的人工智能系统会综合运用这些方法,在最能发挥每种工具优势的地方使用它们,而不是宣称某一种方法胜出,然后摒弃其他方法。


正如一位推特用户最近所说:“声称大语言模型的长上下文窗口可以取代检索增强生成(RAG),就好比说因为内存足够大,所以就不需要硬盘了。” 确实如此!你的电脑配备硬盘、内存和网卡是有原因的。它们各有不同的用途,并且作为一个系统协同工作。人工智能领域中的检索增强生成(RAG)、微调以及长上下文窗口也是同样的道理。

结论


我们无需在检索增强生成(RAG)与长上下文窗口、微调或模型上下文协议(MCP)之间做出选择。真正能带来价值的人工智能解决方案不会只专注于单一的方法;它们会根据所解决的具体问题来混合搭配各种工具。

不过,下一次 “检索增强生成(RAG)已死” 的宣告出现只是时间问题。所以,如果你想参考这篇文章,可以访问 isragdeadyet.com 找到它。这个网站将一直证明检索在人工智能系统中持续存在的重要性,并且每当不可避免地出现下一波 “检索增强生成(RAG)已死” 的帖子时,网站内容都会进行更新。

如果你的系统无法利用专有的数据,不断提供过时的信息,或者缺少你所需的专业知识,那就来和我们谈谈吧。我们开发了一种产品,它将智能检索与前沿的大语言模型结合起来,以解决这些长期存在的棘手问题。因为重要的不是哪种技术在人为设定的竞争中胜出,而是开发出真正能解决实际问题的东西。

你可能感兴趣的:(人工智能,RAG,AI,Agent)