混合策略实现 doc-doc 对称检索局限性与失败案例

对于 doc-doc 类型的检索,虽然在语义空间上保持了一致,但是在 query->doc 的过程中,受限于各种因素,仍然可能产生错误信息。

第一个场景是在 query 没有足够上下文时,HyDE 容易误解对应的词,从而产生错误的信息。

例如提问 Bel 是什么?,在没有执行 HyDE 混合策略而是直接查询得到答案如下:

Bel 是由 Paul Graham 在四年的时间里(2015326日至20191012日),用 Arc 语言编写的一种编程语言。它基于 John McCarthy 最初的 Lisp,但添加了额外的功能。它是一个以代码形式表达的规范,旨在成为计算的形式化模型,是图灵机的一种替代方案。

但是执行 HyDE 混合策略生成假设性 doc 如下:

Bel 是 Paul Graham 的化名,他是这段信息背后的作者,当时需要种子资金以维持生活,并且参与了一项交易,后来成为 Y Combinator 模式的典范。

在这个例子中,HyDE 在没有文档上下文的情况下错误地解释了 Bel,这会导致完全检索不到相关的文档信息。
资料推荐

  • 大模型中转API推荐
  • ✨中转使用教程
  • ✨模型优惠查询

第二个场景是一些 开放式的查询,HyDE 可能会产生偏见,例如提问 作者会如何评价艺术与工程的区别?,无需转换 query 即可得到正确的响应回答:

作者可能会说,艺术和工程是两种需要不同技能和方法的学科。艺术更注重表达和创造力,而工程更专注于解决问题和技术知识。作者还暗示,艺术学校并不总是提供与工程学校同等水平的严谨性,绘画学生常常被鼓励发展个性化风格,而不是学习绘画的基础知识。此外,作者可能会指出,工程学相比艺术能提供更多的财务稳定性,正如作者自己创业初期需要种子资金来生活的经历所证明的那样。

在使用HyDE混合策略 转换 query 时,生成的 doc 如下:

作者可能会说,艺术比工程更持久和独立。他们提到,今天编写的软件几十年后就会过时,系统工作也不会长久。相比之下,他们指出绘画可以保留数百年,而且作为艺术家是可以谋生的。他们还提到,作为艺术家,你可以真正独立,不需要老板或研究资金。此外,他们指出艺术可以成为收入来源,适合那些无法接触传统就业形式的人,比如例子中的模特,能够通过为当地古董商建模和制作赝品而谋生。

总的来说,HyDE 是一个无监督的方法,可以帮助 RAG 提高效果。但是因为它不完全依赖于 embedding 而是强调问题的答案和查找内容的相似性,也存在一定的局限性。比如如果 LLM 无法理解用户问题,自然不会产生最佳结果,也可能导致错误增加。因此,需要根据场景决定是否选用此方法。
资料推荐

  • 大模型中转API推荐
  • ✨中转使用教程
  • ✨模型优惠查询

你可能感兴趣的:(#,langchain实用技巧,langchain,python,中转api,apikey,claude4,中转apikey,免费apikey)