RAPTOR模型在长文档知识检索中的应用

人工智能咨询培训老师叶梓 转载标明出处

传统的检索增强型语言模型(RALMs)在检索时往往只关注短且连续的文本块,这限制了它们对整体文档上下文的全面理解。例如,在需要整合文本多个部分知识的主题性问题上,如理解整本书的内容,传统方法难以有效回答跨章节的问题。为了解决这一问题,斯坦福的研究团队提出了一种名为RAPTOR(Recursive Abstractive Processing for Tree-Organized Retrieval)的新颖方法。

RAPTOR模型通过递归地嵌入、聚类和总结文本块,构建了一个从底层到顶层具有不同抽象级别的树状结构。在推理时,RAPTOR从这棵树中检索信息,整合不同层次的长文档信息。通过受控实验,研究者发现使用递归摘要进行检索,在多个任务上相比传统检索增强型语言模型有显著的性能提升。特别是在涉及复杂、多步骤推理的问题回答任务上,RAPTOR展现了其卓越的性能。

RAPTOR方法

RAPTOR模型的设计理念基于长篇文本通常包含子主题和层级结构的观察。为了解决现有方法在语义深度和连接阅读方面的问题,RAPTOR构建了一个递归树状结构,它在保持主题广泛性的同时,也能关注细节,允许基于语义相似性的节点分组,而不仅仅是文本中的顺序。

RAPTOR模型在长文档知识检索中的应用_第1张图片 RAPTOR模型如何通过递归地聚类文本块、生成这些聚类的文本摘要,并重复这个过程来构建一个自下而上的树结构

图1为RAPTOR构建树状结构的过程,这个过程是自底向上进行的。首先,系统将文本分割成基于向量嵌入的小块,并递归地对这些文本块进行聚类。每个聚类操作都会生成一个节点,这些节点被称为兄弟节点,因为它们来自同一层次的聚类。随后,系统对每个聚类生成的文本块进行总结,形成一个新的父节点,该父节点包含了其子节点的文本摘要。这个过程不断重复,直到形成一个完整的树状结构,其中每个父节点都提供了其子节点内容的高层次抽象。这种结构不仅保留了文本的细节,还通过层层递进的总结,提供了对文本内容的全面理解,使得RAPTOR能够有效地处理复杂的信息检索任务。

构建RAPTOR树的第一步是将检索语料分割成长度为100的短文本块,这与传统的检索增强技术相似。如果一个句子超过了100个标记的限制,就将整个句子移动到下一个文本块,而不是在句子中间切断,以保持每个文本块内的上下文和语义连贯性。这些文本块随后使用基于BERT的编码器SBERT进行嵌入,形成树结构的叶节点。

为了将相似的文本块组织成组,RAPTOR采用了聚

你可能感兴趣的:(人工智能,机器学习,人工智能,长文档处理,递归,知识增强,语言模型,自然语言处理)