2024年1月16日Arxiv热门NLP大模型论文：Ada-Retrieval: An Adaptive Multi-Round Retrieval Paradigm for Sequential R

多轮次智能推荐新突破，MSRA &人大联合提出Ada-Retrieval，性能全面超越传统模型！

引言：个性化推荐系统的新篇章

个性化推荐系统在电子商务、社交媒体和娱乐平台等在线应用中扮演着至关重要的角色。通过根据用户的历史行为和偏好提供个性化推荐，这些系统增强了用户体验和参与度。尽管传统的单轮检索模型在推荐系统中已经取得了一定的成功，但它们在捕捉用户偏好的动态性和适应不断变化的项目空间多样性方面仍存在局限性。为了解决这些问题，本文提出了一个新的多轮检索范式——Ada-Retrieval，它通过迭代地细化用户表示来更好地捕获整个项目空间中的潜在候选项。这不仅开启了个性化推荐系统的新篇章，而且为未来的推荐系统提供了一种更为动态和多样化的检索方法。

声明：本期论文解读非人类撰写，全文由赛博马良「AI论文解读达人」 智能体自主完成，经人工审核后发布。

智能体传送门：赛博马良-AI论文解读达人

神奇口令： 小瑶读者 （前100位有效）

论文概览：Ada-Retrieval的提出背景与主要贡献

1. 论文标题、机构、论文链接和项目地址

论文标题：

《Ada-Retrieval: An Adaptive Multi-Round Retrieval Paradigm for Sequential Recommendations》，

论文作者：

由中国人民大学高瓴人工智能学院的Lei Li、微软亚洲研究院的Jianxun Lian、Renmin University of China的Xiao Zhou和Microsoft Research Asia的Xing Xie共同撰写。

论文链接：

https://arxiv.org/pdf/2401.06633.pdf；

项目代码和数据地址：

https://github.com/ll0ruc/Ada-Retrieval。

2. 传统单轮检索的局限性

传统的单轮检索模型在给定用户的个人资料，如行为历史后，启动前向过程并生成用户表示，然后使用这些表示作为查询来匹配数据库中最相似的前k个项目。然而，这种单轮推理范式可能无法充分捕捉用户偏好的动态性，导致在项目空间中的搜索区域局限于一个静态区域。如果初始用户表示不准确或用户的未来偏好多样化，这种范式可能无法提供令人满意的性能。

3. 多轮检索的优势与Ada-Retrieval的核心思想

多轮检索范式为推荐系统提供了一种更有效的检索方法。在这种范式中，检索k个项目的目标被分成n批，每批代表一轮检索k/n个项目。不同轮次的用户表示的前向传递是独立进行的。如果先前检索到的项目不能充分匹配用户的偏好，那么在下一轮中将调整用户表示，使模型能够在项目空间的不同区域搜索目标项目。Ada-Retrieval作为这一新范式的体现，提出了一个自适应的多轮检索方法，它改变了传统的训练和推理过程，同时保持了与各种主干模型（如RNN或Transformers）的无缝集成。Ada-Retrieval包括两个关键模块：项目表示适配器和用户表示适配器，旨在将上下文信息注入项目和用户的表示中。通过这些组件，Ada-Retrieval能够在检索过程中将上下文信息整合到传统的序列推荐模型中，生成逐步精炼的用户表示，同时保持轻量级和模型不可知的优势。

Ada-Retrieval框架详解

1. 框架概述与工作流程

Ada-Retrieval框架旨在通过多轮推理范式来改进推荐系统中的检索模型。传统的单轮推理范式在用户表示生成后便固定不变，可能无法充分捕捉用户偏好的动态性质，导致检索结果局限于项目空间的一个静态区域。Ada-Retrieval通过将检索k个项目的目标分成n批，每批检索k/n个项目，并在每轮中独立进行用户表示的前向传递，从而允许模型根据用户的反馈信息调整用户表示，搜索项目空间中不同区域的目标项目。

Ada-Retrieval包含两个关键模块：项目表示适配器（IRA）和用户表示适配器（URA）。IRA通过学习过滤器（LFT）层和上下文感知注意力（CAT）层调整用户历史中的项目嵌入，以优化下一轮检索的候选项目空间。URA则由门控循环单元（GRU）层和多层感知机（MLP）层组成，GRU层编码前几轮生成的所有用户表示作为用户上下文，MLP层将此上下文与当前用户表示融合以产生适应性表示。这些组件使Ada-Retrieval能够在检索过程中将上下文信息整合到传统的序列推荐模型中，生成逐步精炼的用户表示，同时保持轻量级和模型不可知的优势。

2. 项目适配器（IRA）与用户适配器（URA）的设计

IRA旨在根据当前检索上下文重新校准用户历史数据中的项目嵌入。它包含一个可学习的过滤器层，用于有效地精炼项目特征，以及一个上下文感知的注意力层，使模型能够根据与即时预测任务的相关性选择性地关注序列的不同部分。

URA利用现有的用户上下文信息，设计了一个生成适应性用户表示的适配器。它包含一个GRU层，用于编码前几轮累积的用户表示，以及一个MLP层，将用户上下文特征表示与当前生成的用户特征表示结合处理，产生最终的用户表示。

实验设置与数据集介绍

1. 数据集预处理与统计信息

我们在三个公开的基准数据集上进行实验，包括Amazon Product数据集的Beauty和Sports子集，以及Yelp数据集。这些数据集包含了Amazon.com产品的用户评论和商业推荐的扩展项目序列。为了保持一致性，我们按照时间戳对用户或会话的交互记录进行了时间顺序排序，并过滤掉了交互次数少于5次的用户和项目。数据集的详细统计信息在表1中进行了总结。

2. 评估标准与实验细节

我们采用留一法策略将每个用户的项目序列划分为训练集、验证集和测试集，并采用所有用户未曾交互过的项目作为候选项目。评估模型性能的指标包括top-k命中率（HR@k）和top-k归一化折扣累积增益（NDCG@k）。

实验中，我们使用了Python 3.8和PyTorch 1.12.1在NVIDIA V100 GPU上进行实验。训练参数包括使用学习率为0.001的Adam优化器和批量大小为1024。对于所有数据集，我们将最大序列长度设置为50，嵌入维度设置为64，训练周期最多为200。对于Ada-Retrieval，我们在[3, 8]和[0.1, 0.9]的范围内调整了超参数T和λ。实验进行了五次，结果以平均值和标准差报告，反映了模型的性能。我们还采用了早停策略，如果在验证集上的HR@50性能连续10个周期下降，就停止训练。

Ada-Retrieval的性能评估

1. 与不同骨干模型的性能比较

Ada-Retrieval作为一种适应性多轮检索范式，通过迭代细化用户表示来更好地捕捉整个项目空间中的潜在候选项。在性能评估方面，Ada-Retrieval与五种强大的序列推荐器作为骨干模型进行了集成和比较。这些骨干模型包括基于循环神经网络（RNN）、卷积神经网络（CNN）、图神经网络（GNN）和多层感知机（MLP）的模型。

实验结果显示，Ada-Retrieval在不同数据集上显著提升了各种基础模型的性能。例如，在Beauty数据集上，Ada-Retrieval提升了SASRec模型在NDCG@50指标上的性能达8.55%，并且在最佳基础模型FMLPRec上的提升为5.66%。无论是基于RNN的GRU4Rec、基于Transformer的SASRec、基于CNN的NextItNet、基于GNN的SRGNN，还是基于MLP的FMLPRec，Ada-Retrieval都能无缝集成并一致地提高性能。

2. 与多兴趣模型的性能对比

Ada-Retrieval采用多轮自适应学习，逐步生成多个用户表示，与多兴趣用户建模的研究方向有所不同，但两种方法在推理过程中产生多个用户表示这一点上存在相似性。因此，Ada-Retrieval与几种多兴趣检索模型进行了比较，包括DNN（也称为YouTube DNN）、MIND、ComiRec和SINE。

比较结果表明，使用多个用户表示向量的方法（如MIND、ComiRec和Ada-Retrieval）比使用单个表示的方法（如DNN）表现更好。这一发现突出了多用户表示向量在捕捉用户多样化兴趣并因此提高推荐准确性方面的有效性。Ada-Retrieval在所有数据集的所有指标上一致性地优于其他模型，这归功于其多轮检索范式，该范式基于上下文信息迭代地细化用户表示，从而能够更精确地识别整个项目空间中的潜在候选项。

模型组件的影响分析

1. 适配器组件的贡献

Ada-Retrieval包含两个关键模块：项目表示适配器（IRA）和用户表示适配器（URA）。IRA通过一个可学习的过滤器（LFT）层和一个上下文感知的注意力（CAT）层来调整用户历史中的项目嵌入，而URA由一个门控循环单元（GRU）层和一个多层感知机（MLP）层组成。GRU层编码以前轮次中生成的所有用户表示作为用户上下文，MLP层将此上下文与当前用户表示融合以产生一个适应性表示。

在对Ada-Retrieval（SASRec）与SASRec在三个数据集上的对比分析中，结果表明，当省略过滤器层时，性能有明显下降，表明可学习的过滤器在减轻项目上下文中的噪声数据方面起着关键作用。当用项目嵌入的平均值替换注意力层时，性能下降表明注意力机制允许模型通过为关键项目分配更高的权重来自动识别它们。当完全移除项目上下文信息时，观察到性能下降最为显著，这突出了项目上下文数据在Ada-Retrieval用户模拟过程中的重要作用。

2. 训练策略的影响

在用户上下文方面，与Ada-Retrieval相比，移除GRU层或MLP模块都会导致性能显著下降，这突显了我们的用户表示适配器在整合上下文信息方面的有效性。值得注意的是，省略MLP比不使用URA的模型性能下降更为明显，这表明直接将用户上下文向量融入当前用户表示会引入噪声，强调了精心设计融合模块以有效利用用户上下文的重要性。此外，从头开始联合训练Φ和Θ的结果在三个数据集上都不如Ada-Retrieval，这凸显了两阶段训练程序的重要性。这可以归因于预训练的基础模型能够生成更准确、更健壮的上下文信息，从而促进模型的训练。

超参数敏感性分析

在机器学习和深度学习中，超参数的选择对模型性能有着显著的影响。在本研究中，我们对Ada-Retrieval模型的两个关键超参数进行了敏感性分析：推荐批次数（T）和衰减## 超参数敏感性分析

在机器学习和深度学习中，超参数的选择对模型性能有着显著的影响。在本文中，我们探讨## 超参数敏感性分析

在机器学习和深度学习中，超参数的选择对模型性能有着

结论与未来展望

1. Ada-Retrieval的总结

Ada-Retrieval提出了一种自适应的多轮检索范式，用于顺序推荐系统。与传统的单轮推理范式不同，Ada-Retrieval通过迭代地细化用户表示来更好地捕捉整个项目空间中的潜在候选项。该框架包括两个关键模块：项目表示适配器和用户表示适配器，它们旨在将上下文信息注入项目和用户的表示中。Ada-Retrieval的设计保持了模型不可知的特性，允许与各种骨干模型（如RNN或Transformers）无缝集成。

在三个广泛使用的公共数据集上进行的实验表明，Ada-Retrieval显著提高了各种基础模型的性能，跨不同数据集观察到一致的改进。例如，在Beauty数据集上，Ada-Retrieval将SASRec的NDCG@50性能提高了8.55%，并将最佳基础模型FMLPRec提高了5.66%。这些结果强调了Ada-Retrieval在顺序推荐系统中的潜力，它不仅能够提高推荐的多样性和动态性，而且还能够以轻量级和模型不可知的优势进行集成。

2. 多轮检索范式的理论基础与大型语言模型应用展望

多轮检索范式的理论基础在于它能够更有效地捕捉用户偏好的动态性，并适应项目空间的不断变化的多样性。Ada-Retrieval的多轮检索范式通过在不同轮次中独立进行用户表示的前向传递，并根据反馈信息调整用户表示，从而允许模型在项目空间的不同区域中搜索目标项目。这种范式的显著优势在于，它防止了用户表示被限制在静态区域内，使得推荐更加动态和多样化。

在未来，我们可以期待将多轮检索范式的理论基础扩展到大型语言模型的应用中。例如，可以探索将Ada-Retrieval应用于增强任务规划能力的大型语言模型。这种集成可能会进一步提高模型在处理复杂任务时的性能，例如在自然语言处理或对话系统中生成更准确的响应。此外，研究多轮检索范式如何与大型语言模型的其他能力（如长期记忆和推理）相结合，也是未来工作的一个有趣方向。

总之，Ada-Retrieval的提出为顺序推荐系统带来了新的视角，并展示了多轮检索范式的有效性。未来的研究将有助于进一步揭示这种范式的理论优势，并将其应用于更广泛的场景和模型中，特别是在大型语言模型的背景下。