介绍
长期以来,人类一直在追求相当于或超过人类水平的人工智能 (AI),AI 代理被认为是实现这一追求的有前途的工具。AI 代理是感知环境、做出决策并采取行动的人工实体。
由于它们所展示的多功能和卓越的功能,大型语言模型 (LLM) 被视为通用人工智能 (AGI) 的潜在火花,为构建通用 AI 代理提供了希望。许多研究工作都利用 LLM 作为构建 AI 代理的基础,并取得了重大进展。
在这个知识库中,我们提供了对基于 LLM 的代理的系统而全面的调查,并列出了一些必读的论文。
具体来说,我们从基于 LLM 的代理的一般概念框架开始:包括三个主要组件:大脑、感知和行动,该框架可以定制以适应不同的应用。 随后,我们探讨了基于 LLM 的智能体在三个方面的广泛应用:单智能体场景、多智能体场景和人机协作。 在此之后,我们深入研究了代理社会,探索了基于 LLM 的代理的行为和个性、他们形成社会时出现的社会现象,以及他们为人类社会提供的见解。 最后,我们讨论了该领域的一系列关键主题和开放问题。
1 引言
做出明智的决策能力对于生物在其环境中的生存和成功至关重要。同样,在具身人工智能(Embodied AI)领域的一个重要目标是开发具有复杂决策能力的智能体,如机器人。这些人工智能体能够智能地与其环境交互,并高效地完成各种现实任务,例如自动驾驶(Hu 等, 2023;Wayve, 2023)、家庭辅助(Kolve 等, 2017;Shridhar 等, 2020;Huang 等, 2022b),以及游戏对战(Fan 等, 2022;Wang 等, 2023a;Zhu 等, 2023b)。
近年来,研究人员越来越多地利用大型语言模型(LLMs)的卓越推理能力和广泛的世界知识来增强智能体的决策能力。然而,LLMs 主要设计用于处理文本上下文,在处理现实世界中的多模态(图像、语音等)观察时,会导致“模态差距”(Liang 等, 2022;Ren 等, 2023a)。
为了解决这一模态差距,常见的方法是使用各种 API 将多模态观察转换为文本(Wu 等, 2023;Yang 等, 2023)。然而,在多模态到单模态文本的转换过程中,可能会导致信息损失。同时,近年来多模态大型语言模型(MLLMs)ÿ