编者按: 当身边的人都在谈论 AI Agent 时,你是否会困惑:究竟什么才是真正的智能体?为什么 OpenAI、IBM 和各大技术领袖给出的智能体定义都不相同?
我们今天为大家带来的这篇文章,作者的观点是:当前流行的智能体定义要么过于复杂,要么严重偏离核心要义,真正的智能体应该被定义为“具备自主性和行为能力,能在所处环境中实现一个或多个目标的系统”。
本文系原作者观点,Baihai IDP 仅进行编译分享
作者 | Steven Willmott
编译 | 岳扬
2025 年显然将成为智能体元年[1]。大语言模型(LLMs)的快速发展让文本生成、图像生成甚至视频生成等不断突破,但现在大家的兴奋点已经转向那些超越单纯的生成能力、能够在数字或现实世界中执行具体操作的系统。
产生这种兴奋确实有其合理性。如果 AI 能够"基于环境输入或内部决策机制,主动执行具体操作以达成目标。",其实用性将呈指数级提升。虽然软件自动化(software automation)已发展多年,但其中多数方案仍显僵化、脆弱。尽管要做到尽善尽美非常困难,但是将其与更敏捷的决策机制相结合必将带来巨大的收益(后续我们会深入探讨)。
核心问题自然是:“究竟什么是智能体?[2]” 是指 OpenAI 对智能体的定义[3]?还是 IBM 的定义[4]?还是 Simon Willison[5] 通过集思广益收集的六大热门定义之一(感谢 Swyx[6] 在 AI Engineer Conference 上提供):
又或是其他定义?
我的观点可能不会让你意外:虽然这些定义中的某些部分是正确的,但都存在缺陷。 更不必说前人早已提出过各种智能体定义,且存在专门研究多智能体系统的完整学术领域(我早期的重要研究成果之一,就发表在 2000 年在波士顿召开的第四届国际多智能体系统大会上,该会议后来与另两个会议合并成为延续至今的 AAMAS 会议[7])。
若要全面梳理智能体定义的演变史,恐怕需要鸿篇巨制才能完成,不过可以肯定的是,学术界从未形成过统一定义。学术文献中记载的智能体类型就包含:
当年在各类 AI 会议上,"如何准确定义智能体"曾是学者们最热衷的晚宴话题。
到如今,该领域已经涌现出大量关于智能体的定义,这并不令人意外。我们现在拥有了一套强大的新工具来构建智能体,大家的兴奋程度可想而知。然而,我认为当前的这些智能体定义中存在着诸多错误,要么过于复杂,要么严重偏离了核心要义。
存在多种不同定义的问题在于,它们可能模糊了构建智能体系统所面临的底层挑战(进而延伸至构建多智能体系统这一更为艰巨的挑战!)。
基于前文提到的那些智能体现代定义(这些是我见过的当代最佳智能体定义)(译者注:应当指的是 OpenAI、IBM 等对智能体的定义),系统梳理这些定义中反复出现的共性要素:
“智能体是配备指引行为的指令、能访问可以扩展能力的工具的模型,并封装在具有动态生命周期的运行时环境中。”(需要指令吗?必须是模型吗?模型的本质含义究竟是什么?)
“能够自主学习、适应并执行操作以实现既定目标的应用程序。”(学习能力是关键吗?必须被指定目标吗?由谁指定?)
“能在现实世界中执行并完成长期的、开放式任务的人工智能系统。”(任务必须长期运行吗?必须完成吗?)
“智能体 = 大语言模型 + 记忆能力 + 规划能力 + 工具 + While 循环。”(需要记忆能力吗?必须有大语言模型吗?规划能力是必需的吗?用 FOR 循环后优雅退出不行吗?)
“一个值得信赖的系统,能代表用户做出有影响力的决定”(必须代表用户吗?代表它自己可以吗?人类算智能体吗?)
“应用程序的智能体化程度越高,其程序执行逻辑的走向就越由大语言模型决定。”(必须是大语言模型吗?智能体属性是从"完全脚本化"到"完全自主"的连续过渡,还是要么是智能体,要么不是的二元状态?)
“执行非简单、多步骤操作(这些操作以往需要人类完成)的人工智能系统组件。”(必须是非简单任务吗?人类原本就无法完成的任务呢?杀毒软件算智能体吗?)
撰写这些内容的重点并非要否定这些定义。智能体的概念确实难以界定,而所有定义提出者都在进行有价值的尝试。
实际上,我甚至可以说:我热爱这些智能体定义中的每一个,因为它们从不同角度捕捉了智能体的关键特征,又融入了当前技术浪潮的时代精神。
过去往往将智能体的定义简化,因为在当时难以想象软件系统能像今天用大语言模型构建的这般强大。现代定义某种程度上陷入了相反的问题 —— 它们默认必须使用 LLM 这样复杂的系统才能构建智能体。
不太可能有一个定义能满足所有人的需求,但我认为,基于一个相对稳健的核心定义,然后再进行扩展,这是很有帮助的。
现在的智能体定义包含很多核心要素,但大多数都至少遗漏了过去的智能体定义中反复出现的一个关键点(即强调智能体与其所在环境的不可分割性)。 现在的智能体定义还(非常自然但并非必要地)将 LLM(大语言模型)作为核心要素。实际上构建智能体并不需要像 LLM 这样强大的技术。
这个定义并非我的原创,它本质上是对过去智能体定义的整合以及当下智能体定义的补充,但可以说这是最接近本质的阐述:
Agent(智能体)是:
具备自主性(autonomy)和行为能力,能在所处环境中实现一个或多个目标的系统。
它可以是软件系统(软件智能体),也可以是人工智能系统(AI 智能体),还可以是生物智能体(比如刚咬断你家电线的老鼠)。
分解一下这个定义的关键要素:
除了核心定义外,可能还需要补充一些附加条件:
尽管如此,即使补充上述条件,当前的智能体定义仍缺失不少东西:大语言模型、While 循环、模型、规划、外部指令、学习能力、记忆等。这些要素对某些类型的智能体确实有价值,但很难论证它们是智能体概念的核心。
要理解这一点,我们不妨思考一下多智能体系统的构成 —— 这正是下文要探讨的内容。
在结束智能体定义的讨论之前,让我们回到“自主性”这个最棘手的概念上来。系统具备自主行动能力究竟意味着什么?是否意味着无需人类指令?是否意味着无需人类触发?甚至无需其他智能体的触发?
这是一个深奥的哲学问题,与“意识是什么?”有异曲同工之妙:
虽然难以达成共识,但有一个实用的工程学定义:只要系统具备内部逻辑来决定是否响应外部请求,就允许来自人类、其他智能体或环境的外部触发。这可以是对相关操作成功几率的复杂评估,也可以是执行相关操作前简单的安全检查或身份验证。
同样重要的是,触发器通常不会导致立即采取行动。例如:安全扫描系统可能长期被动收集信息,直到侦测到入侵企图才突然启动,阻止攻击行为。Unix 系统的守护进程早在"智能体"概念流行前就已践行这一理念。
至此,我们是否得到了第 15 个智能体的定义?
XKCD Standards[10]
太好了,现在我们有了新的“智能体”定义。毫无疑问,未来会出现更多新定义,最终哪种胜出并不重要,但思考“智能体的定义对智能体系统的实际影响”确实很有价值。
我之所以更喜欢上一节中的简单定义,是因为它能帮助我们聚焦智能体系统的几个关键特性:
用智能体还是不用智能体,这是一个问题…
一个看起来很简单的话题,却写成了一篇这么长的博文,你可能会觉得要彻底远离智能体系统才是上策,这也情有可原。又或许是因为"智能体热"的炒作实在令人应接不暇。
这两种想法都可以理解,但你可能无法逃避。一旦你开始构建能在某个环境中“行动”的人工智能系统,你就已经踏上了构建智能体的征途。当你走上这条道路,特别是如果你还添加了一点自主性(长期运行进程、触发规则等),你的系统就值得被视为一个智能体。
通过审视智能体的系统设计,你可以开始明确环境是什么、有哪些可用的动作/工具、如何设计决策机制等。这些思考通常都会帮你实现更优秀的系统设计。
About the author
Steven Willmott
Leading product and engineering at http://SafeIntelligence.AI. Writes at https://steampunkai.com. Also @[email protected] (mastodon) and njyx.eth.
END
本期互动内容
❓你认为智能体的核心要素是什么?自主性、目标导向、环境交互——如果必须舍弃一个,你会选哪个?为什么?
文中链接
[1]https://www.youtube.com/watch?v=kHPXbo2OkzA&ref=steampunkai.com
[2]https://techcrunch.com/2025/03/14/no-one-knows-what-the-hell-an-ai-agent-is/?guccounter=1&guce_referrer=aHR0cHM6Ly93d3cuZ29vZ2xlLmNvbS8&guce_referrer_sig=AQAAANawXVc85pqGm4747r0gZ695ufjLDpKArFcOdPBrDnoGshuiddCe5UF-MrwbXhk1S6Q2Kv6KPLieGvW5rHixqzZ3ZQRxmUbE103bN5_eKY-BOCVcXGa92OGWX6lY5xsR10GYBWKhj09rw6qdyxaQ7v5FsuFyMR24WMbc1dZmc1vH&ref=steampunkai.com
[3]https://www.steampunkai.com/dispatch-from-the-ai-engineer-summit-day-1-small-errors-self-replication-and-context-2/
[4]https://www.ibm.com/think/topics/ai-agents?ref=steampunkai.com
[5]https://x.com/simonw?ref=steampunkai.com
[6]https://x.com/swyx?ref=steampunkai.com
[7]https://en.wikipedia.org/wiki/International_Conference_on_Autonomous_Agents_and_Multiagent_Systems?ref=steampunkai.com
[8]https://en.wikipedia.org/wiki/Knowledge_Query_and_Manipulation_Language?ref=steampunkai.com
[9]http://www.fipa.org/repository/aclspecs.html?ref=steampunkai.com
[10]https://xkcd.com/927/?ref=steampunkai.com
[11]https://www.theverge.com/news/629940/apple-siri-robby-walker-delayed-ai-features?ref=steampunkai.com
[12]http://exa.ai/?ref=steampunkai.com
[13]http://browserbase.com/?ref=steampunkai.com
本文经原作者授权,由 Baihai IDP 编译。如需转载译文,请联系获取授权。
原文链接:
https://www.steampunkai.com/ai-fundamentals-agent-definitions/