什么是智能体(Agent)?

目录

前言

一、大语言模型

1. 什么是大语言模型?

2. 应用领域

二、什么是Agent

三、Agent核心特点

1. 感知能力

2. 规划能力

3. 行动能力

4. 记忆能力

总结


前言

目前智能体市场正处于快速发展阶段,呈现出市场规模增长迅猛、应用领域广泛、竞争格局多元化等特点。基于此,让我们一起来学习一下何为智能体。


一、大语言模型

1. 什么是大语言模型?

大语言模型是一种采用大量数据进行训练的人工智能模型,主要用于理解和生成自然语言文本。

通常帮助我们完成一些相对简单的问题,比如改改邮件、问一些问题、聊聊天。但是对于需要多步骤执行,和外界有交互的任务时就有点无能为力。

2. 应用领域

  • 文本生成与对话:如聊天机器人和自动写作工具。
  • 机器翻译:实现多语言之间的高质量翻译。
  • 信息检索与问答:帮助用户从海量信息中找到答案。
  • 内容摘要:自动生成文章或文档的摘要。

二、什么是Agent

智能体Agent是一种可以能够感知环境的、能独立做出决策的、并能主动执行行动的人工智能系统。它是一类能够在一定的上下文语境或环境中感知、学习,并根据信息作出反应,完成特定的目标的数字智能助理。

核心:让AI真正实现自主完成任务,AI不仅去想怎么做,还要真的去做。

三、Agent核心特点

一个原本只能根据你输入的文字来预测下一个字,输出文字的大语言模型是靠什么在感知的?记忆又是怎么存储的?是怎么学会规划的?又要怎么样采取行动?

1. 感知能力

智能体通过各种传感器或数据输入渠道,收集并理解环境信息的能力。

  • 阶段1:文本感知:接收用户输入的文本信息;
  • 阶段2:间接多模态感知: 比如使用OCR将图片、pdf转成文本形式,再输入给大模型;
  • 阶段3:端到端视觉感知: GPT4的vision版本,开启了多模态模型的初阶状态。再输入图片就可以直接理解图片的颜色、布局等信息了,大模型就有了视觉感知能力;
  • 阶段4:端到端多模态感知: 最后发展到直接把图片、声音这样的多模态数据拿给大模型进行训练,然后大模型能够识别声音中的语气语调等信息,比如GPT-4o的模型。

2. 规划能力

智能体在面对复杂任务时,能够分解目标、设计行动序列并安排资源,以达到预期目标的能力。

  • CoT和ToT:让模型在给出最终答案之前先主动的去拆解问题,最后综合得出结论。
  • 工作流和多智能体架构:分多个模型,各个模型各司其职,协作来完成任务。
  • 专门推理模型:为了让大模型能真正的有自主规划的能力,让大模型内化的学会了在每一次回答问题之前都有一个自主的推理过程。比如openai发布的o1系列模型。
  • 模型即Agent:OpenAI推出的Deep Research模型。

思维链和思维树:

思维链(CoT)是一种通过分步推理展示思考过程,增强大模型在复杂任务中推理能力和可解释性的技术。 Chain-of-Thought Prompting (链式思考提示)是通过在提示中包含中间推理步骤的示例,引导大语言模型生成类似的思维链。 Self Consistency with Cot(自洽性协同训练),让 LLM 在解决复杂推理问题时,让他尝试多个推理路径,每个推理路径就是一次 CoT 的解决过程,每个可以得到一个答案,最终的答案就是其中出现次数最多的答案。

什么是智能体(Agent)?_第1张图片 

3. 行动能力

智能体将决策和计划转化为实际行为的能力。

  • 基础调用方式:API。通过做一些SFT(监督微调)让大模型学会如何去调用工具。 
  • 更复杂的行动:Anthropic发布的Computer use,训练大模型从视觉上就能看懂整个电脑屏幕,可以点击和操作电脑,直接学人类用电脑; Browser Use,用传统的网页自动化工具,比如说playwright间接的实现模型控制浏览器的能力。 
  • 标准化接口:简化每个工具都要单独去接入、开发的问题。 Anthropic推出的MCP(模型上下文协议)。

4. 记忆能力

智能体存储、整理和回顾过去经验、历史信息或环境状态的能力。

  • 短期记忆:取决于大模型的上下文长度;早期大模型上下文长度比较短,即导致短期记忆能力比较差。
  • 长期记忆:RAG检索增强技术,把大模型需要记住的东西事先存在一个外部的向量数据库里面,每一次需要的时候再去里面找相关的知识。
  • 即时记忆:Agent执行任务的过程中产生的一些东西也需要被记住,所以中途需要对前面发生的事情做一定的总结存起来,形成一个记忆模块。

总结

在人工智能(AI)领域,Agent(智能体/代理) 是一个核心概念。简单来说,它是一个能够感知其环境,并根据感知自主地采取行动以实现特定目标的计算实体或系统。

可以将其想象成一个自主的、目标导向的“虚拟机器人”或“软件助手”。

核心属性包括:

  • 自主性: 能在没有人类或其他系统直接、持续干预的情况下运行。它自己控制其内部状态和行为。
  • 感知能力: 能够通过传感器、输入数据、API 等方式从其环境中接收信息(感知)。
  • 行动能力: 能够通过执行器、输出、API 调用等方式对其环境产生影响(行动)。
  • 目标导向/反应性: 其行动是为了实现特定目标或对感知到的环境变化做出响应(反应)。
  • 理性(理想情况下): 在已知信息和能力范围内,总是选择那些最有助于实现其目标的行动(或期望效用最大的行动)。

Agent(智能体/代理)是一个能够在特定环境中自主感知信息、处理信息、做出决策并执行行动,以追求和实现其设定目标的软件或硬件实体。它是人工智能实现自主性和智能行为的基本单位。

理解 Agent 的关键在于把握其 “感知 -> 思考 -> 行动 -> 影响环境 -> 达成目标” 的核心循环及其自主性

你可能感兴趣的:(大模型相关,人工智能,Agent,大模型)