好用的小而美的AI Agent

    • 一. 2025年第一季度关键进展
      • 1月:OpenAI推出Operator
      • 2月:OpenAI推出Deep Research
      • 3月:中国Manus爆火
    • 二. 编码Agent:提升开发效率
    • 三. 小而美Agent分类
      • 1. 通用Agent
      • 2. 垂直Agent
      • 3. 计算机使用智能体 CUA
      • 4. 可交互的Agent
    • 四. 构建AI Agent的平台
      • 量身定制AI Agent步骤
    • 五. 技术细节:训练方法

一. 2025年第一季度关键进展

1月:OpenAI推出Operator

OpenAI于2025年1月23日发布了Operator (OpenAI Operator),这是一个能够通过专用浏览器执行网络任务的AI Agent。它支持订票、购物、创建迷因等功能,结合了GPT-4o的视觉能力和高级推理模型(CUA,Computer-Using Agent)。然而,作为研究预览版,Operator在复杂界面(如幻灯片或日历管理)上表现不佳,速度较慢,准确性有待提升。用户反馈表明,其在简单任务上表现良好,但在复杂场景中常需人工干预。

2月:OpenAI推出Deep Research

2月3日,OpenAI推出了Deep Research (OpenAI Deep Research),专为深入研究设计,面向ChatGPT Pro用户。它能在5至30分钟内自主搜索网络、分析数据并生成带引用的报告,适用于金融、科学、政策和工程等领域。在Humanity’s Last Exam(HLE)基准测试中得分26.6%,优于许多模型,但仍无法完全取代人类专家,需进一步优化。

3月:中国Manus爆火

3月6日,中国初创公司Butterfly Effect推出了号称全球首个通用AI Agent的Manus (Manus AI)。Manus以其自主处理复杂任务的能力迅速走红,例如创建网站、分析股票、规划旅行等。它采用多模型架构,结合Anthropic的Claude 3.5 Sonnet和阿里巴巴开源Qwen模型,在GAIA基准测试中达到最先进水平,被誉为“中国AI的第二次DeepSeek时刻”。

二. 编码Agent:提升开发效率

编码领域的AI Agent显著提高了开发效率,以下是主要工具概览:

编码Agent 描述 关键特性
GitHub Copilot AI驱动的代码补全工具 多语言支持,主流IDE集成
Cursor 基于VS Code的AI增强代码编辑器 代码生成、智能重写、隐私模式
Windsurf AI原生IDE,前身为Codeium 智能补全、错误修复、终端命令执行
Fitten Code 多语言AI编程助手 代码补全、单元测试生成、代码优化
Roo Code 集成于VS Code的AI编码Agent 自然语言生成代码、自动化测试

这些工具通过自动化重复性任务和提供上下文感知的建议,显著提高了开发效率。Cursor和Windsurf因其Agentic功能被认为有望发展为通用Agent。

三. 小而美Agent分类

1. 通用Agent

通用Agent如Manus和Deep Research在广度和深度上展现了优势,适用于办公和研究场景:

  • Manus:由Butterfly Effect开发,适用于办公场景,能自主完成行程规划、数据分析等任务。其多Agent系统将复杂任务分解为子任务,高效执行。
  • Deep Research:OpenAI的Deep Research专注于深度研究,生成结构化报告,适合学术研究或市场分析。

2. 垂直Agent

行业特定Agent针对特定行业优化,提供高效解决方案:

Agent 行业 描述 关键特性
Vantel 商业保险 为保险经纪人设计的AI软件 自动化政策分析、合同审查,每周节省15小时
FinGPT 金融 开源金融大型语言模型 支持金融数据分析、预测,采用RLHF技术
Sweetspot 政府合同投标 AI驱动的合同搜索和投标平台 智能搜索、提案生成,简化投标流程
Gamma 设计 AI驱动的演示工具 快速生成专业幻灯片,支持数据可视化

这些Agent通过行业特定的优化,显著提高了专业领域的效率。例如,Vantel帮助保险经纪人快速比较政策,Sweetspot则简化了政府合同的复杂流程。

3. 计算机使用智能体 CUA

算机使用智能体(Computer Use Agents,CUA),通过模拟人类操作(如点击、输入、滚动)与计算机界面交互,执行任务。结合了多模态能力(视觉和文本处理)以及自主决策,适用于网络浏览、数据提取和自动化任务。

  • Operator:OpenAI的Operator通过专用浏览器执行任务,但因速度慢和准确性不足而受限,适合简单任务。
  • Scrapybara:提供虚拟桌面环境,支持AI Agent执行任务,适合生产级部署和复杂任务,适用于市场研究、医疗管理等场景。
特性 Scrapybara Operator
智能体类型 计算机使用智能体平台(支持 CUA) 计算机使用智能体(CUA)
核心功能 虚拟桌面、统一 API、多模型支持 浏览器任务、多模态交互
动作支持 鼠标移动、点击、拖拽、键盘输入、文件操作 鼠标点击、输入、滚动
优势 可扩展、支持多种模型、适合复杂任务 简单易用、集成 OpenAI 生态
局限性 需外部模型、配置复杂 速度慢、准确性低、地区限制
应用场景 市场研究、医疗、销售自动化 订票、购物、简单网络任务

4. 可交互的Agent

交互体验是AI Agent普及的关键,以下工具通过创新的交互方式提升了用户体验:

  • Replit:在线编码平台,其AI Agent能根据自然语言描述快速构建和部署应用,支持从原型设计到部署的全流程。
  • Fellou:全球首个人工智能Agentic浏览器,能自动化执行网络任务,如研究、内容生成和跨平台工作流管理。

四. 构建AI Agent的平台

以下平台为开发者提供了构建定制化Agent的工具:

平台 描述 关键特性
Second Me 开源AI身份系统 分层记忆模型,确保隐私和个性化
ModelScope(魔搭) 连接模型与世界的Agent框架 支持角色扮演、工具使用、计划
星火 科大讯飞的AI平台 支持语音和文本交互,适用于教育、办公
智谱 中国AI初创公司,推出AutoGLM 提供高效免费Agent,性能媲美DeepSeek的R1
Dify 一个开源的 LLMOps 平台 通过低代码界面、RAG 管道、多模型支持、Agent 能力和插件生态,简化生成式 AI 应用的开发、部署和优化
AutoGen Studio 微软,快速构建、测试和分享多智能体 AI 工作流 核心能力包括快速原型设计、增强智能体功能、构建协作工作流、交互式测试与调试以及部署和共享工作流

这些平台通过开源和模块化设计,降低了开发门槛,使开发者能够快速构建定制化Agent。

量身定制AI Agent步骤

  1. 大模型就是大脑:DPT4/通义千问/本地模型
  2. 可以给他配技能:需要用什么功能配置什么技能或api
  3. 角色定义:“AI+行业”。prompt+知识库
  4. 业务流程workflow

示例:数学推理Agent

目标:构建一个擅长数学推理的Agent。
实现:
    1.基础模型:Mistral-7B。
    2.工具集成:Python解释器(用于计算)、Wolfram Alpha(用于符号运算)。
    3.提示工程:“请一步步解决以下数学问题,并解释每一步。”
      微调数据集:GSM8K-CoT(包含数学问题和推理步骤)。
    4.推理流程:分解问题 → 生成CoT步骤 → 执行计算 → 验证答案。

五. 技术细节:训练方法

强化学习微调(RFT)和监督微调(SFT)是AI Agent训练的关键技术:

  • RFT:通过人类反馈优化性能,效果比SFT高约25%,但成本较高。
  • SFT:通过监督学习微调模型,成本较低,适合快速部署。

你可能感兴趣的:(人工智能,机器学习,python,visual,studio,code)