Manus 的技术并没有多么高大上,技术原理主要基于其创新的“多代理架构”(Multiple Agent Architecture),这一架构通过将复杂任务分解为规划、执行和验证三个阶段,并由多个独立的 AI 代理协同完成,从而实现高效、可靠的任务处理。
规划模块:负责任务的初始设计和策略制定。
执行模块:负责任务的具体实施。
验证模块:负责对执行结果进行检查和优化。
独立自主能力:Manus 能够在云端独立完成任务,无需人工持续干预。它具备强大的工具调用能力,可以在虚拟环境中自主调用代码编写、智能浏览网页、操作各类应用等工具,直接交付完整的任务成果。
学习与优化能力:Manus 能够记住用户的偏好,持续优化与学习能力。它通过历史数据和经验优化任务执行策略,从而提高任务处理的效率和准确性。
少结构、多智能的设计哲学:Manus 强调“少结构,多智能”的设计理念,即在数据质量高、模型能力强的情况下,通过灵活的架构设计和强大的 AI 代理协作,自然涌现 AI 的能力。
应用场景:Manus 适用于多种场景,包括教育、金融、旅行规划、数据分析和编程等。它能够处理耗时的任务,并提供类似人类同事的协作体验。
技术实现:尽管官方未详细披露具体的技术细节,但业界分析认为 Manus 结合了 Claude 的基础能力与开源模型的后训练后的规划能力,并内置了多个智能体来完成任务。
Manus 的技术原理通过多代理架构和独立自主能力,实现了复杂任务的高效处理和交付。其设计理念强调灵活性和智能化,使其在 AI 领域具有显著的竞争力和应用潜力。开源的 Proxy Lite 使用 Playwright 库来模拟浏览器操作,让 AI 能够像人类一样浏览网页。设计思路跟 Manus 基本一致,这种独特的设计使得 Proxy Lite 能够处理复杂的网页任务,比如填写表单、点击按钮等。通过注入 JavaScript 代码,Proxy Lite 能够精准地提取网页上的关键元素,从而更高效地完成任务,在处理需要与网页交互的任务时表现得尤为出色。
Proxy Lite 是一个轻量级的视觉语言模型(VLM),仅有 3B 参数,却为开源社区带来了最先进的网络自动化能力。根据 WebVoyager 结果显示,它在网络自动化任务中表现出色,且资源占用非常低。此外,Proxy Lite 还提供了一个全面的 VLM - 浏览器交互框架,给予企业级浏览器控制能力。其响应通过观察、思考、工具调用三个独特的步骤完成,实现了比传统的提示 - 预测模型更好的泛化能力。借助类似 DeepSeek R1 的执行反馈,Proxy Lite 学会了观察和推理,使其能够在广泛的任务上取得进展。如果您对 Proxy Lite 感兴趣,可以通过以下链接深入了解。
安装 Proxy Lite 十分便捷。首先,通过 Git 克隆仓库:
git clone https://github.com/convergence-ai/proxy-lite.git
接着,可以使用make proxy命令来快速搭建环境。如果想手动配置,也不复杂:
pip install uv
uv venv --python 3.11 --python-preference managed
uv sync
uv pip install -e.
playwright install
安装完成后,使用方式丰富多样。若想了解具体的命令行参数,可以执行proxy --help查看。直接在任务中运行 Proxy Lite,只需在命令行输入任务指令,比如:
proxy "Find some markets near Kings Cross and tell me their ratings."
如果更喜欢可视化界面,运行make app就能启动本地 Web UI,操作更加直观方便。
个性化配置在 ,Python 中使用 Proxy Lite 时,Runner类和RunnerConfig类为我们提供了强大的定制能力。通过RunnerConfig可以灵活配置系统设置,下面是一个示例:
import asyncio
from proxy_lite import Runner, RunnerConfig
config = RunnerConfig.from_dict({"environment": {"name": "webbrowser","homepage": "https://www.google.com","headless": True,
},"solver": {"name": "simple","agent": {"name": "proxy_lite","client": {"name": "convergence","model_id": "convergence-ai/proxy-lite-3b","api_base": "https://convergence-ai-demo-api.hf.space/v1",},},},"max_steps": 50,"action_timeout": 1800,"environment_timeout": 1800,"task_timeout": 18000,"logger_level": "DEBUG",})
proxy = Runner(config=config)
result = asyncio.run(
proxy.run("Book a table for 2 at an Italian restaurant in Kings Cross tonight at 7pm."))
在这个示例中,我们配置了使用webbrowser环境,以谷歌为首页,并且设置了模型、超时时间等参数,轻松实现个性化定制。
Proxy Lite 的运行基于特定的消息格式。消息历史记录由系统提示、用户任务和环境观察等部分组成,具体如下:
message_history = [{"role": "system",
"content": "You are Proxy Lite...",
},
{"role": "user",
"content": "Find some markets near Kings Cross and tell me their ratings.",},
{"role": "user",
"content": [{"type": "image_url", "image_url": {base64_encoded_screenshot} },{"type": "text", "text": "URL: https://www.google.com/ \n- [0] About \n- [1] Store...."}]
},]
这种格式使得助手和用户之间的交互有序进行,模型根据这些信息规划行动。在调用模型时,为了减少图像令牌数量,除当前观察外的其他观察会被丢弃。但由于模型响应包含对观察的反思且都记录在消息历史中,所以模型在规划新行动时仍能知晓完整历史,保证了任务处理的连贯性。
模型通过可用的工具调用定义行动空间,比如ReturnValueTool和BrowserTool。使用transformers可以方便地处理工具调用:
from qwen_vl_utils import process_vision_info
from transformers import AutoProcessor
from proxy_lite.tools import ReturnValueTool, BrowserTool
from proxy_lite.serializer import OpenAICompatableSerializer
processor = AutoProcessor.from_pretrained("convergence-ai/proxy-lite-3b")
tools = OpenAICompatableSerializer().serialize_tools([ReturnValueTool(), BrowserTool(session=None)])
templated_messages = processor.apply_chat_template(
message_history, tokenize=False, add_generation_prompt=True, tools=tools
)
image_inputs, video_inputs = process_vision_info(message_history)
batch = processor(
text=[templated_messages],
images=image_inputs,
videos=video_inputs,
padding=True,
return_tensors="pt",)
如果使用 vLLM 服务器,设置–tool-call-parser hermes选项就能自动解析工具调用。
webbrowser环境借助playwright库实现网页导航。它会启动 Chromium 浏览器并导航到指定首页,模型通过BrowserTool类的默认工具调用在网页上进行点击、输入等操作。不过需要注意,虽然使用了playwright_stealth降低被反爬虫服务检测到的概率,但在使用无头模式时,仍可能被验证码或其他反爬虫措施阻挡,建议使用网络代理解决这个问题。
Proxy Lite 并非全能型助手,它主要作为自主完成任务的工具。在处理需要用户凭证或交互的任务时,比如实际购物,如果提示中未提供全部必要细节,它就会遇到困难。
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
保证100%免费
】