❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!
AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花
「网页操作告别重复劳动!AI智能浏览器实现全自动抓取,效率提升300%」
大家好,我是蚝油菜花。你是否也经历过这些崩溃时刻——
今天要揭秘的 Browser Use ,正在用AI重新定义浏览器自动化!这个支持GPT-4/Claude的神器,能让你:
已经有金融公司用它自动抓取财报数据,跨境电商团队靠它批量上架商品——你的浏览器即将获得「钢铁侠的贾维斯」同款智能!
Browser Use 是一款专为大语言模型(LLM)设计的智能浏览器工具,旨在让 AI 代理能够像人类一样自然地浏览和操作网页。它支持多标签页管理、视觉识别、内容提取,并能记录和重复执行特定动作。
Browser Use 还支持开发者自定义动作,如保存文件、推送到数据库等。它兼容多种主流的大型语言模型,如 GPT-4 和 Claude,并能并行运行多个 AI 代理,具备自我修正功能,从而提高任务执行的准确性和效率。
Browser-use 是一个强大的工具,允许用户通过 AI 代理控制浏览器,实现自动化任务。以下将详细介绍如何安装、配置和运行 Browser-use,同时提供一个简单的代码示例帮助你快速上手。
Browser-use 需要 Python 3.11 或更高版本。首先,通过 pip 安装该工具:
pip install browser-use
接下来,安装 Playwright,这是 Browser-use 的依赖项:
playwright install
以下是一个简单的代码示例,展示如何使用 Browser-use 来比较两个模型的价格:
from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio
from dotenv import load_dotenv
load_dotenv()
async def main():
# 初始化代理,指定任务和使用的语言模型
agent = Agent(
task="比较 gpt-4o 和 DeepSeek-V3 的价格",
llm=ChatOpenAI(model="gpt-4o"),
)
# 运行代理
await agent.run()
# 执行异步任务
asyncio.run(main())
在运行代码之前,确保在 .env
文件中添加所需的 API 密钥。例如,如果使用 OpenAI 的模型,添加以下内容:
OPENAI_API_KEY=your_openai_api_key_here
更多配置和选项,请参考Browser-use 的项目文档
。
除了代码方式,Browser-use 还支持通过 Gradio WebUI 进行测试。以下是运行 Gradio 示例的步骤:
首先,通过 uv
安装 Gradio:
uv pip install gradio
运行以下命令启动 Gradio 示例:
python examples/ui/gradio_demo.py
启动后,你可以在本地浏览器中访问 Gradio 提供的界面,进行交互式测试 Browser-use。
Browser-use 提供了多种实际应用场景的示例代码,以下是一些常见任务的演示:
通过以下代码,AI 代理可以自动将商品添加到购物车并完成结账:
Task: Add grocery items to cart, and checkout.
示例代码:https://github.com/browser-use/browser-use/blob/main/examples/use-cases/shopping.py
以下任务展示了如何将最新的 LinkedIn 粉丝添加到 Salesforce 的潜在客户列表中:
Prompt: Add my latest LinkedIn follower to my leads in Salesforce.
通过读取简历并搜索相关职位,AI 代理可以自动完成职位申请任务:
Prompt: Read my CV & find ML jobs, save them to a file, and then start applying for them in new tabs, if you need help, ask me.’
示例代码:https://github.com/browser-use/browser-use/blob/main/examples/use-cases/find_and_apply_to_jobs.py
以下任务展示了如何在Google Docs中写一封信,并将其保存为PDF文档:
Prompt: Write a letter in Google Docs to my Papa, thanking him for everything, and save the document as a PDF.
Browser-use 的目标是让用户能够通过简单的指令完成复杂的浏览器任务。以下是其未来发展的主要方向:
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!
AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花