项目简介
Browser-Use 是一个强大的Python库,旨在赋能AI模型直接控制浏览器执行复杂任务。它通过实现Model Context Protocol (MCP) 标准,使LLM客户端能够以标准化的方式调用其提供的浏览器自动化工具。Browser-Use 不仅可以作为MCP客户端调用其他MCP服务,更可以作为独立的MCP服务器,将浏览器控制能力开放给兼容的LLM应用(如Claude Desktop)。其核心功能包括网页导航、元素交互、数据提取、文件下载上传,以及多标签页管理。
主要功能点
- AI驱动的浏览器自动化: 允许LLM像人类一样浏览和互动网页,执行复杂的端到端任务。
- MCP服务器功能: 作为MCP服务器,通过JSON-RPC协议向LLM客户端提供浏览器控制工具,如网页导航、点击元素、输入文本等。
- 丰富的浏览器交互工具: 支持网页导航、点击页面元素、在输入框中输入文本、滚动页面、管理多标签页、处理文件上传和下载等。
- 跨平台支持: 兼容多种操作系统,可与Chrome/Chromium等浏览器协同工作。
- 多种LLM集成: 内置支持OpenAI、Google Gemini、Anthropic Claude等主流大型语言模型。
- 会话管理与状态同步: 维护浏览器会话状态,并向LLM客户端同步实时的网页内容、可交互元素信息和截图。
安装步骤
- 确保Python环境: 您需要Python 3.11 或更高版本。
- 安装Browser-Use: 使用pip安装库。
pip install browser-use - 安装Chromium (可选): 如果您的系统尚未安装Chrome或Chromium浏览器,可以使用Playwright的安装快捷方式下载并配置最新版Chromium。
uvx playwright install chromium --with-deps --no-shell
服务器配置
要将 Browser-Use 配置为 MCP 服务器以供 MCP 客户端(如 Claude Desktop)使用,您需要在 MCP 客户端的配置文件中添加以下 JSON 配置。这个配置告诉客户端如何启动 Browser-Use 服务器并与之通信。
{ "mcpServers": { "browser-use": { "command": "uvx", "args": ["browser-use[cli]", "--mcp"], "env": { "OPENAI_API_KEY": "您的OpenAI API Key" }, "description": "Browser-Use MCP服务器,提供浏览器自动化工具" } } }
- 'mcpServers.browser-use': 定义一个名为 'browser-use' 的 MCP 服务器实例。
- 'command': 指定用于启动服务器的可执行命令,这里是 'uvx' (一个Python包管理器,用于运行CLI命令)。
- 'args': 传递给 'command' 的参数列表。'browser-use[cli]' 是指 Browser-Use 的命令行接口,'--mcp' 标志告诉它以 MCP 服务器模式运行。
- 'env': 设置服务器进程所需的环境变量。例如,'OPENAI_API_KEY' 是LLM模型可能需要的认证密钥。
- 'description': 对该MCP服务器的简要描述。
基本使用方法
一旦 MCP 服务器配置完成并启动,您的 MCP 客户端即可通过 JSON-RPC 协议与其通信,调用 Browser-Use 提供的浏览器自动化工具。例如,客户端可以请求服务器执行以下操作:
- 'browser_navigate': 导航到指定URL。
- 'browser_get_state': 获取当前页面状态,包括标题、URL和可交互元素。
- 'browser_click': 点击页面上的特定元素。
- 'browser_type': 在输入框中输入文本。
这些工具都将通过标准化的 MCP 协议接口暴露给 LLM 客户端,允许 LLM 构建复杂的浏览器操作工作流。
信息
分类
网页与API