项目简介

Browser-Use 是一个强大的Python库,旨在赋能AI模型直接控制浏览器执行复杂任务。它通过实现Model Context Protocol (MCP) 标准,使LLM客户端能够以标准化的方式调用其提供的浏览器自动化工具。Browser-Use 不仅可以作为MCP客户端调用其他MCP服务,更可以作为独立的MCP服务器,将浏览器控制能力开放给兼容的LLM应用(如Claude Desktop)。其核心功能包括网页导航、元素交互、数据提取、文件下载上传,以及多标签页管理。

主要功能点

  • AI驱动的浏览器自动化: 允许LLM像人类一样浏览和互动网页,执行复杂的端到端任务。
  • MCP服务器功能: 作为MCP服务器,通过JSON-RPC协议向LLM客户端提供浏览器控制工具,如网页导航、点击元素、输入文本等。
  • 丰富的浏览器交互工具: 支持网页导航、点击页面元素、在输入框中输入文本、滚动页面、管理多标签页、处理文件上传和下载等。
  • 跨平台支持: 兼容多种操作系统,可与Chrome/Chromium等浏览器协同工作。
  • 多种LLM集成: 内置支持OpenAI、Google Gemini、Anthropic Claude等主流大型语言模型。
  • 会话管理与状态同步: 维护浏览器会话状态,并向LLM客户端同步实时的网页内容、可交互元素信息和截图。

安装步骤

  1. 确保Python环境: 您需要Python 3.11 或更高版本。
  2. 安装Browser-Use: 使用pip安装库。
    pip install browser-use
  3. 安装Chromium (可选): 如果您的系统尚未安装Chrome或Chromium浏览器,可以使用Playwright的安装快捷方式下载并配置最新版Chromium。
    uvx playwright install chromium --with-deps --no-shell

服务器配置

要将 Browser-Use 配置为 MCP 服务器以供 MCP 客户端(如 Claude Desktop)使用,您需要在 MCP 客户端的配置文件中添加以下 JSON 配置。这个配置告诉客户端如何启动 Browser-Use 服务器并与之通信。

{
  "mcpServers": {
    "browser-use": {
      "command": "uvx",
      "args": ["browser-use[cli]", "--mcp"],
      "env": {
        "OPENAI_API_KEY": "您的OpenAI API Key"
      },
      "description": "Browser-Use MCP服务器,提供浏览器自动化工具"
    }
  }
}
  • 'mcpServers.browser-use': 定义一个名为 'browser-use' 的 MCP 服务器实例。
  • 'command': 指定用于启动服务器的可执行命令,这里是 'uvx' (一个Python包管理器,用于运行CLI命令)。
  • 'args': 传递给 'command' 的参数列表。'browser-use[cli]' 是指 Browser-Use 的命令行接口,'--mcp' 标志告诉它以 MCP 服务器模式运行。
  • 'env': 设置服务器进程所需的环境变量。例如,'OPENAI_API_KEY' 是LLM模型可能需要的认证密钥。
  • 'description': 对该MCP服务器的简要描述。

基本使用方法

一旦 MCP 服务器配置完成并启动,您的 MCP 客户端即可通过 JSON-RPC 协议与其通信,调用 Browser-Use 提供的浏览器自动化工具。例如,客户端可以请求服务器执行以下操作:

  • 'browser_navigate': 导航到指定URL。
  • 'browser_get_state': 获取当前页面状态,包括标题、URL和可交互元素。
  • 'browser_click': 点击页面上的特定元素。
  • 'browser_type': 在输入框中输入文本。

这些工具都将通过标准化的 MCP 协议接口暴露给 LLM 客户端,允许 LLM 构建复杂的浏览器操作工作流。

信息

分类

网页与API