项目简介:

Browser-Use MCP 服务器是一个实现了 Model Context Protocol (MCP) 的后端服务。它封装了浏览器自动化库,允许大型语言模型 (LLM) 客户端通过标准化的 MCP 协议,指示服务器执行网页导航和交互任务。

主要功能点:

  • 浏览器自动化工具: 提供一个名为 'instruct-browser' 的 MCP 工具。
  • 智能交互: 该工具接收一个目标 URL 和一段自然语言指令作为参数。
  • 远程执行: 服务器接收请求后,启动一个无头浏览器实例,并利用内置的大模型(如 Google Gemini)和浏览器自动化库,按照指令在指定网页上执行操作(如填写表单、点击链接、提取信息等)。
  • 结果返回: 操作完成后,服务器将浏览器交互过程的总结或最终结果返回给 MCP 客户端。
  • 标准协议: 通过 Stdio 等标准输入输出通道与 MCP 客户端通信。

安装步骤:

  1. 克隆仓库: 首先,你需要克隆该 GitHub 仓库到你的本地环境。
  2. 使用 Docker (推荐):
    • 确保你的系统安装了 Docker。
    • 在仓库的根目录打开终端。
    • 执行以下命令构建 Docker 镜像:
      docker build -t mcp/browser-use .
    • 构建成功后,镜像 'mcp/browser-use' 就准备好了。

服务器配置 (供MCP客户端参考):

MCP 服务器通常由 MCP 客户端启动并连接。作为 MCP 客户端的使用者,你需要配置客户端来识别并启动 'browser-use' 服务器。这个配置过程取决于你使用的具体 MCP 客户端软件。

一般来说,客户端需要知道服务器的名称、启动命令 ('command') 及其参数 ('args')。对于此项目,使用 Docker 镜像的方式运行是一个标准的启动方法。

例如,如果你的 MCP 客户端支持 JSON 格式的服务器配置,你可能需要填写类似以下信息来配置 'browser-use' 服务器:

  • 服务器名称: 'browser-use' (这是服务器在其能力声明中使用的名称)
  • 启动命令 (command): 'docker' (用于运行 Docker 容器的命令)
  • 启动参数 (args): '["run", "-i", "--rm", "-e", "GOOGLE_API_KEY=...", "groos12/browser-use-mcp"]' (这是一个参数列表,用于告诉 Docker 如何运行容器。其中 '-i' 保持标准输入打开,'--rm' 在停止时自动移除容器,'-e GOOGLE_API_KEY=...' 用于设置 Google API Key 环境变量,请将 '...' 替换为你自己的 Google API Key,这是服务器运行所必需的。'groos12/browser-use-mcp' 是要运行的 Docker 镜像名称)。

请查阅你的 MCP 客户端文档,了解如何在其中正确配置外部 MCP 服务器的启动命令和参数。

基本使用方法:

一旦你的 MCP 客户端配置并成功连接到 Browser-Use MCP 服务器,你的 LLM 就可以通过调用服务器提供的 'instruct-browser' 工具来使用其功能。LLM 会向服务器发送一个 JSON-RPC 请求,包含工具名称 ('instruct-browser') 和参数。

参数示例:

  • 'url': "https://www.example.com" (要访问的网页地址)
  • 'instructions': "找到页面上的搜索框,输入 'Model Context Protocol' 并点击搜索按钮" (告诉服务器在页面上执行的操作)

服务器接收到请求后,会执行相应的浏览器操作,并将最终的文字结果(例如,搜索结果的摘要)通过 JSON-RPC 响应返回给客户端的 LLM。LLM 就可以利用这个结果来继续对话或完成任务。

信息

分类

AI与计算