项目简介:

Browser-Use MCP 服务器是一个实现了 Model Context Protocol (MCP) 的后端服务。它封装了浏览器自动化库，允许大型语言模型 (LLM) 客户端通过标准化的 MCP 协议，指示服务器执行网页导航和交互任务。

主要功能点:

浏览器自动化工具: 提供一个名为 'instruct-browser' 的 MCP 工具。
智能交互: 该工具接收一个目标 URL 和一段自然语言指令作为参数。
远程执行: 服务器接收请求后，启动一个无头浏览器实例，并利用内置的大模型（如 Google Gemini）和浏览器自动化库，按照指令在指定网页上执行操作（如填写表单、点击链接、提取信息等）。
结果返回: 操作完成后，服务器将浏览器交互过程的总结或最终结果返回给 MCP 客户端。
标准协议: 通过 Stdio 等标准输入输出通道与 MCP 客户端通信。

安装步骤:

克隆仓库: 首先，你需要克隆该 GitHub 仓库到你的本地环境。
使用 Docker (推荐):
- 确保你的系统安装了 Docker。
- 在仓库的根目录打开终端。
- 执行以下命令构建 Docker 镜像：
```
docker build -t mcp/browser-use .
```
- 构建成功后，镜像 'mcp/browser-use' 就准备好了。

服务器配置 (供MCP客户端参考):

MCP 服务器通常由 MCP 客户端启动并连接。作为 MCP 客户端的使用者，你需要配置客户端来识别并启动 'browser-use' 服务器。这个配置过程取决于你使用的具体 MCP 客户端软件。

一般来说，客户端需要知道服务器的名称、启动命令 ('command') 及其参数 ('args')。对于此项目，使用 Docker 镜像的方式运行是一个标准的启动方法。

例如，如果你的 MCP 客户端支持 JSON 格式的服务器配置，你可能需要填写类似以下信息来配置 'browser-use' 服务器：

服务器名称: 'browser-use' (这是服务器在其能力声明中使用的名称)
启动命令 (command): 'docker' (用于运行 Docker 容器的命令)
启动参数 (args): '["run", "-i", "--rm", "-e", "GOOGLE_API_KEY=...", "groos12/browser-use-mcp"]' (这是一个参数列表，用于告诉 Docker 如何运行容器。其中 '-i' 保持标准输入打开，'--rm' 在停止时自动移除容器，'-e GOOGLE_API_KEY=...' 用于设置 Google API Key 环境变量，请将 '...' 替换为你自己的 Google API Key，这是服务器运行所必需的。'groos12/browser-use-mcp' 是要运行的 Docker 镜像名称)。

请查阅你的 MCP 客户端文档，了解如何在其中正确配置外部 MCP 服务器的启动命令和参数。

基本使用方法:

一旦你的 MCP 客户端配置并成功连接到 Browser-Use MCP 服务器，你的 LLM 就可以通过调用服务器提供的 'instruct-browser' 工具来使用其功能。LLM 会向服务器发送一个 JSON-RPC 请求，包含工具名称 ('instruct-browser') 和参数。

参数示例：

'url': "https://www.example.com" (要访问的网页地址)
'instructions': "找到页面上的搜索框，输入 'Model Context Protocol' 并点击搜索按钮" (告诉服务器在页面上执行的操作)

服务器接收到请求后，会执行相应的浏览器操作，并将最终的文字结果（例如，搜索结果的摘要）通过 JSON-RPC 响应返回给客户端的 LLM。LLM 就可以利用这个结果来继续对话或完成任务。

关键词