使用说明

项目简介

Rod MCP Server 基于 Rod 浏览器自动化库,通过 Model Context Protocol (MCP) 协议,为大型语言模型 (LLM) 提供与网页交互的能力。它作为一个 MCP 服务器,托管了一系列用于浏览器操作的工具,使得 LLM 客户端可以通过标准化的 MCP 接口调用这些工具,从而实现网页浏览、信息抓取、人机交互等功能。

主要功能点

  • 浏览器自动化工具: 提供丰富的浏览器自动化工具,例如:
    • 页面导航: 访问指定 URL。
    • 页面操作: 后退、前进、刷新页面。
    • 元素交互: 点击页面元素、填写输入框、选择下拉框选项。
    • 数据获取: 执行 JavaScript 代码、截取网页截图、生成 PDF 文件。
    • 浏览器管理: 关闭浏览器。
  • MCP 协议支持: 遵循 MCP 协议标准,通过 Stdio 进行通信,易于与各种 MCP 客户端集成。
  • 可配置的浏览器环境: 支持配置是否以 Headless 模式运行浏览器,以及设置代理、用户数据目录等。

安装步骤

  1. 安装 Go 环境: 确保您的机器上已安装 Go 语言环境。
  2. 下载仓库: 使用 Git 克隆 'rod-mcp' 仓库到本地:
    git clone https://github.com/go-rod/rod-mcp.git
    cd rod-mcp
  3. 构建服务器: 在仓库目录下,使用 'go build' 命令编译服务器程序:
    go build -o rod-mcp-server
    这将在当前目录生成可执行文件 'rod-mcp-server' (或 'rod-mcp-server.exe' on Windows)。

服务器配置

MCP 客户端需要配置以下 JSON 格式的信息来连接 Rod MCP Server。请根据实际情况修改 'command' 和 'args' 字段。

{
  "serverName": "Rod MCP Server",
  "command": "./rod-mcp-server",
  "args": []
}
  • 'serverName': MCP 服务器的名称,这里设置为 "Rod MCP Server"。
  • 'command': 启动 Rod MCP Server 的命令。
    • './rod-mcp-server': 假设您在构建步骤中将可执行文件命名为 'rod-mcp-server' 并且位于当前目录。请根据实际情况修改路径。
  • 'args': 启动服务器时需要传递的命令行参数,以数组形式提供。
    • 当前配置为空数组 '[]',表示不传递任何参数。
    • 您可以根据需要添加参数,例如:
      • '--headless': 以 Headless 模式运行浏览器 (不显示浏览器窗口)。
      • '--config <config_path>': 指定配置文件路径,例如 '--config rod-mcp.yaml'。

基本使用方法

  1. 启动服务器: 在终端中运行编译生成的可执行文件 'rod-mcp-server'。服务器将通过 Stdio 监听 MCP 客户端的请求。
  2. 配置 MCP 客户端: 在您的 MCP 客户端中,配置连接到 Rod MCP Server,并指定上述服务器配置信息。
  3. 调用工具: 通过 MCP 客户端,您可以调用 Rod MCP Server 提供的各种工具,例如 'rod_navigate' (导航到 URL), 'rod_click' (点击元素), 'rod_screenshot' (截图) 等,来实现网页自动化操作。 具体工具的使用方法请参考工具的描述信息。

信息

分类

网页与API