使用说明
项目简介
Rod MCP Server 基于 Rod 浏览器自动化库,通过 Model Context Protocol (MCP) 协议,为大型语言模型 (LLM) 提供与网页交互的能力。它作为一个 MCP 服务器,托管了一系列用于浏览器操作的工具,使得 LLM 客户端可以通过标准化的 MCP 接口调用这些工具,从而实现网页浏览、信息抓取、人机交互等功能。
主要功能点
- 浏览器自动化工具: 提供丰富的浏览器自动化工具,例如:
- 页面导航: 访问指定 URL。
- 页面操作: 后退、前进、刷新页面。
- 元素交互: 点击页面元素、填写输入框、选择下拉框选项。
- 数据获取: 执行 JavaScript 代码、截取网页截图、生成 PDF 文件。
- 浏览器管理: 关闭浏览器。
- MCP 协议支持: 遵循 MCP 协议标准,通过 Stdio 进行通信,易于与各种 MCP 客户端集成。
- 可配置的浏览器环境: 支持配置是否以 Headless 模式运行浏览器,以及设置代理、用户数据目录等。
安装步骤
- 安装 Go 环境: 确保您的机器上已安装 Go 语言环境。
- 下载仓库: 使用 Git 克隆 'rod-mcp' 仓库到本地:
git clone https://github.com/go-rod/rod-mcp.git cd rod-mcp - 构建服务器: 在仓库目录下,使用 'go build' 命令编译服务器程序:
这将在当前目录生成可执行文件 'rod-mcp-server' (或 'rod-mcp-server.exe' on Windows)。go build -o rod-mcp-server
服务器配置
MCP 客户端需要配置以下 JSON 格式的信息来连接 Rod MCP Server。请根据实际情况修改 'command' 和 'args' 字段。
{ "serverName": "Rod MCP Server", "command": "./rod-mcp-server", "args": [] }
- 'serverName': MCP 服务器的名称,这里设置为 "Rod MCP Server"。
- 'command': 启动 Rod MCP Server 的命令。
- './rod-mcp-server': 假设您在构建步骤中将可执行文件命名为 'rod-mcp-server' 并且位于当前目录。请根据实际情况修改路径。
- 'args': 启动服务器时需要传递的命令行参数,以数组形式提供。
- 当前配置为空数组 '[]',表示不传递任何参数。
- 您可以根据需要添加参数,例如:
- '--headless': 以 Headless 模式运行浏览器 (不显示浏览器窗口)。
- '--config <config_path>': 指定配置文件路径,例如 '--config rod-mcp.yaml'。
基本使用方法
- 启动服务器: 在终端中运行编译生成的可执行文件 'rod-mcp-server'。服务器将通过 Stdio 监听 MCP 客户端的请求。
- 配置 MCP 客户端: 在您的 MCP 客户端中,配置连接到 Rod MCP Server,并指定上述服务器配置信息。
- 调用工具: 通过 MCP 客户端,您可以调用 Rod MCP Server 提供的各种工具,例如 'rod_navigate' (导航到 URL), 'rod_click' (点击元素), 'rod_screenshot' (截图) 等,来实现网页自动化操作。 具体工具的使用方法请参考工具的描述信息。
信息
分类
网页与API