使用说明
项目简介
mcp-selenium 是一个基于 Model Context Protocol (MCP) 构建的服务器,它充当 AI 智能体(如大型语言模型 LLM)与 web 浏览器之间的桥梁。通过 mcp-selenium 服务器,AI 智能体可以调用预定义好的工具来控制浏览器,执行各种网页自动化操作,例如:启动浏览器、导航到网页、查找元素、点击、输入文本、截图等。这使得 AI 智能体能够与网页进行交互,获取网页信息或执行基于网页的任务流程。
主要功能点
- 浏览器控制: 支持启动和关闭 Chrome 和 Firefox 浏览器,并可配置浏览器启动参数(如是否 headless 模式)。
- 页面导航: 允许 AI 智能体导航到指定的 URL 网址。
- 元素定位与交互: 提供多种元素定位策略(id, css, xpath, name, tag, class),支持查找、点击、输入文本、悬停、拖拽、双击、右键点击等元素交互操作。
- 数据获取: 可以获取元素的文本内容。
- 键盘模拟: 模拟键盘按键操作。
- 文件上传: 支持通过文件上传元素上传本地文件。
- 屏幕截图: 能够捕获当前网页的屏幕截图,并保存到指定路径或返回 Base64 编码的数据。
安装步骤
- 确保你的机器上已经安装了 Node.js 和 npm (Node Package Manager)。
- 打开终端或命令提示符,运行以下命令全局安装 'mcp-selenium':
npm install -g @angiejones/mcp-selenium
服务器配置
MCP 客户端需要配置以下 JSON 格式信息来连接 mcp-selenium 服务器。将以下配置添加到你的 MCP 客户端的服务器配置中:
{ "mcpServers": { "selenium": { // 服务器名称,可以自定义,例如 "selenium-browser" "command": "mcp-selenium", // 启动服务器的命令,全局安装时可直接使用 mcp-selenium "args": [] // 启动参数,本服务器无需额外参数 } } }
基本使用方法
-
启动 MCP 服务器: 在终端或命令提示符中运行 'mcp-selenium' 命令即可启动服务器。服务器默认通过 Stdio (标准输入输出) 与 MCP 客户端通信。
-
配置并连接 MCP 客户端: 在你的 MCP 客户端中配置上述服务器信息,并确保客户端已连接到 mcp-selenium 服务器。
-
调用工具 (Tools) 控制浏览器: 在 MCP 客户端中,你可以通过 JSON-RPC 请求调用 mcp-selenium 服务器提供的各种工具来控制浏览器。例如,使用 'start_browser' 工具启动浏览器,使用 'navigate' 工具打开网页,使用 'click_element' 工具点击页面元素等。
以下是一些工具调用的示例 (JSON-RPC request payload 示例):
-
启动 Chrome 浏览器 (headless 模式):
{ "tool": "start_browser", "parameters": { "browser": "chrome", "options": { "headless": true } } } -
导航到 Google 首页:
{ "tool": "navigate", "parameters": { "url": "https://www.google.com" } } -
在 id 为 "search-input" 的元素中输入 "Selenium":
{ "tool": "send_keys", "parameters": { "by": "id", "value": "search-input", "text": "Selenium" } }
请参考仓库 README.md 文件或本分析中工具的详细参数说明,了解更多工具的使用方法和参数。
-
注意: mcp-selenium 服务器依赖 Selenium WebDriver 和相应的浏览器驱动 (ChromeDriver 或 GeckoDriver)。请确保你的环境中已正确配置浏览器驱动,以便 Selenium WebDriver 能够正常工作。通常情况下,Selenium WebDriver 会自动管理浏览器驱动,但某些情况下可能需要手动配置。
信息
分类
开发者工具