使用说明

项目简介

mcp-selenium 是一个基于 Model Context Protocol (MCP) 构建的服务器，它充当 AI 智能体（如大型语言模型 LLM）与 web 浏览器之间的桥梁。通过 mcp-selenium 服务器，AI 智能体可以调用预定义好的工具来控制浏览器，执行各种网页自动化操作，例如：启动浏览器、导航到网页、查找元素、点击、输入文本、截图等。这使得 AI 智能体能够与网页进行交互，获取网页信息或执行基于网页的任务流程。

主要功能点

浏览器控制: 支持启动和关闭 Chrome 和 Firefox 浏览器，并可配置浏览器启动参数（如是否 headless 模式）。
页面导航: 允许 AI 智能体导航到指定的 URL 网址。
元素定位与交互: 提供多种元素定位策略（id, css, xpath, name, tag, class），支持查找、点击、输入文本、悬停、拖拽、双击、右键点击等元素交互操作。
数据获取: 可以获取元素的文本内容。
键盘模拟: 模拟键盘按键操作。
文件上传: 支持通过文件上传元素上传本地文件。
屏幕截图: 能够捕获当前网页的屏幕截图，并保存到指定路径或返回 Base64 编码的数据。

安装步骤

确保你的机器上已经安装了 Node.js 和 npm (Node Package Manager)。

打开终端或命令提示符，运行以下命令全局安装 'mcp-selenium':

npm install -g @angiejones/mcp-selenium

服务器配置

MCP 客户端需要配置以下 JSON 格式信息来连接 mcp-selenium 服务器。将以下配置添加到你的 MCP 客户端的服务器配置中：

{
  "mcpServers": {
    "selenium": {  // 服务器名称，可以自定义，例如 "selenium-browser"
      "command": "mcp-selenium", // 启动服务器的命令，全局安装时可直接使用 mcp-selenium
      "args": [] // 启动参数，本服务器无需额外参数
    }
  }
}

基本使用方法

启动 MCP 服务器: 在终端或命令提示符中运行 'mcp-selenium' 命令即可启动服务器。服务器默认通过 Stdio (标准输入输出) 与 MCP 客户端通信。
配置并连接 MCP 客户端: 在你的 MCP 客户端中配置上述服务器信息，并确保客户端已连接到 mcp-selenium 服务器。

调用工具 (Tools) 控制浏览器: 在 MCP 客户端中，你可以通过 JSON-RPC 请求调用 mcp-selenium 服务器提供的各种工具来控制浏览器。例如，使用 'start_browser' 工具启动浏览器，使用 'navigate' 工具打开网页，使用 'click_element' 工具点击页面元素等。

以下是一些工具调用的示例 (JSON-RPC request payload 示例):

启动 Chrome 浏览器 (headless 模式):

{
  "tool": "start_browser",
  "parameters": {
    "browser": "chrome",
    "options": {
      "headless": true
    }
  }
}

导航到 Google 首页:

{
  "tool": "navigate",
  "parameters": {
    "url": "https://www.google.com"
  }
}

在 id 为 "search-input" 的元素中输入 "Selenium":

{
  "tool": "send_keys",
  "parameters": {
    "by": "id",
    "value": "search-input",
    "text": "Selenium"
  }
}

请参考仓库 README.md 文件或本分析中工具的详细参数说明，了解更多工具的使用方法和参数。

注意: mcp-selenium 服务器依赖 Selenium WebDriver 和相应的浏览器驱动 (ChromeDriver 或 GeckoDriver)。请确保你的环境中已正确配置浏览器驱动，以便 Selenium WebDriver 能够正常工作。通常情况下，Selenium WebDriver 会自动管理浏览器驱动，但某些情况下可能需要手动配置。

关键词

使用说明

信息