使用说明

项目简介

mcp-selenium 是一个基于 Model Context Protocol (MCP) 构建的服务器,它充当 AI 智能体(如大型语言模型 LLM)与 web 浏览器之间的桥梁。通过 mcp-selenium 服务器,AI 智能体可以调用预定义好的工具来控制浏览器,执行各种网页自动化操作,例如:启动浏览器、导航到网页、查找元素、点击、输入文本、截图等。这使得 AI 智能体能够与网页进行交互,获取网页信息或执行基于网页的任务流程。

主要功能点

  • 浏览器控制: 支持启动和关闭 Chrome 和 Firefox 浏览器,并可配置浏览器启动参数(如是否 headless 模式)。
  • 页面导航: 允许 AI 智能体导航到指定的 URL 网址。
  • 元素定位与交互: 提供多种元素定位策略(id, css, xpath, name, tag, class),支持查找、点击、输入文本、悬停、拖拽、双击、右键点击等元素交互操作。
  • 数据获取: 可以获取元素的文本内容。
  • 键盘模拟: 模拟键盘按键操作。
  • 文件上传: 支持通过文件上传元素上传本地文件。
  • 屏幕截图: 能够捕获当前网页的屏幕截图,并保存到指定路径或返回 Base64 编码的数据。

安装步骤

  1. 确保你的机器上已经安装了 Node.js 和 npm (Node Package Manager)。
  2. 打开终端或命令提示符,运行以下命令全局安装 'mcp-selenium':
    npm install -g @angiejones/mcp-selenium

服务器配置

MCP 客户端需要配置以下 JSON 格式信息来连接 mcp-selenium 服务器。将以下配置添加到你的 MCP 客户端的服务器配置中:

{
  "mcpServers": {
    "selenium": {  // 服务器名称,可以自定义,例如 "selenium-browser"
      "command": "mcp-selenium", // 启动服务器的命令,全局安装时可直接使用 mcp-selenium
      "args": [] // 启动参数,本服务器无需额外参数
    }
  }
}

基本使用方法

  1. 启动 MCP 服务器: 在终端或命令提示符中运行 'mcp-selenium' 命令即可启动服务器。服务器默认通过 Stdio (标准输入输出) 与 MCP 客户端通信。

  2. 配置并连接 MCP 客户端: 在你的 MCP 客户端中配置上述服务器信息,并确保客户端已连接到 mcp-selenium 服务器。

  3. 调用工具 (Tools) 控制浏览器: 在 MCP 客户端中,你可以通过 JSON-RPC 请求调用 mcp-selenium 服务器提供的各种工具来控制浏览器。例如,使用 'start_browser' 工具启动浏览器,使用 'navigate' 工具打开网页,使用 'click_element' 工具点击页面元素等。

    以下是一些工具调用的示例 (JSON-RPC request payload 示例):

    • 启动 Chrome 浏览器 (headless 模式):

      {
        "tool": "start_browser",
        "parameters": {
          "browser": "chrome",
          "options": {
            "headless": true
          }
        }
      }
    • 导航到 Google 首页:

      {
        "tool": "navigate",
        "parameters": {
          "url": "https://www.google.com"
        }
      }
    • 在 id 为 "search-input" 的元素中输入 "Selenium":

      {
        "tool": "send_keys",
        "parameters": {
          "by": "id",
          "value": "search-input",
          "text": "Selenium"
        }
      }

    请参考仓库 README.md 文件或本分析中工具的详细参数说明,了解更多工具的使用方法和参数。

注意: mcp-selenium 服务器依赖 Selenium WebDriver 和相应的浏览器驱动 (ChromeDriver 或 GeckoDriver)。请确保你的环境中已正确配置浏览器驱动,以便 Selenium WebDriver 能够正常工作。通常情况下,Selenium WebDriver 会自动管理浏览器驱动,但某些情况下可能需要手动配置。

信息

分类

开发者工具