项目简介

WaterCrawl MCP 服务器是一个基于 Model Context Protocol (MCP) 的后端实现,旨在为大型语言模型 (LLM) 客户端提供访问 WaterCrawl 服务的标准化接口。通过这个服务器,LLM 可以调用 WaterCrawl 的工具来执行网页抓取、搜索等任务,获取结构化或非结构化的网络数据。

主要功能点

该服务器通过 MCP 协议暴露以下 WaterCrawl 能力作为工具:

  • 网页抓取 (scrape-url): 从指定URL抓取页面内容,支持多种选项如元素过滤、等待时间等。
  • 网页搜索 (search): 执行网络搜索,支持指定语言、国家、时间范围、搜索深度等。
  • 网站地图下载 (download-sitemap): 下载特定爬取任务生成的网站地图,支持不同格式(JSON, 图形, Markdown)。
  • 爬取任务管理 (manage-crawl): 列出、获取详情、停止或下载现有爬取任务的结果。
  • 搜索任务管理 (manage-search): 列出、获取详情或停止现有搜索任务。
  • 请求监控 (monitor-request): 实时监控爬取或搜索任务的执行状态,支持设置超时。

安装步骤

你需要 Node.js 和 npm (或 yarn, pnpm) 来安装 WaterCrawl MCP 服务器。

  1. 通过 npm 全局安装 (推荐):
    npm install -g @watercrawl/mcp
  2. 通过 npm 局部安装:
    npm install @watercrawl/mcp

服务器配置 (用于 MCP 客户端)

MCP 客户端(如兼容的AI助手)需要配置 WaterCrawl MCP 服务器的启动信息。通常,这涉及指定服务器的名称、启动命令以及必要的参数。根据你的安装方式和需求(STDIO 或 SSE),配置会有所不同。

  • 基本配置项:

    • 'command': 用于启动 MCP 服务器的可执行文件或脚本路径。例如,如果全局安装,可能是 'npx' 或 'watercrawl-mcp'。
    • 'args': 传递给启动命令的参数列表。这些参数用于配置服务器的行为,例如 WaterCrawl API 密钥和基础 URL。
    • 'name': MCP 服务器在客户端中的标识名称(可自定义)。
  • 示例配置参数:

    • '--base-url <url>': WaterCrawl API 的服务地址,默认是 'https://app.watercrawl.dev'。
    • '--api-key <key>': 你的 WaterCrawl API 密钥,用于认证。对于 STDIO 模式通常必需。
    • 'sse': 启动 SSE 模式的子命令。
    • '-p <number>', '--port <number>': SSE 模式下服务器监听的端口,默认为 3000。
    • '-e <path>', '--endpoint <path>': SSE 模式下 SSE 连接的路径,默认为 '/sse'。
  • 示例 JSON 配置片段 (非实际代码,仅为说明):

    {
      "mcpServers": {
        "watercrawl": { // <--- server name
          "command": "npx",
          "args": [
            "@watercrawl/mcp",
            "stdio", // 或者 "sse"
            "--api-key", "YOUR_API_KEY",
            "--base-url", "https://app.watercrawl.dev"
            // SSE 模式下可能需要端口和路径参数
            // "-p", "3000", "-e", "/sse"
          ]
        }
      }
    }

    请根据你的 MCP 客户端的要求,将这些信息填入其配置界面或文件中。确保提供有效的 API 密钥,否则服务器将无法与 WaterCrawl 服务通信。

基本使用方法

服务器主要通过 MCP 客户端(如兼容的AI助手)来使用其提供的工具。启动服务器后,你的 MCP 客户端应该能够发现并调用这些工具。例如,在客户端的聊天界面或工具调用接口中:

  • 调用 'scrape-url' 工具并提供 URL 参数,以抓取网页内容。
  • 调用 'search' 工具并提供查询词,以执行网络搜索。
  • 调用管理工具来检查任务状态或下载结果。

你也可以直接从命令行启动服务器进行测试(但不推荐日常使用):

  • 启动 STDIO 模式 (需要配置 'WATERCRAWL_API_KEY' 环境变量或使用 '--api-key' 参数):
    watercrawl-mcp stdio --api-key YOUR_API_KEY
  • 启动 SSE 模式 (需要配置 'WATERCRAWL_BASE_URL' 环境变量或使用 '--base-url' 参数):
    watercrawl-mcp sse --port 3000 --base-url https://app.watercrawl.dev

在生产环境中,通常由 MCP 客户端负责启动和管理 MCP 服务器进程。

信息

分类

网页与API