项目简介
WaterCrawl MCP 服务器是一个基于 Model Context Protocol (MCP) 的后端实现,旨在为大型语言模型 (LLM) 客户端提供访问 WaterCrawl 服务的标准化接口。通过这个服务器,LLM 可以调用 WaterCrawl 的工具来执行网页抓取、搜索等任务,获取结构化或非结构化的网络数据。
主要功能点
该服务器通过 MCP 协议暴露以下 WaterCrawl 能力作为工具:
- 网页抓取 (scrape-url): 从指定URL抓取页面内容,支持多种选项如元素过滤、等待时间等。
- 网页搜索 (search): 执行网络搜索,支持指定语言、国家、时间范围、搜索深度等。
- 网站地图下载 (download-sitemap): 下载特定爬取任务生成的网站地图,支持不同格式(JSON, 图形, Markdown)。
- 爬取任务管理 (manage-crawl): 列出、获取详情、停止或下载现有爬取任务的结果。
- 搜索任务管理 (manage-search): 列出、获取详情或停止现有搜索任务。
- 请求监控 (monitor-request): 实时监控爬取或搜索任务的执行状态,支持设置超时。
安装步骤
你需要 Node.js 和 npm (或 yarn, pnpm) 来安装 WaterCrawl MCP 服务器。
- 通过 npm 全局安装 (推荐):
npm install -g @watercrawl/mcp - 通过 npm 局部安装:
npm install @watercrawl/mcp
服务器配置 (用于 MCP 客户端)
MCP 客户端(如兼容的AI助手)需要配置 WaterCrawl MCP 服务器的启动信息。通常,这涉及指定服务器的名称、启动命令以及必要的参数。根据你的安装方式和需求(STDIO 或 SSE),配置会有所不同。
-
基本配置项:
- 'command': 用于启动 MCP 服务器的可执行文件或脚本路径。例如,如果全局安装,可能是 'npx' 或 'watercrawl-mcp'。
- 'args': 传递给启动命令的参数列表。这些参数用于配置服务器的行为,例如 WaterCrawl API 密钥和基础 URL。
- 'name': MCP 服务器在客户端中的标识名称(可自定义)。
-
示例配置参数:
- '--base-url <url>': WaterCrawl API 的服务地址,默认是 'https://app.watercrawl.dev'。
- '--api-key <key>': 你的 WaterCrawl API 密钥,用于认证。对于 STDIO 模式通常必需。
- 'sse': 启动 SSE 模式的子命令。
- '-p <number>', '--port <number>': SSE 模式下服务器监听的端口,默认为 3000。
- '-e <path>', '--endpoint <path>': SSE 模式下 SSE 连接的路径,默认为 '/sse'。
-
示例 JSON 配置片段 (非实际代码,仅为说明):
{ "mcpServers": { "watercrawl": { // <--- server name "command": "npx", "args": [ "@watercrawl/mcp", "stdio", // 或者 "sse" "--api-key", "YOUR_API_KEY", "--base-url", "https://app.watercrawl.dev" // SSE 模式下可能需要端口和路径参数 // "-p", "3000", "-e", "/sse" ] } } }请根据你的 MCP 客户端的要求,将这些信息填入其配置界面或文件中。确保提供有效的 API 密钥,否则服务器将无法与 WaterCrawl 服务通信。
基本使用方法
服务器主要通过 MCP 客户端(如兼容的AI助手)来使用其提供的工具。启动服务器后,你的 MCP 客户端应该能够发现并调用这些工具。例如,在客户端的聊天界面或工具调用接口中:
- 调用 'scrape-url' 工具并提供 URL 参数,以抓取网页内容。
- 调用 'search' 工具并提供查询词,以执行网络搜索。
- 调用管理工具来检查任务状态或下载结果。
你也可以直接从命令行启动服务器进行测试(但不推荐日常使用):
- 启动 STDIO 模式 (需要配置 'WATERCRAWL_API_KEY' 环境变量或使用 '--api-key' 参数):
watercrawl-mcp stdio --api-key YOUR_API_KEY - 启动 SSE 模式 (需要配置 'WATERCRAWL_BASE_URL' 环境变量或使用 '--base-url' 参数):
watercrawl-mcp sse --port 3000 --base-url https://app.watercrawl.dev
在生产环境中,通常由 MCP 客户端负责启动和管理 MCP 服务器进程。
信息
分类
网页与API