使用说明
项目简介
Crawlab MCP Server 是一个基于 Model Context Protocol (MCP) 构建的服务器,它充当 Crawlab (一个开源爬虫管理平台) 和 AI 应用之间的桥梁。该服务器旨在为 AI 应用提供一个标准化的接口,以便安全、可扩展地访问和利用 Crawlab 强大的爬虫管理和数据采集能力。通过 MCP 协议,AI 应用可以更加便捷地与 Crawlab 集成,实现自然语言驱动的爬虫任务管理和数据分析。
主要功能点
- 资源管理: 集中托管和管理 Crawlab 平台上的核心资源,例如爬虫 (Spiders) 和任务 (Tasks),为 AI 应用提供统一的数据访问入口。
- 工具注册与执行: 预置并开放 Crawlab 的各项功能为工具 (Tools),例如爬虫的创建、运行、停止以及任务状态查询等,AI 应用可以通过调用这些工具来执行相应的 Crawlab 操作。
- 标准化 MCP 协议: 遵循 Model Context Protocol 标准,使用 JSON-RPC 协议进行客户端与服务器端的通信,确保了与 MCP 客户端的良好兼容性和互操作性。
- SSE 传输协议: 采用 Server-Sent Events (SSE) 作为默认的传输协议,实现服务器向客户端的实时数据推送和事件通知。
- 易于集成: 提供清晰的安装和配置指南,方便用户快速部署和集成到现有的 Crawlab 环境和 AI 应用中。
安装步骤
-
环境准备:
- 确保已安装 Python 3.8 或更高版本,并已安装 'pip' 包管理器。
- 确保 Crawlab 实例已成功部署并正在运行,且 AI 应用可以访问到 Crawlab API。
- 获取 Crawlab API 的访问 Token,用于 MCP 服务器鉴权。
-
安装 Crawlab MCP Server: 打开终端,执行以下命令安装 Crawlab MCP Server Python 包:
pip install -e .或者,如果需要从 GitHub 安装(可能需要先构建):
# pip install git+https://github.com/crawlab-team/crawlab-mcp-server.git -
配置 Crawlab API 连接信息:
- 复制仓库根目录下的 '.env.example' 文件并重命名为 '.env':
cp .env.example .env - 编辑 '.env' 文件,填入你的 Crawlab API 访问地址和 API Token:
CRAWLAB_API_BASE_URL=http://your-crawlab-instance:8080/api # 替换为你的 Crawlab API 地址 CRAWLAB_API_TOKEN=your_api_token_here # 替换为你的 Crawlab API Token
- 复制仓库根目录下的 '.env.example' 文件并重命名为 '.env':
服务器配置
-
MCP 客户端需要配置 MCP 服务器的启动命令和参数,以便建立连接。以下是 Crawlab MCP Server 的服务器配置信息(JSON 格式),请复制到 MCP 客户端的服务器配置中:
{ "server name": "crawlab-mcp-server", "command": "crawlab_mcp-mcp", "args": ["server"] }参数注释:
- 'server name': 为 MCP 服务器自定义名称,例如 "crawlab-mcp-server",用于在 MCP 客户端界面中识别和管理服务器连接。
- 'command': 启动 Crawlab MCP Server 的命令。安装 'crawlab-mcp' Python 包后,'crawlab_mcp-mcp' 命令会被添加到系统路径中。
- 'args': 传递给 'crawlab_mcp-mcp server' 命令的参数。'["server"]' 表示运行服务器的默认配置。你还可以添加其他参数,例如指定 OpenAPI 规范文件路径、端口号等。可以通过 'crawlab_mcp-mcp server --help' 命令查看所有可用参数及其说明。
基本使用方法
-
启动 MCP 服务器: 在终端中,导航到 Crawlab MCP Server 仓库根目录,并运行以下命令启动服务器:
crawlab_mcp-mcp server服务器默认监听 'http://127.0.0.1:9000/sse' 地址。
-
配置 MCP 客户端连接: 打开支持 MCP 协议的 AI 客户端(例如 Claude Desktop),在设置或连接选项中,添加新的 MCP 服务器连接。
- 服务器 URL (Server URL) 设置为 'http://localhost:9000/sse' (如果服务器运行在本地默认端口)。
-
通过 AI 应用与 Crawlab 交互: 在 AI 客户端的对话界面中,使用自然语言指令来操作 Crawlab。例如:
- "列出所有爬虫"
- "创建一个名为 '电商商品爬虫' 的新爬虫"
- "运行 '电商商品爬虫' 爬虫"
- "查看 '电商商品爬虫' 爬虫的最新任务日志"
AI 客户端会将你的自然语言指令转换为 MCP 请求,通过 Crawlab MCP Server 传递给 Crawlab API 执行,并将结果返回给你。
信息
分类
AI与计算