项目简介
Crawl4AI MCP 服务器是一个将 Model Context Protocol (MCP) 与 Crawl4AI 库集成的后端应用。它作为远程服务器部署在 Cloudflare Workers 上,使得支持 MCP 的 AI 助手(如 Claude)能够通过标准化的协议访问 Crawl4AI 提供的各种网络数据获取和处理能力。
主要功能点
该服务器通过 MCP 向 AI 客户端暴露以下核心功能:
- 单页抓取 (Scrape): 从单个网页提取内容,支持指定多种输出格式(如 Markdown, HTML),并可执行页面上的预设操作(如点击、滚动)。
- 深度研究 (Deep Research): 针对一个查询主题,进行多步的网页搜索、相关页面爬取和内容分析,最终生成一份综合性的研究报告。
- 网站地图发现/URL查找 (Map): 从给定的起始 URL 开始,发现网站内的其他 URL,支持通过 Sitemap 和 HTML 链接进行查找,并可过滤路径和深度。
- 全站异步爬取 (Crawl): 启动一个异步任务,从起始 URL 开始对整个网站(或部分)进行深度爬取,支持设置最大页面数、深度、路径过滤等,并可设置爬取完成后的 Webhook 通知。
- 结构化数据提取 (Extract): 利用 LLM 能力,从一个或多个网页中提取符合特定结构(由 JSON Schema 或自然语言 Prompt 定义)的数据。
- 爬取状态检查 (Check Crawl Status): 查询之前启动的异步爬取任务的当前状态、进度、已处理 URL 列表及可能遇到的错误。
安装步骤
此项目设计为在 Cloudflare Workers 环境中运行。基本设置涉及以下步骤(需要 Node.js, npm/yarn 和 Cloudflare Wrangler CLI):
- 克隆仓库:
git clone https://github.com/BjornMelin/crawl4ai-mcp-server.git cd crawl4ai-mcp-server - 安装依赖:
npm install # 或 yarn install - 配置环境变量: 在 'wrangler.toml' 文件或 Cloudflare Worker 设置界面中配置所需的秘密环境变量,至少包括:
- 'CRAWL4AI_API_KEY': 用于调用 Crawl4AI 服务的 API 密钥。
- 'OAUTH_CLIENT_ID', 'OAUTH_CLIENT_SECRET': OAuth 认证所需的客户端 ID 和密钥。
- 可选的 'SESSION_KV': 用于存储 OAuth Session 的 Cloudflare KV Namespace 绑定名称。
- 部署到 Cloudflare Workers:
Wrangler CLI 会引导你完成部署过程。wrangler deploy
服务器配置 (供 MCP 客户端使用)
此服务器是作为远程服务部署的(例如在 Cloudflare Workers 上),因此 MCP 客户端连接时需要指定服务器的 URL 和认证信息,而非本地启动命令。典型的 MCP 客户端配置(通常是 JSON 格式)会包含类似以下结构的信息:
{ "name": "Crawl4AI MCP Server", // 服务器的友好名称 "url": "https://你的worker域名.workers.dev/mcp", // 部署后 MCP 服务器的访问 URL,请替换为实际部署的域名和路径 "transport": "http", // 或 "websocket",取决于服务器支持和配置 "auth": { "type": "bearer", // 或其他认证类型,如 OAuth "token": "你的认证令牌" // 使用 Bearer Token 认证时填入你的 API 密钥或 OAuth Access Token }, // "command", "args" 等字段通常用于本地 Stdio 服务器,不适用于此远程 HTTP 服务器 }
请参考你的 MCP 客户端文档,根据上述信息配置服务器连接。你需要获取你的 Cloudflare Worker 部署后的实际 URL,并根据配置的认证方式提供相应的 API 密钥或 OAuth 令牌。
基本使用方法
连接到服务器后,支持 MCP 的 AI 助手会自动发现该服务器提供的工具及其能力(工具名称、描述和参数)。你可以直接在与 AI 助手的对话中指示其使用这些工具来执行网页抓取、爬取或深度研究任务。例如,你可以说:“请使用 Crawl4AI 工具抓取这个网页的内容:[网页URL]” 或 “请针对这个主题进行一次深度研究:[研究主题]”。AI 助手会根据你的指令,构建相应的工具调用请求,发送给 Crawl4AI MCP 服务器,并将服务器返回的结果呈现给你。
信息
分类
网页与API