项目简介

'Crawl4AI MCP' 服务器是一个基于 Model Context Protocol (MCP) 构建的后端应用，旨在为大型语言模型（LLM）客户端提供高效、标准化的网页爬取和数据提取服务。它将强大的Crawl4AI网络爬取引擎封装成符合MCP规范的工具，让Claude、ChatGPT等兼容MCP的AI助手能够轻松调用，实现网页内容的获取、结构化数据提取、截图和PDF生成等功能。

主要功能点

通用网页抓取：能够从任何网站提取内容。
Markdown 格式转换：将网页内容清洗并格式化为简洁易读的Markdown文本。
屏幕截图：捕捉网页的视觉内容，支持全页截图。
PDF 生成：将网页转换为PDF文档，便于存档或打印。
JavaScript 执行：在目标网页上执行JavaScript代码，与动态内容交互。
多传输协议支持：全面支持STDIO、SSE和HTTP三种MCP通信协议，适应不同客户端和部署场景。

安装步骤

'Crawl4AI MCP' 服务器主要是一个Python包，可以通过 'pip' 或 Docker 进行安装。

通过 PyPI 安装

这是推荐的安装方式，简单快捷：

pip install crawl4ai-mcp

通过 Docker 运行

如果您更倾向于使用容器化部署，可以拉取预构建的Docker镜像并运行：

docker pull stgmt/crawl4ai-mcp
docker run -p 3000:3000 stgmt/crawl4ai-mcp

服务器配置

'Crawl4AI MCP' 服务器旨在为MCP客户端（如Claude Desktop、其他LLM应用或自定义Agent）提供服务。您的MCP客户端需要配置如何启动并连接到此服务器。通常，您需要提供以下信息：

服务器名称：在客户端中用于标识此服务器的唯一名称，例如 'crawl4ai'。
启动命令：用于执行 'Crawl4AI MCP' 服务器的命令行指令，例如 'crawl4ai-mcp'。
命令参数：指定服务器的运行模式。
- '--stdio' 模式：通过标准输入/输出协议进行通信。适用于与本地命令行客户端或嵌入式应用集成。
- '--sse' 模式：通过服务器发送事件协议进行通信。适用于Web客户端，服务器将默认在 '9001' 端口启动。
- '--http' 模式：通过Streamable HTTP协议进行通信。适用于RESTful API客户端或需要负载均衡的云环境，服务器将默认在 '3000' 端口启动。

例如，如果您的客户端支持自定义MCP服务器配置，您需要告知它使用 'crawl4ai-mcp' 命令，并根据您的需求选择 '"--stdio"'、'"--sse"' 或 '"--http"' 作为参数。

基本使用方法

安装并配置客户端后，您可以根据所选的传输协议，通过命令行启动 'Crawl4AI MCP' 服务器。

命令行启动

STDIO 模式（推荐用于本地客户端，如Claude Desktop）
```
crawl4ai-mcp --stdio
```
SSE 模式（推荐用于实时Web客户端）
```
crawl4ai-mcp --sse
```
HTTP 模式（推荐用于REST API集成和云部署）
```
crawl4ai-mcp --http
```
如果没有指定模式，服务器将默认以HTTP模式启动。

启动服务器后，兼容MCP的客户端将能够发现并调用服务器提供的各种工具（如 'crawl'、'md'、'html'、'screenshot'、'pdf'、'execute_js'），从而利用其强大的网页抓取能力。

Crawl4AI MCP 网抓服务器