使用说明

项目简介

Crawl4AI MCP服务是一个实现了Model Context Protocol (MCP) 的服务器，它利用 Crawl4AI 库为大型语言模型（LLM）提供网页抓取功能。通过此服务，LLM 客户端可以调用工具抓取网页内容，从而扩展其信息获取能力，例如在 Cursor AI 等支持 MCP 协议的编辑器中使用。

主要功能点

网页抓取工具: 提供 'scrape_webpage' 工具，允许 LLM 客户端指定 URL 并抓取网页内容，返回结构化文本信息。
单页抓取: 目前支持抓取单个网页的文本内容。
易于安装和配置: 提供详细的安装步骤和简单的服务器配置方法。
SSE 传输协议: 默认使用 Server-Sent Events (SSE) 协议与客户端通信。

安装步骤

克隆仓库

git clone https://github.com/ritvij14/crawl4ai-mcp
cd crawl4ai-mcp

安装 uv 根据您的操作系统选择相应的命令安装 'uv' 包管理器。

MacOS/Linux:

curl -LsSf https://astral.sh/uv/install.sh | sh

Windows:

powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"

安装完成后，请重启您的终端，确保 'uv' 命令可以被识别。

创建并激活虚拟环境，安装依赖

uv venv        # 创建虚拟环境
uv sync        # 安装项目依赖
source .venv/bin/activate  # 激活虚拟环境 (Linux/MacOS)
# .venv\Scripts\activate  # 激活虚拟环境 (Windows)

运行服务器
```
python main.py
```
服务器默认会在 'http://localhost:8000/sse' 启动。

服务器配置

MCP 客户端（例如 Cursor 或 Claude）需要配置 MCP 服务器的连接信息才能使用 Crawl4AI MCP 服务提供的工具。以下是一个 JSON 格式的配置示例，您需要将其添加到 MCP 客户端的配置文件中。

{
  "mcpServers": {
    "Crawl4AI": {  //  服务器名称，可以自定义，用于在客户端中标识
      "url": "http://localhost:8000/sse" //  MCP 服务器的 SSE 接口 URL，客户端通过此 URL 与服务器建立连接
    }
  }
}

配置说明:

'"mcpServers"': MCP 客户端配置中用于存放 MCP 服务器连接信息的顶级字段。
'"Crawl4AI"': 您为此 MCP 服务器自定义的名称，在客户端界面中会显示这个名称。
'"url": "http://localhost:8000/sse"': 关键配置。这是 Crawl4AI MCP 服务器的地址和 SSE 协议接口。客户端会通过这个 URL 与服务器建立连接并进行通信。确保服务器运行后，客户端能够访问到这个地址。

基本使用方法

启动 Crawl4AI MCP 服务器：按照上述安装步骤运行 'python main.py' 启动服务器。
配置 MCP 客户端：将上述 JSON 配置添加到您的 MCP 客户端（如 Cursor 或 Claude）的配置文件中，配置文件的具体位置请参考您使用的 MCP 客户端的文档。
在 MCP 客户端中使用工具：连接成功后，在 MCP 客户端中，您应该能够看到名为 "Crawl4AI" 的 MCP 服务器。在需要使用网页抓取功能时，可以调用 'scrape_webpage' 工具，并提供要抓取的网页 URL。服务器会将抓取到的网页内容返回给客户端。

例如在 Cursor AI 中使用: 在 Cursor AI 的 Agent 模式下，您可以使用 '@Crawl4AI.scrape_webpage(url="https://example.com")' 这样的形式来调用网页抓取工具，其中 'Crawl4AI' 是您在配置中指定的服务器名称，'scrape_webpage' 是工具的名称，'url' 是工具的参数。

关键词