使用说明

项目简介

Crawl4AI MCP服务是一个实现了Model Context Protocol (MCP) 的服务器,它利用 Crawl4AI 库为大型语言模型(LLM)提供网页抓取功能。通过此服务,LLM 客户端可以调用工具抓取网页内容,从而扩展其信息获取能力,例如在 Cursor AI 等支持 MCP 协议的编辑器中使用。

主要功能点

  • 网页抓取工具: 提供 'scrape_webpage' 工具,允许 LLM 客户端指定 URL 并抓取网页内容,返回结构化文本信息。
  • 单页抓取: 目前支持抓取单个网页的文本内容。
  • 易于安装和配置: 提供详细的安装步骤和简单的服务器配置方法。
  • SSE 传输协议: 默认使用 Server-Sent Events (SSE) 协议与客户端通信。

安装步骤

  1. 克隆仓库

    git clone https://github.com/ritvij14/crawl4ai-mcp
    cd crawl4ai-mcp
  2. 安装 uv 根据您的操作系统选择相应的命令安装 'uv' 包管理器。

    • MacOS/Linux:
      curl -LsSf https://astral.sh/uv/install.sh | sh
    • Windows:
      powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"

    安装完成后,请重启您的终端,确保 'uv' 命令可以被识别。

  3. 创建并激活虚拟环境,安装依赖

    uv venv        # 创建虚拟环境
    uv sync        # 安装项目依赖
    source .venv/bin/activate  # 激活虚拟环境 (Linux/MacOS)
    # .venv\Scripts\activate  # 激活虚拟环境 (Windows)
  4. 运行服务器

    python main.py

    服务器默认会在 'http://localhost:8000/sse' 启动。

服务器配置

MCP 客户端(例如 Cursor 或 Claude)需要配置 MCP 服务器的连接信息才能使用 Crawl4AI MCP 服务提供的工具。以下是一个 JSON 格式的配置示例,您需要将其添加到 MCP 客户端的配置文件中。

{
  "mcpServers": {
    "Crawl4AI": {  //  服务器名称,可以自定义,用于在客户端中标识
      "url": "http://localhost:8000/sse" //  MCP 服务器的 SSE 接口 URL,客户端通过此 URL 与服务器建立连接
    }
  }
}

配置说明:

  • '"mcpServers"': MCP 客户端配置中用于存放 MCP 服务器连接信息的顶级字段。
  • '"Crawl4AI"': 您为此 MCP 服务器自定义的名称,在客户端界面中会显示这个名称。
  • '"url": "http://localhost:8000/sse"': 关键配置。这是 Crawl4AI MCP 服务器的地址和 SSE 协议接口。客户端会通过这个 URL 与服务器建立连接并进行通信。确保服务器运行后,客户端能够访问到这个地址。

基本使用方法

  1. 启动 Crawl4AI MCP 服务器:按照上述安装步骤运行 'python main.py' 启动服务器。
  2. 配置 MCP 客户端:将上述 JSON 配置添加到您的 MCP 客户端(如 Cursor 或 Claude)的配置文件中,配置文件的具体位置请参考您使用的 MCP 客户端的文档。
  3. 在 MCP 客户端中使用工具:连接成功后,在 MCP 客户端中,您应该能够看到名为 "Crawl4AI" 的 MCP 服务器。在需要使用网页抓取功能时,可以调用 'scrape_webpage' 工具,并提供要抓取的网页 URL。服务器会将抓取到的网页内容返回给客户端。

例如在 Cursor AI 中使用: 在 Cursor AI 的 Agent 模式下,您可以使用 '@Crawl4AI.scrape_webpage(url="https://example.com")' 这样的形式来调用网页抓取工具,其中 'Crawl4AI' 是您在配置中指定的服务器名称,'scrape_webpage' 是工具的名称,'url' 是工具的参数。

信息

分类

网页与API