使用说明
项目简介
Crawl4AI MCP服务是一个实现了Model Context Protocol (MCP) 的服务器,它利用 Crawl4AI 库为大型语言模型(LLM)提供网页抓取功能。通过此服务,LLM 客户端可以调用工具抓取网页内容,从而扩展其信息获取能力,例如在 Cursor AI 等支持 MCP 协议的编辑器中使用。
主要功能点
- 网页抓取工具: 提供 'scrape_webpage' 工具,允许 LLM 客户端指定 URL 并抓取网页内容,返回结构化文本信息。
- 单页抓取: 目前支持抓取单个网页的文本内容。
- 易于安装和配置: 提供详细的安装步骤和简单的服务器配置方法。
- SSE 传输协议: 默认使用 Server-Sent Events (SSE) 协议与客户端通信。
安装步骤
-
克隆仓库
git clone https://github.com/ritvij14/crawl4ai-mcp cd crawl4ai-mcp -
安装 uv 根据您的操作系统选择相应的命令安装 'uv' 包管理器。
- MacOS/Linux:
curl -LsSf https://astral.sh/uv/install.sh | sh - Windows:
powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"
安装完成后,请重启您的终端,确保 'uv' 命令可以被识别。
- MacOS/Linux:
-
创建并激活虚拟环境,安装依赖
uv venv # 创建虚拟环境 uv sync # 安装项目依赖 source .venv/bin/activate # 激活虚拟环境 (Linux/MacOS) # .venv\Scripts\activate # 激活虚拟环境 (Windows) -
运行服务器
python main.py服务器默认会在 'http://localhost:8000/sse' 启动。
服务器配置
MCP 客户端(例如 Cursor 或 Claude)需要配置 MCP 服务器的连接信息才能使用 Crawl4AI MCP 服务提供的工具。以下是一个 JSON 格式的配置示例,您需要将其添加到 MCP 客户端的配置文件中。
{ "mcpServers": { "Crawl4AI": { // 服务器名称,可以自定义,用于在客户端中标识 "url": "http://localhost:8000/sse" // MCP 服务器的 SSE 接口 URL,客户端通过此 URL 与服务器建立连接 } } }
配置说明:
- '"mcpServers"': MCP 客户端配置中用于存放 MCP 服务器连接信息的顶级字段。
- '"Crawl4AI"': 您为此 MCP 服务器自定义的名称,在客户端界面中会显示这个名称。
- '"url": "http://localhost:8000/sse"': 关键配置。这是 Crawl4AI MCP 服务器的地址和 SSE 协议接口。客户端会通过这个 URL 与服务器建立连接并进行通信。确保服务器运行后,客户端能够访问到这个地址。
基本使用方法
- 启动 Crawl4AI MCP 服务器:按照上述安装步骤运行 'python main.py' 启动服务器。
- 配置 MCP 客户端:将上述 JSON 配置添加到您的 MCP 客户端(如 Cursor 或 Claude)的配置文件中,配置文件的具体位置请参考您使用的 MCP 客户端的文档。
- 在 MCP 客户端中使用工具:连接成功后,在 MCP 客户端中,您应该能够看到名为 "Crawl4AI" 的 MCP 服务器。在需要使用网页抓取功能时,可以调用 'scrape_webpage' 工具,并提供要抓取的网页 URL。服务器会将抓取到的网页内容返回给客户端。
例如在 Cursor AI 中使用: 在 Cursor AI 的 Agent 模式下,您可以使用 '@Crawl4AI.scrape_webpage(url="https://example.com")' 这样的形式来调用网页抓取工具,其中 'Crawl4AI' 是您在配置中指定的服务器名称,'scrape_webpage' 是工具的名称,'url' 是工具的参数。
信息
分类
网页与API