项目简介

'crawl4ai-mcp-server' 是一个轻量级的服务器，它利用 Model Context Protocol (MCP) 标准，为大型语言模型（LLM）客户端提供便捷的网页抓取和爬行功能。它允许LLM通过标准化的JSON-RPC调用，访问强大的网页数据获取工具，例如抓取单个页面内容、进行多页面爬行或处理站点地图等。该服务器旨在为AI应用提供安全、可扩展的网络数据上下文服务，并支持与OpenAI Agents SDK、Claude Code等AI框架无缝集成。

主要功能点

网页抓取 (Scrape): 获取单个网页的完整内容（通常是Markdown格式）及其包含的链接。
网页爬行 (Crawl): 从指定起始URL开始，进行广度优先的网页探索，可设置爬行深度、页面数量限制，并支持域名限制及包含/排除模式。
站点爬行 (Crawl Site): 专门用于整个网站的爬行，将结果持久化到磁盘，返回抓取报告而非页面内容本身，避免上下文过载。
站点地图爬行 (Crawl Sitemap): 根据站点地图文件（sitemap.xml）发现的URL进行爬行，并将结果持久化到磁盘。
结果持久化: 可选择将抓取和爬行结果（如Markdown、链接、日志）保存到本地目录，生成详细的运行清单文件。
LLM集成: 通过MCP协议，轻松与各种AI Agents和LLM应用集成，作为获取实时或结构化网络数据的功能模块。

安装步骤

下载: 访问项目的 Releases page 下载适用于您操作系统的最新版本。
解压/安装:
- 对于 Windows: 双击下载的 '.exe' 文件并按照屏幕指示进行安装。
- 对于 macOS/Linux: 解压下载的文件，在终端中导航到解压后的文件夹。
运行服务器:
- 如果您已经安装Python环境并克隆了仓库，可以直接在项目根目录运行：'python -m crawler_agent.mcp_server'
- 如果下载的是预编译版本，在终端中运行：'./crawl4ai-mcp-server' (macOS/Linux) 或双击 '.exe' (Windows)。

服务器配置

MCP客户端在连接时需要指定服务器的启动命令。以下是一个示例配置，展示了如何指示MCP客户端启动并连接到'crawl4ai-mcp-server'：

{
  "server_name": "crawl4ai-mcp",
  "command": "python",
  "args": ["-m", "crawler_agent.mcp_server"],
  "description": "通过stdio连接到Crawl4AI MCP服务器，提供网页抓取和爬行功能。",
  "transport": "stdio"
}

'server_name': MCP服务器的唯一名称，用于标识。
'command': 启动MCP服务器的可执行程序或解释器。
'args': 传递给'command'的参数，'-m crawler_agent.mcp_server'指示Python运行'crawler_agent'包内的'mcp_server.py'模块。
'description': 对该MCP服务器功能的简要说明。
'transport': 指定MCP客户端与服务器通信使用的传输协议，此处为标准输入输出流（stdio）。

基本使用方法

服务器运行后，您的LLM应用或MCP客户端即可通过 JSON-RPC 协议与服务器通信。例如，LLM可以调用名为 'scrape' 的工具来抓取一个URL：

列出可用工具: 客户端可以请求服务器列出所有可用的工具及其描述和输入模式。
调用工具: LLM根据其任务，选择合适的工具（如 'scrape' 或 'crawl'），并以 JSON-RPC 请求的形式传递必要的参数（例如URL）。
接收结果: 服务器执行相应的网页操作，并将结果（如Markdown内容、链接列表或持久化元数据）通过 JSON-RPC 响应返回给LLM客户端。

Crawl4AI MCP 网页爬取服务器

项目简介

主要功能点

安装步骤

服务器配置

基本使用方法

服务器信息