项目简介
'Crawl4AI MCP' 服务器是一个基于 Model Context Protocol (MCP) 构建的后端应用,旨在为大型语言模型(LLM)客户端提供高效、标准化的网页爬取和数据提取服务。它将强大的Crawl4AI网络爬取引擎封装成符合MCP规范的工具,让Claude、ChatGPT等兼容MCP的AI助手能够轻松调用,实现网页内容的获取、结构化数据提取、截图和PDF生成等功能。
主要功能点
- 通用网页抓取:能够从任何网站提取内容。
- Markdown 格式转换:将网页内容清洗并格式化为简洁易读的Markdown文本。
- 屏幕截图:捕捉网页的视觉内容,支持全页截图。
- PDF 生成:将网页转换为PDF文档,便于存档或打印。
- JavaScript 执行:在目标网页上执行JavaScript代码,与动态内容交互。
- 多传输协议支持:全面支持STDIO、SSE和HTTP三种MCP通信协议,适应不同客户端和部署场景。
安装步骤
'Crawl4AI MCP' 服务器主要是一个Python包,可以通过 'pip' 或 Docker 进行安装。
通过 PyPI 安装
这是推荐的安装方式,简单快捷:
pip install crawl4ai-mcp
通过 Docker 运行
如果您更倾向于使用容器化部署,可以拉取预构建的Docker镜像并运行:
docker pull stgmt/crawl4ai-mcp docker run -p 3000:3000 stgmt/crawl4ai-mcp
服务器配置
'Crawl4AI MCP' 服务器旨在为MCP客户端(如Claude Desktop、其他LLM应用或自定义Agent)提供服务。您的MCP客户端需要配置如何启动并连接到此服务器。通常,您需要提供以下信息:
- 服务器名称:在客户端中用于标识此服务器的唯一名称,例如 'crawl4ai'。
- 启动命令:用于执行 'Crawl4AI MCP' 服务器的命令行指令,例如 'crawl4ai-mcp'。
- 命令参数:指定服务器的运行模式。
- '--stdio' 模式:通过标准输入/输出协议进行通信。适用于与本地命令行客户端或嵌入式应用集成。
- '--sse' 模式:通过服务器发送事件协议进行通信。适用于Web客户端,服务器将默认在 '9001' 端口启动。
- '--http' 模式:通过Streamable HTTP协议进行通信。适用于RESTful API客户端或需要负载均衡的云环境,服务器将默认在 '3000' 端口启动。
例如,如果您的客户端支持自定义MCP服务器配置,您需要告知它使用 'crawl4ai-mcp' 命令,并根据您的需求选择 '"--stdio"'、'"--sse"' 或 '"--http"' 作为参数。
基本使用方法
安装并配置客户端后,您可以根据所选的传输协议,通过命令行启动 'Crawl4AI MCP' 服务器。
命令行启动
- STDIO 模式(推荐用于本地客户端,如Claude Desktop)
crawl4ai-mcp --stdio - SSE 模式(推荐用于实时Web客户端)
crawl4ai-mcp --sse - HTTP 模式(推荐用于REST API集成和云部署)
如果没有指定模式,服务器将默认以HTTP模式启动。crawl4ai-mcp --http
启动服务器后,兼容MCP的客户端将能够发现并调用服务器提供的各种工具(如 'crawl'、'md'、'html'、'screenshot'、'pdf'、'execute_js'),从而利用其强大的网页抓取能力。
信息
分类
网页与API