Crawl4AI MCP Server 使用说明
项目简介
Crawl4AI MCP Server 是一个基于 Model Context Protocol (MCP) 构建的应用后端,旨在为大型语言模型 (LLM) 提供强大的互联网信息获取能力。它集成了多引擎搜索和智能网页内容提取功能,帮助 LLM 系统高效地从互联网获取和理解信息,并以最适合 LLM 处理的格式提供内容。
主要功能点
- 多引擎搜索: 支持 DuckDuckGo 和 Google 搜索引擎,可进行全面的网络搜索。
- 网页内容理解: 智能提取网页核心内容,过滤无关信息,并转换为面向 LLM 优化的格式。
- 内容格式转换: 支持多种输出格式,包括带有引用的 Markdown,方便 LLM 理解和溯源。
- 高性能: 基于 FastMCP 框架构建,提供高性能的异步服务。
安装步骤
-
环境准备:
- 确保已安装 Python 3.9 或更高版本。
- 推荐使用虚拟环境以隔离项目依赖。
-
克隆仓库:
git clone https://github.com/weidwonder/crawl4ai-mcp-server.git cd crawl4ai-mcp-server -
创建并激活虚拟环境:
python -m venv crawl4ai_env source crawl4ai_env/bin/activate # Linux/Mac .\crawl4ai_env\Scripts\activate # Windows -
安装依赖:
pip install -r requirements.txt -
安装 Playwright 浏览器:
playwright install
服务器配置 (MCP 客户端配置)
MCP 客户端需要配置以下信息以连接到 Crawl4AI MCP Server。这是一个 JSON 格式的配置示例,您需要将其添加到您的 MCP 客户端配置中:
{ "serverName": "Crawl4AI MCP Server", "command": "python", "args": ["src/index.py"] }
配置参数说明:
- 'serverName': 服务器名称,可以自定义,用于在 MCP 客户端中标识该服务器。例如: '"Crawl4AI MCP Server"'。
- 'command': 启动服务器的命令。由于服务器是 Python 应用,这里设置为 'python'。
- 'args': 启动服务器命令的参数,指向服务器主程序入口文件。 这里设置为 '["src/index.py"]',表示执行 'src/index.py' 文件来启动服务器。
如果需要使用 Google 搜索,您还需要配置 API 密钥:
-
复制 'config_demo.json' 文件并重命名为 'config.json':
cp config_demo.json config.json -
编辑 'config.json' 文件,填入您的 Google API 密钥和 CSE ID:
{ "google": { "api_key": "YOUR_GOOGLE_API_KEY", "cse_id": "YOUR_GOOGLE_CSE_ID" } }
基本使用方法
Crawl4AI MCP Server 提供了 'search' 和 'read_url' 两个工具。您可以通过 MCP 客户端向服务器发送 JSON-RPC 请求来调用这些工具。
1. 调用 'search' 工具 (网络搜索)
发送以下 JSON-RPC 请求到服务器,即可进行网络搜索。
示例 (DuckDuckGo 搜索):
{ "jsonrpc": "2.0", "method": "call", "params": { "tool_name": "search", "arguments": { "query": "最新的AI技术发展", "num_results": 5 } }, "id": 1 }
参数说明:
- 'tool_name': 固定为 '"search"',表示调用搜索工具。
- 'arguments': 工具参数,包括:
- 'query': 搜索关键词。
- 'num_results': 返回搜索结果数量 (可选,默认为 10)。
- 'engine': 搜索引擎选择 (可选,默认为 '"duckduckgo"',可选 '"google"' 或 '"all"' 同时使用所有引擎, 需要配置 Google API 密钥)。
2. 调用 'read_url' 工具 (网页内容读取)
发送以下 JSON-RPC 请求到服务器,即可读取并提取网页内容。
示例 (读取网页并返回 Markdown 格式内容):
{ "jsonrpc": "2.0", "method": "call", "params": { "tool_name": "read_url", "arguments": { "url": "https://zh.wikipedia.org/wiki/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD", "format": "markdown_with_citations" } }, "id": 2 }
参数说明:
- 'tool_name': 固定为 '"read_url"',表示调用网页内容读取工具。
- 'arguments': 工具参数,包括:
- 'url': 要读取的网页 URL。
- 'format': 内容输出格式 (可选,默认为 '"markdown_with_citations"',其他可选格式包括 '"raw_markdown"', '"fit_markdown"', '"fit_html"', '"markdown"', '"references_markdown"').
通过以上步骤,您可以配置并使用 Crawl4AI MCP Server 为您的 LLM 应用提供强大的互联网信息支持。
信息
分类
网页与API