Crawl4AI MCP Server 使用说明

项目简介

Crawl4AI MCP Server 是一个基于 Model Context Protocol (MCP) 构建的应用后端，旨在为大型语言模型 (LLM) 提供强大的互联网信息获取能力。它集成了多引擎搜索和智能网页内容提取功能，帮助 LLM 系统高效地从互联网获取和理解信息，并以最适合 LLM 处理的格式提供内容。

主要功能点

多引擎搜索: 支持 DuckDuckGo 和 Google 搜索引擎，可进行全面的网络搜索。
网页内容理解: 智能提取网页核心内容，过滤无关信息，并转换为面向 LLM 优化的格式。
内容格式转换: 支持多种输出格式，包括带有引用的 Markdown，方便 LLM 理解和溯源。
高性能: 基于 FastMCP 框架构建，提供高性能的异步服务。

安装步骤

环境准备:
- 确保已安装 Python 3.9 或更高版本。
- 推荐使用虚拟环境以隔离项目依赖。

克隆仓库:

git clone https://github.com/weidwonder/crawl4ai-mcp-server.git
cd crawl4ai-mcp-server

创建并激活虚拟环境:

python -m venv crawl4ai_env
source crawl4ai_env/bin/activate  # Linux/Mac
.\crawl4ai_env\Scripts\activate  # Windows

安装依赖:

pip install -r requirements.txt

安装 Playwright 浏览器:
```
playwright install
```

服务器配置 (MCP 客户端配置)

MCP 客户端需要配置以下信息以连接到 Crawl4AI MCP Server。这是一个 JSON 格式的配置示例，您需要将其添加到您的 MCP 客户端配置中：

{
  "serverName": "Crawl4AI MCP Server",
  "command": "python",
  "args": ["src/index.py"]
}

配置参数说明:

'serverName': 服务器名称，可以自定义，用于在 MCP 客户端中标识该服务器。例如: '"Crawl4AI MCP Server"'。
'command': 启动服务器的命令。由于服务器是 Python 应用，这里设置为 'python'。
'args': 启动服务器命令的参数，指向服务器主程序入口文件。这里设置为 '["src/index.py"]'，表示执行 'src/index.py' 文件来启动服务器。

如果需要使用 Google 搜索，您还需要配置 API 密钥：

复制 'config_demo.json' 文件并重命名为 'config.json':

cp config_demo.json config.json

编辑 'config.json' 文件，填入您的 Google API 密钥和 CSE ID:

{
    "google": {
        "api_key": "YOUR_GOOGLE_API_KEY",
        "cse_id": "YOUR_GOOGLE_CSE_ID"
    }
}

基本使用方法

Crawl4AI MCP Server 提供了 'search' 和 'read_url' 两个工具。您可以通过 MCP 客户端向服务器发送 JSON-RPC 请求来调用这些工具。

1. 调用 'search' 工具 (网络搜索)

发送以下 JSON-RPC 请求到服务器，即可进行网络搜索。

示例 (DuckDuckGo 搜索):

{
  "jsonrpc": "2.0",
  "method": "call",
  "params": {
    "tool_name": "search",
    "arguments": {
      "query": "最新的AI技术发展",
      "num_results": 5
    }
  },
  "id": 1
}

参数说明:

'tool_name': 固定为 '"search"'，表示调用搜索工具。
'arguments': 工具参数，包括：
- 'query': 搜索关键词。
- 'num_results': 返回搜索结果数量 (可选，默认为 10)。
- 'engine': 搜索引擎选择 (可选，默认为 '"duckduckgo"'，可选 '"google"' 或 '"all"' 同时使用所有引擎，需要配置 Google API 密钥)。

2. 调用 'read_url' 工具 (网页内容读取)

发送以下 JSON-RPC 请求到服务器，即可读取并提取网页内容。

示例 (读取网页并返回 Markdown 格式内容):

{
  "jsonrpc": "2.0",
  "method": "call",
  "params": {
    "tool_name": "read_url",
    "arguments": {
      "url": "https://zh.wikipedia.org/wiki/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD",
      "format": "markdown_with_citations"
    }
  },
  "id": 2
}