Crawl4AI MCP Server 使用说明

项目简介

Crawl4AI MCP Server 是一个基于 Model Context Protocol (MCP) 构建的应用后端,旨在为大型语言模型 (LLM) 提供强大的互联网信息获取能力。它集成了多引擎搜索和智能网页内容提取功能,帮助 LLM 系统高效地从互联网获取和理解信息,并以最适合 LLM 处理的格式提供内容。

主要功能点

  • 多引擎搜索: 支持 DuckDuckGo 和 Google 搜索引擎,可进行全面的网络搜索。
  • 网页内容理解: 智能提取网页核心内容,过滤无关信息,并转换为面向 LLM 优化的格式。
  • 内容格式转换: 支持多种输出格式,包括带有引用的 Markdown,方便 LLM 理解和溯源。
  • 高性能: 基于 FastMCP 框架构建,提供高性能的异步服务。

安装步骤

  1. 环境准备:

    • 确保已安装 Python 3.9 或更高版本。
    • 推荐使用虚拟环境以隔离项目依赖。
  2. 克隆仓库:

    git clone https://github.com/weidwonder/crawl4ai-mcp-server.git
    cd crawl4ai-mcp-server
  3. 创建并激活虚拟环境:

    python -m venv crawl4ai_env
    source crawl4ai_env/bin/activate  # Linux/Mac
    .\crawl4ai_env\Scripts\activate  # Windows
  4. 安装依赖:

    pip install -r requirements.txt
  5. 安装 Playwright 浏览器:

    playwright install

服务器配置 (MCP 客户端配置)

MCP 客户端需要配置以下信息以连接到 Crawl4AI MCP Server。这是一个 JSON 格式的配置示例,您需要将其添加到您的 MCP 客户端配置中:

{
  "serverName": "Crawl4AI MCP Server",
  "command": "python",
  "args": ["src/index.py"]
}

配置参数说明:

  • 'serverName': 服务器名称,可以自定义,用于在 MCP 客户端中标识该服务器。例如: '"Crawl4AI MCP Server"'。
  • 'command': 启动服务器的命令。由于服务器是 Python 应用,这里设置为 'python'。
  • 'args': 启动服务器命令的参数,指向服务器主程序入口文件。 这里设置为 '["src/index.py"]',表示执行 'src/index.py' 文件来启动服务器。

如果需要使用 Google 搜索,您还需要配置 API 密钥:

  1. 复制 'config_demo.json' 文件并重命名为 'config.json':

    cp config_demo.json config.json
  2. 编辑 'config.json' 文件,填入您的 Google API 密钥和 CSE ID:

    {
        "google": {
            "api_key": "YOUR_GOOGLE_API_KEY",
            "cse_id": "YOUR_GOOGLE_CSE_ID"
        }
    }

基本使用方法

Crawl4AI MCP Server 提供了 'search' 和 'read_url' 两个工具。您可以通过 MCP 客户端向服务器发送 JSON-RPC 请求来调用这些工具。

1. 调用 'search' 工具 (网络搜索)

发送以下 JSON-RPC 请求到服务器,即可进行网络搜索。

示例 (DuckDuckGo 搜索):

{
  "jsonrpc": "2.0",
  "method": "call",
  "params": {
    "tool_name": "search",
    "arguments": {
      "query": "最新的AI技术发展",
      "num_results": 5
    }
  },
  "id": 1
}

参数说明:

  • 'tool_name': 固定为 '"search"',表示调用搜索工具。
  • 'arguments': 工具参数,包括:
    • 'query': 搜索关键词。
    • 'num_results': 返回搜索结果数量 (可选,默认为 10)。
    • 'engine': 搜索引擎选择 (可选,默认为 '"duckduckgo"',可选 '"google"' 或 '"all"' 同时使用所有引擎, 需要配置 Google API 密钥)。

2. 调用 'read_url' 工具 (网页内容读取)

发送以下 JSON-RPC 请求到服务器,即可读取并提取网页内容。

示例 (读取网页并返回 Markdown 格式内容):

{
  "jsonrpc": "2.0",
  "method": "call",
  "params": {
    "tool_name": "read_url",
    "arguments": {
      "url": "https://zh.wikipedia.org/wiki/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD",
      "format": "markdown_with_citations"
    }
  },
  "id": 2
}

参数说明:

  • 'tool_name': 固定为 '"read_url"',表示调用网页内容读取工具。
  • 'arguments': 工具参数,包括:
    • 'url': 要读取的网页 URL。
    • 'format': 内容输出格式 (可选,默认为 '"markdown_with_citations"',其他可选格式包括 '"raw_markdown"', '"fit_markdown"', '"fit_html"', '"markdown"', '"references_markdown"').

通过以上步骤,您可以配置并使用 Crawl4AI MCP Server 为您的 LLM 应用提供强大的互联网信息支持。

信息

分类

网页与API