使用说明

项目简介

jcrawl4ai-mcp-server 是一个基于 Spring Boot 框架构建的 MCP 服务器,它集成了 Crawl4ai API,为大型语言模型(LLM)客户端提供网页爬取工具。通过此服务器,LLM 应用可以轻松地调用 Crawl4ai 的强大爬虫能力,获取网页内容,从而扩展 LLM 的知识来源和应用场景。

主要功能点

  • 网页爬取工具: 提供 'crawl' 工具,允许 LLM 客户端指定目标 URL、爬取策略、最大深度和输出格式,调用 Crawl4ai API 执行网页爬取任务。
  • 爬取结果查询工具: 提供 'task' 工具,允许 LLM 客户端通过任务 ID 查询爬取任务的执行状态和结果。
  • 标准 MCP 协议: 遵循 Model Context Protocol (MCP) 协议,方便与各种 MCP 客户端集成。
  • 易于配置: 通过 'application.properties' 文件配置 Crawl4ai API 的 base URL 和 API Token。
  • 基于 Spring Boot: 利用 Spring Boot 的便捷性,易于部署和扩展。

安装步骤

  1. 克隆仓库

    git clone https://github.com/rainyheart/jcrawl4ai-mcp-server.git
    cd jcrawl4ai-mcp-server
  2. 构建项目

    确保已安装 Maven,然后执行 Maven 命令进行构建:

    mvn clean install

    构建成功后,JAR 文件将生成在 'target' 目录下,例如 'jcrawl4ai-mcp-server-1.0.0.jar'。

  3. 配置 Crawl4ai API

    编辑 'src/main/resources/application.properties' 文件,配置 Crawl4ai API 的基础 URL 和 API Token:

    cawl4ai.base-url=http://your-cral4ai-server-url:11235  # 替换为您的 Crawl4ai 服务器地址
    cawl4ai.api-token=your-api-token # 替换为您的 Crawl4ai API Token

服务器配置

对于 MCP 客户端,需要配置以下 JSON 信息以连接到 jcrawl4ai-mcp-server:

{
  "mcpServers": {
    "jcrawl4ai-mcp-server": {
      "autoApprove": [
        "crawl",
        "task"
      ],
      "disabled": false,
      "timeout": 60,
      "command": "java",
      "args": [
        "-jar",
        "/path/to/your/jar/file/jcrawl4ai-mcp-server-1.0.0.jar"  // 请替换为实际的 JAR 文件路径
      ],
      "transportType": "stdio"
    }
  }
}

配置参数说明:

  • 'server name': 'jcrawl4ai-mcp-server' - 服务器名称,客户端用于标识和引用。
  • 'autoApprove': '["crawl", "task"]' - 自动批准的工具列表,客户端调用这些工具时无需用户额外授权。
  • 'disabled': 'false' - 是否禁用此服务器,'false' 表示启用。
  • 'timeout': '60' - 服务器命令执行超时时间,单位为秒。
  • 'command': '"java"' - 启动服务器的命令,这里使用 Java 运行时环境。
  • 'args': '["-jar", "/path/to/your/jar/file/jcrawl4ai-mcp-server-1.0.0.jar"]' - 启动服务器命令的参数,包括 '-jar' 参数和 JAR 文件路径。请务必将 '/path/to/your/jar/file/jcrawl4ai-mcp-server-1.0.0.jar' 替换为实际的 JAR 文件在您系统中的绝对路径。
  • 'transportType': '"stdio"' - MCP 客户端与服务器通信的传输协议,这里使用标准输入输出流。

基本使用方法

  1. 启动 MCP 服务器

    在 JAR 文件所在的目录下,打开终端并执行以下命令启动服务器:

    java -jar target/jcrawl4ai-mcp-server-1.0.0.jar

    服务器成功启动后,将监听标准输入输出流,等待 MCP 客户端的请求。

  2. 配置并启动 MCP 客户端

    在您的 MCP 客户端应用中,根据上述 “服务器配置” 部分的信息配置 'jcrawl4ai-mcp-server'。启动您的 MCP 客户端应用。

  3. 调用网页爬取工具

    在 LLM 应用中,可以使用 'crawl' 工具来爬取网页。例如,客户端可以发送如下 MCP 请求(JSON-RPC 格式):

    {
      "jsonrpc": "2.0",
      "method": "callTool",
      "params": {
        "tool_name": "crawl",
        "tool_arguments": {
          "urls": ["https://www.example.com"],
          "strategy": "best_first",
          "max_depth": 3,
          "output_format": "markdown"
        }
      },
      "id": 1
    }

    服务器将调用 Crawl4ai API 执行爬取任务,并将任务 ID 返回给客户端。

  4. 查询爬取结果

    使用 'task' 工具和任务 ID 查询爬取结果。例如,客户端可以发送如下 MCP 请求:

    {
      "jsonrpc": "2.0",
      "method": "callTool",
      "params": {
        "tool_name": "task",
        "tool_arguments": {
          "taskId": "your_task_id" // 替换为实际的任务 ID
        }
      },
      "id": 2
    }

    服务器将查询 Crawl4ai API 获取爬取结果,并将结果返回给客户端。

通过以上步骤,您的 LLM 应用即可利用 jcrawl4ai-mcp-server 提供的网页爬取能力。

信息

分类

网页与API