使用说明

项目简介

jcrawl4ai-mcp-server 是一个基于 Spring Boot 框架构建的 MCP 服务器，它集成了 Crawl4ai API，为大型语言模型（LLM）客户端提供网页爬取工具。通过此服务器，LLM 应用可以轻松地调用 Crawl4ai 的强大爬虫能力，获取网页内容，从而扩展 LLM 的知识来源和应用场景。

主要功能点

网页爬取工具: 提供 'crawl' 工具，允许 LLM 客户端指定目标 URL、爬取策略、最大深度和输出格式，调用 Crawl4ai API 执行网页爬取任务。
爬取结果查询工具: 提供 'task' 工具，允许 LLM 客户端通过任务 ID 查询爬取任务的执行状态和结果。
标准 MCP 协议: 遵循 Model Context Protocol (MCP) 协议，方便与各种 MCP 客户端集成。
易于配置: 通过 'application.properties' 文件配置 Crawl4ai API 的 base URL 和 API Token。
基于 Spring Boot: 利用 Spring Boot 的便捷性，易于部署和扩展。

安装步骤

克隆仓库

git clone https://github.com/rainyheart/jcrawl4ai-mcp-server.git
cd jcrawl4ai-mcp-server

构建项目

确保已安装 Maven，然后执行 Maven 命令进行构建：
```
mvn clean install
```
构建成功后，JAR 文件将生成在 'target' 目录下，例如 'jcrawl4ai-mcp-server-1.0.0.jar'。

配置 Crawl4ai API

编辑 'src/main/resources/application.properties' 文件，配置 Crawl4ai API 的基础 URL 和 API Token：

cawl4ai.base-url=http://your-cral4ai-server-url:11235  # 替换为您的 Crawl4ai 服务器地址
cawl4ai.api-token=your-api-token # 替换为您的 Crawl4ai API Token

服务器配置

对于 MCP 客户端，需要配置以下 JSON 信息以连接到 jcrawl4ai-mcp-server：

{
  "mcpServers": {
    "jcrawl4ai-mcp-server": {
      "autoApprove": [
        "crawl",
        "task"
      ],
      "disabled": false,
      "timeout": 60,
      "command": "java",
      "args": [
        "-jar",
        "/path/to/your/jar/file/jcrawl4ai-mcp-server-1.0.0.jar"  // 请替换为实际的 JAR 文件路径
      ],
      "transportType": "stdio"
    }
  }
}

配置参数说明：

'server name': 'jcrawl4ai-mcp-server' - 服务器名称，客户端用于标识和引用。
'autoApprove': '["crawl", "task"]' - 自动批准的工具列表，客户端调用这些工具时无需用户额外授权。
'disabled': 'false' - 是否禁用此服务器，'false' 表示启用。
'timeout': '60' - 服务器命令执行超时时间，单位为秒。
'command': '"java"' - 启动服务器的命令，这里使用 Java 运行时环境。
'args': '["-jar", "/path/to/your/jar/file/jcrawl4ai-mcp-server-1.0.0.jar"]' - 启动服务器命令的参数，包括 '-jar' 参数和 JAR 文件路径。请务必将 '/path/to/your/jar/file/jcrawl4ai-mcp-server-1.0.0.jar' 替换为实际的 JAR 文件在您系统中的绝对路径。
'transportType': '"stdio"' - MCP 客户端与服务器通信的传输协议，这里使用标准输入输出流。

基本使用方法

启动 MCP 服务器

在 JAR 文件所在的目录下，打开终端并执行以下命令启动服务器：
```
java -jar target/jcrawl4ai-mcp-server-1.0.0.jar
```
服务器成功启动后，将监听标准输入输出流，等待 MCP 客户端的请求。
配置并启动 MCP 客户端

在您的 MCP 客户端应用中，根据上述 “服务器配置” 部分的信息配置 'jcrawl4ai-mcp-server'。启动您的 MCP 客户端应用。

调用网页爬取工具

在 LLM 应用中，可以使用 'crawl' 工具来爬取网页。例如，客户端可以发送如下 MCP 请求（JSON-RPC 格式）：

{
  "jsonrpc": "2.0",
  "method": "callTool",
  "params": {
    "tool_name": "crawl",
    "tool_arguments": {
      "urls": ["https://www.example.com"],
      "strategy": "best_first",
      "max_depth": 3,
      "output_format": "markdown"
    }
  },
  "id": 1
}

服务器将调用 Crawl4ai API 执行爬取任务，并将任务 ID 返回给客户端。

查询爬取结果

使用 'task' 工具和任务 ID 查询爬取结果。例如，客户端可以发送如下 MCP 请求：

{
  "jsonrpc": "2.0",
  "method": "callTool",
  "params": {
    "tool_name": "task",
    "tool_arguments": {
      "taskId": "your_task_id" // 替换为实际的任务 ID
    }
  },
  "id": 2
}

服务器将查询 Crawl4ai API 获取爬取结果，并将结果返回给客户端。

通过以上步骤，您的 LLM 应用即可利用 jcrawl4ai-mcp-server 提供的网页爬取能力。

Crawl4ai MCP Server