使用说明
项目简介
jcrawl4ai-mcp-server 是一个基于 Spring Boot 框架构建的 MCP 服务器,它集成了 Crawl4ai API,为大型语言模型(LLM)客户端提供网页爬取工具。通过此服务器,LLM 应用可以轻松地调用 Crawl4ai 的强大爬虫能力,获取网页内容,从而扩展 LLM 的知识来源和应用场景。
主要功能点
- 网页爬取工具: 提供 'crawl' 工具,允许 LLM 客户端指定目标 URL、爬取策略、最大深度和输出格式,调用 Crawl4ai API 执行网页爬取任务。
- 爬取结果查询工具: 提供 'task' 工具,允许 LLM 客户端通过任务 ID 查询爬取任务的执行状态和结果。
- 标准 MCP 协议: 遵循 Model Context Protocol (MCP) 协议,方便与各种 MCP 客户端集成。
- 易于配置: 通过 'application.properties' 文件配置 Crawl4ai API 的 base URL 和 API Token。
- 基于 Spring Boot: 利用 Spring Boot 的便捷性,易于部署和扩展。
安装步骤
-
克隆仓库
git clone https://github.com/rainyheart/jcrawl4ai-mcp-server.git cd jcrawl4ai-mcp-server -
构建项目
确保已安装 Maven,然后执行 Maven 命令进行构建:
mvn clean install构建成功后,JAR 文件将生成在 'target' 目录下,例如 'jcrawl4ai-mcp-server-1.0.0.jar'。
-
配置 Crawl4ai API
编辑 'src/main/resources/application.properties' 文件,配置 Crawl4ai API 的基础 URL 和 API Token:
cawl4ai.base-url=http://your-cral4ai-server-url:11235 # 替换为您的 Crawl4ai 服务器地址 cawl4ai.api-token=your-api-token # 替换为您的 Crawl4ai API Token
服务器配置
对于 MCP 客户端,需要配置以下 JSON 信息以连接到 jcrawl4ai-mcp-server:
{ "mcpServers": { "jcrawl4ai-mcp-server": { "autoApprove": [ "crawl", "task" ], "disabled": false, "timeout": 60, "command": "java", "args": [ "-jar", "/path/to/your/jar/file/jcrawl4ai-mcp-server-1.0.0.jar" // 请替换为实际的 JAR 文件路径 ], "transportType": "stdio" } } }
配置参数说明:
- 'server name': 'jcrawl4ai-mcp-server' - 服务器名称,客户端用于标识和引用。
- 'autoApprove': '["crawl", "task"]' - 自动批准的工具列表,客户端调用这些工具时无需用户额外授权。
- 'disabled': 'false' - 是否禁用此服务器,'false' 表示启用。
- 'timeout': '60' - 服务器命令执行超时时间,单位为秒。
- 'command': '"java"' - 启动服务器的命令,这里使用 Java 运行时环境。
- 'args': '["-jar", "/path/to/your/jar/file/jcrawl4ai-mcp-server-1.0.0.jar"]' - 启动服务器命令的参数,包括 '-jar' 参数和 JAR 文件路径。请务必将 '/path/to/your/jar/file/jcrawl4ai-mcp-server-1.0.0.jar' 替换为实际的 JAR 文件在您系统中的绝对路径。
- 'transportType': '"stdio"' - MCP 客户端与服务器通信的传输协议,这里使用标准输入输出流。
基本使用方法
-
启动 MCP 服务器
在 JAR 文件所在的目录下,打开终端并执行以下命令启动服务器:
java -jar target/jcrawl4ai-mcp-server-1.0.0.jar服务器成功启动后,将监听标准输入输出流,等待 MCP 客户端的请求。
-
配置并启动 MCP 客户端
在您的 MCP 客户端应用中,根据上述 “服务器配置” 部分的信息配置 'jcrawl4ai-mcp-server'。启动您的 MCP 客户端应用。
-
调用网页爬取工具
在 LLM 应用中,可以使用 'crawl' 工具来爬取网页。例如,客户端可以发送如下 MCP 请求(JSON-RPC 格式):
{ "jsonrpc": "2.0", "method": "callTool", "params": { "tool_name": "crawl", "tool_arguments": { "urls": ["https://www.example.com"], "strategy": "best_first", "max_depth": 3, "output_format": "markdown" } }, "id": 1 }服务器将调用 Crawl4ai API 执行爬取任务,并将任务 ID 返回给客户端。
-
查询爬取结果
使用 'task' 工具和任务 ID 查询爬取结果。例如,客户端可以发送如下 MCP 请求:
{ "jsonrpc": "2.0", "method": "callTool", "params": { "tool_name": "task", "tool_arguments": { "taskId": "your_task_id" // 替换为实际的任务 ID } }, "id": 2 }服务器将查询 Crawl4ai API 获取爬取结果,并将结果返回给客户端。
通过以上步骤,您的 LLM 应用即可利用 jcrawl4ai-mcp-server 提供的网页爬取能力。
信息
分类
网页与API