项目简介

Crawl4Claude 是一个集文档抓取、结构化存储和MCP服务器功能于一体的工具箱。它可以抓取任意文档网站，构建可搜索的本地知识库，并通过Model Context Protocol (MCP) 集成到支持MCP的LLM客户端（如Claude Desktop），为LLM提供丰富的文档上下文和调用能力。

主要功能点

通用文档抓取: 可配置抓取几乎任何在线文档网站的内容。
结构化知识库: 将抓取的内容存储在带有全文搜索功能的SQLite数据库中。
MCP服务器: 实现标准的Model Context Protocol，允许LLM客户端发现和调用工具访问文档数据。
LLM友好输出: 生成为AI应用优化的文档上下文文件。
提供AI工具: 通过MCP向LLM暴露搜索、查询、浏览文档内容的能力。

安装步骤

克隆仓库: 将项目仓库克隆到本地。

git clone https://github.com/dragomirweb/Crawl4Claude.git
cd Crawl4Claude

安装依赖: 确保您已安装 Python 3.8 或更高版本，然后安装所需的库。

pip install -r requirements.txt

服务器配置

要将此MCP服务器与您的MCP客户端（如Claude Desktop）连接，您需要在客户端的配置中添加服务器信息。通常，这涉及编辑客户端的配置文件（例如 'claude_desktop_config.json'）。

配置信息是JSON格式，需要指定如何启动该服务器。以下是您需要配置的关键字段及其说明：

'server_name': 服务器的唯一标识符（例如，来自 'config.py' 中的 'server_name' 或自动生成的名称）。
'command': 启动服务器脚本的命令，通常是 'python' 或 'python3'。
'args': 传递给 'command' 的参数列表，通常是服务器脚本的路径（例如，'mcp_docs_server.py' 的绝对路径）。
'cwd': 脚本的工作目录，应设置为项目的根目录路径。
'env': 传递给服务器进程的环境变量，可用于覆盖 'config.py' 中的设置（例如，'DOCS_DB_PATH' 指定数据库位置）。

本项目提供了自动生成 MCP 配置文件的工具 'utils/gen_mcp.py'。运行此脚本会生成一个 'mcp/claude_mcp_config.json' 文件，其中包含了 Claude Desktop 可直接使用的配置示例。请按照该文件中的说明，将其内容复制到您的 Claude Desktop 配置文件中并重启 Claude Desktop。

基本使用方法

配置抓取目标: 编辑 'config.py' 文件，设置您要抓取的文档网站的 'base_url' 及其他抓取规则。

运行抓取器: 执行抓取脚本，生成文档数据库。

python docs_scraper.py

生成MCP配置: 运行工具脚本生成Claude Desktop的MCP配置示例文件。
```
python utils/gen_mcp.py
```
集成到Claude: 按照 'mcp/claude_mcp_config.json' 文件中的说明，将生成的配置添加到您的Claude Desktop配置文件中，并重启Claude Desktop。
在Claude中使用: 连接成功后，您就可以在与Claude的对话中使用文档MCP服务器提供的工具，例如：
- 询问 Claude "搜索文档关于认证的内容" (会调用 'search_documentation' 工具)
- 询问 Claude "列出所有文档章节" (会调用 'get_documentation_sections' 工具)
- 询问 Claude "显示某个页面的完整内容" (会调用 'get_page_content' 工具)

关键词

项目简介

主要功能点

安装步骤

服务器配置

基本使用方法

信息