Kreuzberg 文档智能 MCP 服务器

关键词

文档提取 OCR识别多格式支持批量处理元数据读取

项目简介

Kreuzberg 是一个基于 Rust 核心的多语言文档智能框架，能够从PDF、Office文档、图片等56种格式中提取文本、元数据和结构化信息。

主要功能

多格式支持：支持 PDF、Word、Excel、PowerPoint、图片、HTML、XML、邮件等多种文档格式
OCR 集成：内置多个 OCR 后端（Tesseract、EasyOCR、PaddleOCR），支持表格提取
多语言绑定：提供 Rust、Python、TypeScript/Node.js、Ruby、Go、Java、C# 等多种编程语言支持
批量处理：支持并发处理多个文档，优化大规模文档处理工作负载
内存高效：流式解析器处理多GB文件时保持恒定内存使用
嵌入支持：内置文本嵌入功能，便于RAG管道使用

安装步骤

方法一：Docker 部署（推荐）

docker pull kreuzberg/kreuzberg:latest

方法二：从源码构建

安装 Rust 工具链
克隆仓库：'git clone https://github.com/kreuzberg-dev/kreuzberg
构建项目：'cargo build --release'

MCP 服务器配置

在您的 MCP 客户端（如 Claude Desktop）中配置：

{
  "mcpServers": {
    "kreuzberg": {
      "command": "docker",
      "args": ["run", "-i", "--rm", "kreuzberg/kreuzberg:latest", "mcp"]
}

配置参数说明

command: 使用 Docker 运行 Kreuzberg 镜像
args:
- 'run': 启动容器
- '-i': 交互模式
'--rm': 运行后自动删除容器
最后一个参数 '"mcp"' 表示以 MCP 服务器模式运行

基本使用方法

配置完成后，MCP客户端（如Claude）可以通过MCP协议直接调用Kreuzberg的文档处理功能，包括读取各种格式的文档内容、提取元数据和表格信息。

Kreuzberg MCP 服务器启动后，AI助手就可以：

提取PDF、Word、Excel等文档的文本内容
获取文档的元数据信息（作者、标题、创建日期等）
识别和提取文档中的表格结构
处理密码保护的 PDF 文档
自动语言检测和统计

服务器信息

分类

数据库与文件