项目简介
Kreuzberg 是一个基于 Rust 核心的多语言文档智能框架,能够从PDF、Office文档、图片等56种格式中提取文本、元数据和结构化信息。
主要功能
- 多格式支持:支持 PDF、Word、Excel、PowerPoint、图片、HTML、XML、邮件等多种文档格式
- OCR 集成:内置多个 OCR 后端(Tesseract、EasyOCR、PaddleOCR),支持表格提取
- 多语言绑定:提供 Rust、Python、TypeScript/Node.js、Ruby、Go、Java、C# 等多种编程语言支持
- 批量处理:支持并发处理多个文档,优化大规模文档处理工作负载
- 内存高效:流式解析器处理多GB文件时保持恒定内存使用
- 嵌入支持:内置文本嵌入功能,便于RAG管道使用
安装步骤
方法一:Docker 部署(推荐)
docker pull kreuzberg/kreuzberg:latest
方法二:从源码构建
- 安装 Rust 工具链
- 克隆仓库:'git clone https://github.com/kreuzberg-dev/kreuzberg
- 构建项目:'cargo build --release'
MCP 服务器配置
在您的 MCP 客户端(如 Claude Desktop)中配置:
{ "mcpServers": { "kreuzberg": { "command": "docker", "args": ["run", "-i", "--rm", "kreuzberg/kreuzberg:latest", "mcp"] }
配置参数说明
- command: 使用 Docker 运行 Kreuzberg 镜像
- args:
- 'run': 启动容器
- '-i': 交互模式
- '--rm': 运行后自动删除容器
- 最后一个参数 '"mcp"' 表示以 MCP 服务器模式运行
基本使用方法
配置完成后,MCP客户端(如Claude)可以通过MCP协议直接调用Kreuzberg的文档处理功能,包括读取各种格式的文档内容、提取元数据和表格信息。
Kreuzberg MCP 服务器启动后,AI助手就可以:
- 提取PDF、Word、Excel等文档的文本内容
- 获取文档的元数据信息(作者、标题、创建日期等)
- 识别和提取文档中的表格结构
- 处理密码保护的 PDF 文档
- 自动语言检测和统计
信息
分类
数据库与文件