项目简介

Kreuzberg 是一个基于 Rust 核心的多语言文档智能框架,能够从PDF、Office文档、图片等56种格式中提取文本、元数据和结构化信息。

主要功能

  • 多格式支持:支持 PDF、Word、Excel、PowerPoint、图片、HTML、XML、邮件等多种文档格式
  • OCR 集成:内置多个 OCR 后端(Tesseract、EasyOCR、PaddleOCR),支持表格提取
  • 多语言绑定:提供 Rust、Python、TypeScript/Node.js、Ruby、Go、Java、C# 等多种编程语言支持
  • 批量处理:支持并发处理多个文档,优化大规模文档处理工作负载
  • 内存高效:流式解析器处理多GB文件时保持恒定内存使用
  • 嵌入支持:内置文本嵌入功能,便于RAG管道使用

安装步骤

方法一:Docker 部署(推荐)

docker pull kreuzberg/kreuzberg:latest

方法二:从源码构建

  1. 安装 Rust 工具链
  2. 克隆仓库:'git clone https://github.com/kreuzberg-dev/kreuzberg
  3. 构建项目:'cargo build --release'

MCP 服务器配置

在您的 MCP 客户端(如 Claude Desktop)中配置:

{
  "mcpServers": {
    "kreuzberg": {
      "command": "docker",
      "args": ["run", "-i", "--rm", "kreuzberg/kreuzberg:latest", "mcp"]
}

配置参数说明

  • command: 使用 Docker 运行 Kreuzberg 镜像
  • args:
    • 'run': 启动容器
    • '-i': 交互模式
  • '--rm': 运行后自动删除容器
  • 最后一个参数 '"mcp"' 表示以 MCP 服务器模式运行

基本使用方法

配置完成后,MCP客户端(如Claude)可以通过MCP协议直接调用Kreuzberg的文档处理功能,包括读取各种格式的文档内容、提取元数据和表格信息。

Kreuzberg MCP 服务器启动后,AI助手就可以:

  • 提取PDF、Word、Excel等文档的文本内容
  • 获取文档的元数据信息(作者、标题、创建日期等)
  • 识别和提取文档中的表格结构
  • 处理密码保护的 PDF 文档
  • 自动语言检测和统计

信息

分类

数据库与文件