项目简介

Unstract是一个专门用于自动化文档处理工作流的数据层平台,其MCP服务器实现允许AI智能体和LLM客户端通过标准化的Model Context Protocol访问文档解析和结构化提取功能。

主要功能点

  • 多格式文档支持:支持DOCX、PDF、PPT、XLS、图像文件等20+种常见格式
  • 智能文本提取:通过多种文本提取适配器从复杂文档中准确提取内容
  • 结构化数据输出:将非结构化文档内容转换为标准化的JSON格式
  • 多模态集成:支持OpenAI、Anthropic、Google VertexAI、Azure OpenAI等主流LLM提供商
  • 企业级特性:支持双LLM挑战验证、单次提取优化、人工审核等高级功能

安装步骤

  1. 系统要求:Linux或MacOS,8GB RAM,Docker环境
  2. 克隆仓库:'git clone https://github.com/Zipstack/unstract'
  3. 运行平台:'./run-platform.sh'
  4. 访问地址:http://frontend.unstract.localhost
  5. 登录凭证:默认用户名和密码均为'unstract'

服务器配置

MCP客户端需要配置以下信息来连接Unstract MCP服务器:

{
  "name": "unstract",
  "command": "启动Unstract平台的相关命令'
}

**配置参数说明:**
- 作为企业级平台,Unstract支持SSO单点登录和团队协作
- 提供14天免费试用,支持云端和本地部署两种模式

## 基本使用方法
1. 在Prompt Studio中定义数据提取模式
2. 通过MCP协议将Unstract作为上下文服务集成到AI应用中
3. 支持文档批量处理和实时API调用

信息

分类

数据库与文件