项目简介
Unstract是一个专门用于自动化文档处理工作流的数据层平台,其MCP服务器实现允许AI智能体和LLM客户端通过标准化的Model Context Protocol访问文档解析和结构化提取功能。
主要功能点
- 多格式文档支持:支持DOCX、PDF、PPT、XLS、图像文件等20+种常见格式
- 智能文本提取:通过多种文本提取适配器从复杂文档中准确提取内容
- 结构化数据输出:将非结构化文档内容转换为标准化的JSON格式
- 多模态集成:支持OpenAI、Anthropic、Google VertexAI、Azure OpenAI等主流LLM提供商
- 企业级特性:支持双LLM挑战验证、单次提取优化、人工审核等高级功能
安装步骤
- 系统要求:Linux或MacOS,8GB RAM,Docker环境
- 克隆仓库:'git clone https://github.com/Zipstack/unstract'
- 运行平台:'./run-platform.sh'
- 访问地址:http://frontend.unstract.localhost
- 登录凭证:默认用户名和密码均为'unstract'
服务器配置
MCP客户端需要配置以下信息来连接Unstract MCP服务器:
{ "name": "unstract", "command": "启动Unstract平台的相关命令' } **配置参数说明:** - 作为企业级平台,Unstract支持SSO单点登录和团队协作 - 提供14天免费试用,支持云端和本地部署两种模式 ## 基本使用方法 1. 在Prompt Studio中定义数据提取模式 2. 通过MCP协议将Unstract作为上下文服务集成到AI应用中 3. 支持文档批量处理和实时API调用
信息
分类
数据库与文件