使用说明
项目简介
本项目是 unstructured-js-client 仓库的一部分,它不仅是一个用于Unstructured API的JavaScript/TypeScript SDK,同时也是一个可安装的 Model Context Protocol (MCP) 服务器。该服务器允许LLM客户端通过标准的MCP协议,调用Unstructured API强大的文档解析功能,实现非结构化数据的处理和提取。
主要功能点
- 文档解析即服务: 将Unstructured API的文档解析能力封装成MCP工具,供LLM应用调用。
- 支持多种文档格式: 能够处理包括PDF、DOCX、PPTX、纯文本等多种常见的文档格式。
- 标准化MCP接口: 遵循MCP协议标准,通过JSON-RPC与客户端通信,易于集成到支持MCP协议的LLM应用中。
- 灵活部署: 可作为独立的MCP服务器部署,为各类LLM应用提供统一的文档解析服务。
- 工具集成: 目前主要提供 'general-partition' 工具,用于文档内容解析和结构化提取。
安装步骤
-
安装 npm 包: 使用 npm 或 yarn 安装 'unstructured-client' 包,同时安装为开发依赖。
npm install unstructured-client --include=dev或
yarn add unstructured-client --dev -
Node.js 版本要求: 确保你的 Node.js 版本为 v20 或更高。
服务器配置
MCP服务器需要配置到支持MCP协议的LLM客户端中,例如 Claude 或 Cursor。以下是配置示例,请根据你的客户端类型选择配置:
Claude 客户端配置 (claude_desktop_config.json):
{ "mcpServers": { "Unstructured": { "command": "npx", "args": [ "-y", "--package", "unstructured-client", "--", "mcp", "start" ] } } }
参数注释:
- 'server name': "Unstructured" (服务器名称,可自定义)
- 'command': "npx" (Node.js 包执行器)
- 'args': 启动服务器的参数列表
- '"-y", "--package", "unstructured-client"': 自动安装并指定要运行的 npm 包为 'unstructured-client'
- '"--"': 分隔 npm 参数和服务器程序参数
- '"mcp", "start"': 指定 'unstructured-client' 包执行 'mcp' 命令的 'start' 子命令,启动 MCP 服务器
Cursor 编辑器配置: 在 Cursor 编辑器中,进入 'Cursor Settings > Features > MCP Servers > Add new MCP server',并使用以下设置:
- Name: 'Unstructured' (服务器名称,可自定义)
- Type: 'command'
- Command:
npx -y --package unstructured-client -- mcp start
查看更多服务器参数: 可以通过以下命令查看 'mcp start' 命令的更多可用参数:
npx -y --package unstructured-client -- mcp start --help
基本使用方法
- 启动 MCP 服务器: 按照上述配置在 LLM 客户端中启动 MCP 服务器。
- LLM 客户端调用: 在 LLM 应用中,通过 MCP 协议向配置的 "Unstructured" 服务器发送请求,调用 'general-partition' 工具,并传递文档文件等参数。
- 获取解析结果: MCP 服务器将调用 Unstructured API 解析文档,并将结构化数据结果以 JSON-RPC 响应的形式返回给 LLM 客户端。
- 参考 Unstructured API 文档: 关于 'general-partition' 工具的具体参数、支持的文档类型以及更详细的使用方法,请参考 Unstructured Platform API 文档。
信息
分类
AI与计算