使用说明

项目简介

Vectorize MCP Server 是一个实现了 Model Context Protocol (MCP) 的服务器，旨在桥接大型语言模型 (LLM) 客户端与 Vectorize 平台强大的向量检索和文本处理能力。通过 MCP 协议，该服务器允许 LLM 客户端以标准化的方式调用 Vectorize 的功能，从而增强 LLM 在处理复杂任务时的上下文理解和信息获取能力。

主要功能点

文档检索 (Retrieve documents): 利用 Vectorize 平台的向量检索能力，根据用户提出的问题，从配置的 Pipeline 中检索相关文档。
文本抽取和分块 (Text extraction and chunking): 支持从多种文件类型中抽取文本内容，并将其分块为 Markdown 格式，便于 LLM 理解和处理文档内容。
深度研究 (Deep Research): 调用 Vectorize 平台的深度研究功能，根据用户查询生成一份详细的研究报告，可选地包含网络搜索结果，为 LLM 提供更全面的背景信息。

安装步骤

安装 Node.js 和 npm: 确保你的系统已安装 Node.js 和 npm (或 yarn)。
设置环境变量: 你需要设置以下环境变量，用于连接你的 Vectorize 账户和 Pipeline：
- 'VECTORIZE_ORG_ID': 你的 Vectorize 组织 ID。
- 'VECTORIZE_TOKEN': 你的 Vectorize API 访问令牌。
- 'VECTORIZE_PIPELINE_ID': 你要使用的 Vectorize Pipeline ID。你可以通过以下命令在终端中设置环境变量（示例）：
```
export VECTORIZE_ORG_ID=YOUR_ORG_ID
export VECTORIZE_TOKEN=YOUR_TOKEN
export VECTORIZE_PIPELINE_ID=YOUR_PIPELINE_ID
```
运行服务器: 使用 'npx' 命令即可快速启动服务器：
```
npx -y @vectorize-io/vectorize-mcp-server@latest
```
服务器默认使用标准输入输出 (stdio) 作为传输协议，监听来自 MCP 客户端的请求。

服务器配置

对于支持 MCP 协议的 LLM 客户端（例如 Claude、Windsurf、Cursor、Cline 等），你需要在客户端配置中添加 Vectorize MCP Server 的相关信息。以下是一个典型的 JSON 配置示例，你需要将其添加到你的 LLM 客户端的 MCP 服务器配置中：

{
  "mcpServers": {
    "vectorize": {  // 服务器名称，可以自定义
      "command": "npx",  // 启动服务器的命令
      "args": ["-y", "@vectorize-io/vectorize-mcp-server@latest"], // 启动命令的参数
      "env": {  // 环境变量配置
        "VECTORIZE_ORG_ID": "your-org-id",  // 替换为你的 Vectorize 组织 ID
        "VECTORIZE_TOKEN": "your-token",  // 替换为你的 Vectorize API 访问令牌
        "VECTORIZE_PIPELINE_ID": "your-pipeline-id"  // 替换为你要使用的 Vectorize Pipeline ID
      }
    }
  }
}

请务必将 'your-org-id', 'your-token', 'your-pipeline-id' 替换为你实际的 Vectorize 组织 ID、API 令牌和 Pipeline ID。

基本使用方法

配置完成后，LLM 客户端将能够通过 MCP 协议与 Vectorize MCP Server 通信，并调用其提供的工具。以下是一些工具调用的示例，你可以将这些 JSON 格式的请求发送给 MCP 服务器：

1. 文档检索 (retrieve):

{
  "name": "retrieve",
  "arguments": {
    "question": "公司财务状况如何？", // 你要检索的问题
    "k": 5  //  希望检索返回的文档数量 (可选，默认为 4)
  }
}

2. 文本抽取 (extract):

{
  "name": "extract",
  "arguments": {
    "base64document": "base64编码的文档内容", //  文档内容的 Base64 编码
    "contentType": "application/pdf"  //  文档的 MIME 类型，例如 "application/pdf", "text/plain" 等
  }
}

3. 深度研究 (deep-research):

{
  "name": "deep-research",
  "arguments": {
    "query": "生成一份关于公司财务状况的报告", //  你的研究查询
    "webSearch": true  //  是否包含网络搜索结果 (可选，默认为 false)
  }
}

LLM 客户端会根据你的指令，自动构造并发送这些请求给 Vectorize MCP Server，并利用返回的结果增强其自身的上下文理解和生成能力。

关键词