使用说明

项目简介

本项目是基于 Model Context Protocol (MCP) 协议实现的服务器，旨在为大型语言模型 (LLM) 提供图像生成和语音合成功能。它利用 VseGPT API 作为后端服务，通过 MCP 协议与 LLM 客户端进行通信，允许 LLM 通过工具调用生成图像和语音。

主要功能点

图像生成工具 (generate_image): 允许 LLM 通过英文文本提示 (prompt) 调用 VseGPT API 生成图像。支持自定义图片尺寸和模型选择（通过环境变量配置）。
语音合成工具 (generate_speech): 允许 LLM 将文本转换为语音。支持多种语音风格和指令配置（通过工具参数配置），并可配置播放器自动播放生成的语音。
基于 FastMCP 框架: 简化 MCP 服务器的开发，提供标准的 MCP 协议处理和工具注册机制。
环境变量配置: 通过环境变量灵活配置 VseGPT API 密钥、图像模型、图像尺寸等参数。

安装步骤

安装 Python: 确保您的系统已安装 Python 3.6 或更高版本。
安装 fastmcp 包: 打开终端或命令提示符，运行以下命令安装 'fastmcp' 包：
```
pip install fastmcp==0.4.1
```
下载仓库代码: 从 GitHub 仓库 https://github.com/janvarev/mcp-vsepgt-server 下载代码到本地。

服务器配置

MCP 客户端配置示例 (JSON 格式):

您需要在 MCP 客户端中配置以下服务器信息，以便客户端能够连接并使用本 MCP 服务器提供的工具。

1. 图像生成服务器 (mcp_gen_image.py):

{
  "server_name": "VseGPT Image Generator",
  "command": "fastmcp",
  "args": [ "run", "mcp_gen_image.py" ],
  "notes": "请配置以下环境变量：\n- VSEGPT_API_KEY: 您的 VseGPT API 密钥 (必填)\n- IMG_MODEL_ID:  VseGPT 图像生成模型 ID (可选，默认为 img-dummy/image)\n- IMG_SIZE:  生成的图像尺寸 (可选，默认为 1024x1024，例如 1024x1024 或 512x512)"
}

2. 语音合成服务器 (mcp_gen_tts.py):

{
  "server_name": "VseGPT Speech Synthesizer",
  "command": "fastmcp",
  "args": [ "run", "mcp_gen_tts.py" ],
  "notes": "请配置以下环境变量：\n- VSEGPT_API_KEY: 您的 VseGPT API 密钥 (必填)"
}

配置说明:

'"server_name"': 服务器名称，用于在 MCP 客户端中标识服务器。
'"command"': 启动服务器的命令，这里使用 'fastmcp' 启动器。
'"args"': 传递给 'fastmcp' 命令的参数，指定要运行的 Python 脚本文件名。
'"notes"': 配置说明，重要: 告知用户需要配置的环境变量及其作用。用户需要在运行服务器之前，根据提示设置相应的环境变量。

环境变量配置方法 (示例):

在启动服务器之前，您需要设置必要的环境变量。以 Linux/macOS 为例，可以在终端中使用 'export' 命令设置环境变量：

export VSEGPT_API_KEY="your_vsegpt_api_key"  # 替换为您的 VseGPT API 密钥
# 可选配置
export IMG_MODEL_ID="your_image_model_id"
export IMG_SIZE="512x512"

在 Windows 系统中，可以在命令提示符中使用 'set' 命令，或在系统环境变量中进行配置。

基本使用方法

启动 MCP 服务器: 在配置好环境变量后，打开终端或命令提示符，进入代码仓库目录，根据您要使用的服务器，运行相应的命令。
- 启动图像生成服务器:
```
fastmcp run mcp_gen_image.py
```
- 启动语音合成服务器:
```
fastmcp run mcp_gen_tts.py
```
服务器成功启动后，将监听 MCP 客户端的请求。
在 MCP 客户端中使用工具: 在您的 MCP 客户端中，配置好服务器连接信息后，即可调用服务器提供的工具。
- 调用图像生成工具 (generate_image): 向服务器发送调用 'generate_image' 工具的 MCP 请求，并提供英文文本提示 (prompt_eng) 作为参数。服务器将调用 VseGPT API 生成图像，并将图像保存到本地，返回本地文件路径给客户端。
- 调用语音合成工具 (generate_speech): 向服务器发送调用 'generate_speech' 工具的 MCP 请求，并提供文本 (text)、语音 ID (voice_id) 和指令 (instructions) 作为参数。服务器将调用 VseGPT API 合成语音，并将语音保存到本地，返回本地文件路径给客户端。
MCP 客户端的具体使用方法请参考您所使用的 MCP 客户端的文档。客户端通常会提供图形界面或 API 接口来配置服务器连接和调用工具。

关键词