使用说明
项目简介
本项目是基于 Model Context Protocol (MCP) 协议实现的服务器,旨在为大型语言模型 (LLM) 提供图像生成和语音合成功能。它利用 VseGPT API 作为后端服务,通过 MCP 协议与 LLM 客户端进行通信,允许 LLM 通过工具调用生成图像和语音。
主要功能点
- 图像生成工具 (generate_image): 允许 LLM 通过英文文本提示 (prompt) 调用 VseGPT API 生成图像。支持自定义图片尺寸和模型选择(通过环境变量配置)。
- 语音合成工具 (generate_speech): 允许 LLM 将文本转换为语音。支持多种语音风格和指令配置(通过工具参数配置),并可配置播放器自动播放生成的语音。
- 基于 FastMCP 框架: 简化 MCP 服务器的开发,提供标准的 MCP 协议处理和工具注册机制。
- 环境变量配置: 通过环境变量灵活配置 VseGPT API 密钥、图像模型、图像尺寸等参数。
安装步骤
- 安装 Python: 确保您的系统已安装 Python 3.6 或更高版本。
- 安装 fastmcp 包: 打开终端或命令提示符,运行以下命令安装 'fastmcp' 包:
pip install fastmcp==0.4.1 - 下载仓库代码: 从 GitHub 仓库 https://github.com/janvarev/mcp-vsepgt-server 下载代码到本地。
服务器配置
MCP 客户端配置示例 (JSON 格式):
您需要在 MCP 客户端中配置以下服务器信息,以便客户端能够连接并使用本 MCP 服务器提供的工具。
1. 图像生成服务器 (mcp_gen_image.py):
{ "server_name": "VseGPT Image Generator", "command": "fastmcp", "args": [ "run", "mcp_gen_image.py" ], "notes": "请配置以下环境变量:\n- VSEGPT_API_KEY: 您的 VseGPT API 密钥 (必填)\n- IMG_MODEL_ID: VseGPT 图像生成模型 ID (可选,默认为 img-dummy/image)\n- IMG_SIZE: 生成的图像尺寸 (可选,默认为 1024x1024,例如 1024x1024 或 512x512)" }
2. 语音合成服务器 (mcp_gen_tts.py):
{ "server_name": "VseGPT Speech Synthesizer", "command": "fastmcp", "args": [ "run", "mcp_gen_tts.py" ], "notes": "请配置以下环境变量:\n- VSEGPT_API_KEY: 您的 VseGPT API 密钥 (必填)" }
配置说明:
- '"server_name"': 服务器名称,用于在 MCP 客户端中标识服务器。
- '"command"': 启动服务器的命令,这里使用 'fastmcp' 启动器。
- '"args"': 传递给 'fastmcp' 命令的参数,指定要运行的 Python 脚本文件名。
- '"notes"': 配置说明,重要: 告知用户需要配置的环境变量及其作用。用户需要在运行服务器之前,根据提示设置相应的环境变量。
环境变量配置方法 (示例):
在启动服务器之前,您需要设置必要的环境变量。以 Linux/macOS 为例,可以在终端中使用 'export' 命令设置环境变量:
export VSEGPT_API_KEY="your_vsegpt_api_key" # 替换为您的 VseGPT API 密钥 # 可选配置 export IMG_MODEL_ID="your_image_model_id" export IMG_SIZE="512x512"
在 Windows 系统中,可以在命令提示符中使用 'set' 命令,或在系统环境变量中进行配置。
基本使用方法
-
启动 MCP 服务器: 在配置好环境变量后,打开终端或命令提示符,进入代码仓库目录,根据您要使用的服务器,运行相应的命令。
-
启动图像生成服务器:
fastmcp run mcp_gen_image.py -
启动语音合成服务器:
fastmcp run mcp_gen_tts.py
服务器成功启动后,将监听 MCP 客户端的请求。
-
-
在 MCP 客户端中使用工具: 在您的 MCP 客户端中,配置好服务器连接信息后,即可调用服务器提供的工具。
-
调用图像生成工具 (generate_image): 向服务器发送调用 'generate_image' 工具的 MCP 请求,并提供英文文本提示 (prompt_eng) 作为参数。服务器将调用 VseGPT API 生成图像,并将图像保存到本地,返回本地文件路径给客户端。
-
调用语音合成工具 (generate_speech): 向服务器发送调用 'generate_speech' 工具的 MCP 请求,并提供文本 (text)、语音 ID (voice_id) 和指令 (instructions) 作为参数。服务器将调用 VseGPT API 合成语音,并将语音保存到本地,返回本地文件路径给客户端。
MCP 客户端的具体使用方法请参考您所使用的 MCP 客户端的文档。客户端通常会提供图形界面或 API 接口来配置服务器连接和调用工具。
-
信息
分类
AI与计算