使用说明

项目简介

本项目是基于 Model Context Protocol (MCP) 协议实现的服务器,旨在为大型语言模型 (LLM) 提供图像生成和语音合成功能。它利用 VseGPT API 作为后端服务,通过 MCP 协议与 LLM 客户端进行通信,允许 LLM 通过工具调用生成图像和语音。

主要功能点

  • 图像生成工具 (generate_image): 允许 LLM 通过英文文本提示 (prompt) 调用 VseGPT API 生成图像。支持自定义图片尺寸和模型选择(通过环境变量配置)。
  • 语音合成工具 (generate_speech): 允许 LLM 将文本转换为语音。支持多种语音风格和指令配置(通过工具参数配置),并可配置播放器自动播放生成的语音。
  • 基于 FastMCP 框架: 简化 MCP 服务器的开发,提供标准的 MCP 协议处理和工具注册机制。
  • 环境变量配置: 通过环境变量灵活配置 VseGPT API 密钥、图像模型、图像尺寸等参数。

安装步骤

  1. 安装 Python: 确保您的系统已安装 Python 3.6 或更高版本。
  2. 安装 fastmcp 包: 打开终端或命令提示符,运行以下命令安装 'fastmcp' 包:
    pip install fastmcp==0.4.1
  3. 下载仓库代码: 从 GitHub 仓库 https://github.com/janvarev/mcp-vsepgt-server 下载代码到本地。

服务器配置

MCP 客户端配置示例 (JSON 格式):

您需要在 MCP 客户端中配置以下服务器信息,以便客户端能够连接并使用本 MCP 服务器提供的工具。

1. 图像生成服务器 (mcp_gen_image.py):

{
  "server_name": "VseGPT Image Generator",
  "command": "fastmcp",
  "args": [ "run", "mcp_gen_image.py" ],
  "notes": "请配置以下环境变量:\n- VSEGPT_API_KEY: 您的 VseGPT API 密钥 (必填)\n- IMG_MODEL_ID:  VseGPT 图像生成模型 ID (可选,默认为 img-dummy/image)\n- IMG_SIZE:  生成的图像尺寸 (可选,默认为 1024x1024,例如 1024x1024 或 512x512)"
}

2. 语音合成服务器 (mcp_gen_tts.py):

{
  "server_name": "VseGPT Speech Synthesizer",
  "command": "fastmcp",
  "args": [ "run", "mcp_gen_tts.py" ],
  "notes": "请配置以下环境变量:\n- VSEGPT_API_KEY: 您的 VseGPT API 密钥 (必填)"
}

配置说明:

  • '"server_name"': 服务器名称,用于在 MCP 客户端中标识服务器。
  • '"command"': 启动服务器的命令,这里使用 'fastmcp' 启动器。
  • '"args"': 传递给 'fastmcp' 命令的参数,指定要运行的 Python 脚本文件名。
  • '"notes"': 配置说明,重要: 告知用户需要配置的环境变量及其作用。用户需要在运行服务器之前,根据提示设置相应的环境变量。

环境变量配置方法 (示例):

在启动服务器之前,您需要设置必要的环境变量。以 Linux/macOS 为例,可以在终端中使用 'export' 命令设置环境变量:

export VSEGPT_API_KEY="your_vsegpt_api_key"  # 替换为您的 VseGPT API 密钥
# 可选配置
export IMG_MODEL_ID="your_image_model_id"
export IMG_SIZE="512x512"

在 Windows 系统中,可以在命令提示符中使用 'set' 命令,或在系统环境变量中进行配置。

基本使用方法

  1. 启动 MCP 服务器: 在配置好环境变量后,打开终端或命令提示符,进入代码仓库目录,根据您要使用的服务器,运行相应的命令。

    • 启动图像生成服务器:

      fastmcp run mcp_gen_image.py
    • 启动语音合成服务器:

      fastmcp run mcp_gen_tts.py

    服务器成功启动后,将监听 MCP 客户端的请求。

  2. 在 MCP 客户端中使用工具: 在您的 MCP 客户端中,配置好服务器连接信息后,即可调用服务器提供的工具。

    • 调用图像生成工具 (generate_image): 向服务器发送调用 'generate_image' 工具的 MCP 请求,并提供英文文本提示 (prompt_eng) 作为参数。服务器将调用 VseGPT API 生成图像,并将图像保存到本地,返回本地文件路径给客户端。

    • 调用语音合成工具 (generate_speech): 向服务器发送调用 'generate_speech' 工具的 MCP 请求,并提供文本 (text)、语音 ID (voice_id) 和指令 (instructions) 作为参数。服务器将调用 VseGPT API 合成语音,并将语音保存到本地,返回本地文件路径给客户端。

    MCP 客户端的具体使用方法请参考您所使用的 MCP 客户端的文档。客户端通常会提供图形界面或 API 接口来配置服务器连接和调用工具。

信息

分类

AI与计算