项目简介

本项目是 MCP TTS Voicevox Server,一个基于 Model Context Protocol (MCP) 构建的文本到语音(TTS)合成服务器。它使用 VOICEVOX 引擎将文本转换为自然流畅的语音,并作为 MCP 工具提供给大型语言模型(LLM)客户端。

主要功能点

  • 文本转语音:将文本内容合成为语音并播放。
  • 语音合成查询生成:生成用于语音合成的详细查询参数,允许更精细的语音控制。
  • 语音文件生成:根据文本或查询生成语音文件,并保存到指定路径。
  • 灵活的语音定制:支持调整语速、音调等参数,以及选择不同的 VOICEVOX 说话人。
  • MCP 工具集成:通过标准 MCP 协议与客户端通信,易于集成到各种 LLM 应用中。

安装步骤

  1. 安装 Node.js: 确保你的系统已安装 Node.js 运行环境。

  2. 安装 VOICEVOX 引擎: 下载并启动 VOICEVOX 引擎。请注意,VOICEVOX 引擎需要预先运行,本 MCP 服务器依赖于 VOICEVOX 引擎提供语音合成能力。

  3. 安装 MCP TTS Voicevox Server: 打开终端,运行以下命令全局安装 MCP TTS Voicevox Server:

    npm install -g @kajidog/mcp-tts-voicevox

服务器配置

MCP 服务器配置('server_config.json')用于指导 MCP 客户端如何连接和使用本 TTS 服务器。以下是一个示例配置,你需要将其提供给你的 MCP 客户端。

{
  "serverName": "mcp-tts-voicevox",
  "command": "mcp-tts-voicevox",
  "args": [],
  "description": "VOICEVOX 语音合成 MCP 服务器",
  "capabilities": [
    "tool"
  ]
}
  • serverName: 服务器名称,客户端用以识别。
  • command: 启动 MCP 服务器的命令,这里直接使用安装后可用的 'mcp-tts-voicevox' 命令。
  • args: 启动命令的参数,本服务器无需额外参数,因此为空数组。
  • description: 服务器的简要描述,方便用户理解其功能。
  • capabilities: 声明服务器提供的能力,这里声明了 'tool' 能力,表示提供 MCP 工具。

基本使用方法

  1. 启动 VOICEVOX 引擎: 确保 VOICEVOX 引擎正在运行,默认地址为 'http://localhost:50021'。 你可以通过设置环境变量 'VOICEVOX_URL' 来更改引擎地址。

  2. 启动 MCP TTS Voicevox Server: 在终端中运行以下命令启动 MCP TTS Voicevox Server:

    npx @kajidog/mcp-tts-voicevox

    服务器默认通过 Stdio 协议与 MCP 客户端通信。

  3. 通过 MCP 客户端调用工具: 在你的 MCP 客户端应用中,可以使用 'mcp.invoke' 方法调用本服务器提供的工具,例如:

    • 文本转语音并播放:

      await mcp.invoke("speak", { text: "你好,世界!", speaker: 3 });
    • 生成语音合成查询:

      const queryResult = await mcp.invoke("generate_query", { text: "今天天气真好。", speaker: 1 });
      const query = JSON.parse(queryResult.content[0].text);
    • 根据查询生成语音文件:

      const fileResult = await mcp.invoke("synthesize_file", { query: query, output: "/path/to/output.wav", speaker: 2 });
      const filePath = fileResult.content[0].text;

    详细的 API 参数和使用示例请参考仓库 README 文档和源代码。

环境变量

  • VOICEVOX_URL: 指定 VOICEVOX 引擎的 URL。 默认值为 'http://localhost:50021'。
  • VOICEVOX_DEFAULT_SPEAKER: 设置默认的 VOICEVOX 说话人 ID。 默认值为 '1'。
  • VOICEVOX_DEFAULT_SPEED_SCALE: 设置默认的语速。 默认值为 '1.0'。

信息

分类

AI与计算