项目简介

本项目是 MCP TTS Voicevox Server，一个基于 Model Context Protocol (MCP) 构建的文本到语音（TTS）合成服务器。它使用 VOICEVOX 引擎将文本转换为自然流畅的语音，并作为 MCP 工具提供给大型语言模型（LLM）客户端。

主要功能点

文本转语音：将文本内容合成为语音并播放。
语音合成查询生成：生成用于语音合成的详细查询参数，允许更精细的语音控制。
语音文件生成：根据文本或查询生成语音文件，并保存到指定路径。
灵活的语音定制：支持调整语速、音调等参数，以及选择不同的 VOICEVOX 说话人。
MCP 工具集成：通过标准 MCP 协议与客户端通信，易于集成到各种 LLM 应用中。

安装步骤

安装 Node.js: 确保你的系统已安装 Node.js 运行环境。
安装 VOICEVOX 引擎: 下载并启动 VOICEVOX 引擎。请注意，VOICEVOX 引擎需要预先运行，本 MCP 服务器依赖于 VOICEVOX 引擎提供语音合成能力。

安装 MCP TTS Voicevox Server: 打开终端，运行以下命令全局安装 MCP TTS Voicevox Server：

npm install -g @kajidog/mcp-tts-voicevox

服务器配置

MCP 服务器配置（'server_config.json'）用于指导 MCP 客户端如何连接和使用本 TTS 服务器。以下是一个示例配置，你需要将其提供给你的 MCP 客户端。

{
  "serverName": "mcp-tts-voicevox",
  "command": "mcp-tts-voicevox",
  "args": [],
  "description": "VOICEVOX 语音合成 MCP 服务器",
  "capabilities": [
    "tool"
  ]
}

serverName: 服务器名称，客户端用以识别。
command: 启动 MCP 服务器的命令，这里直接使用安装后可用的 'mcp-tts-voicevox' 命令。
args: 启动命令的参数，本服务器无需额外参数，因此为空数组。
description: 服务器的简要描述，方便用户理解其功能。
capabilities: 声明服务器提供的能力，这里声明了 'tool' 能力，表示提供 MCP 工具。

基本使用方法

启动 VOICEVOX 引擎: 确保 VOICEVOX 引擎正在运行，默认地址为 'http://localhost:50021'。你可以通过设置环境变量 'VOICEVOX_URL' 来更改引擎地址。
启动 MCP TTS Voicevox Server: 在终端中运行以下命令启动 MCP TTS Voicevox Server：
```
npx @kajidog/mcp-tts-voicevox
```
服务器默认通过 Stdio 协议与 MCP 客户端通信。

通过 MCP 客户端调用工具: 在你的 MCP 客户端应用中，可以使用 'mcp.invoke' 方法调用本服务器提供的工具，例如：

文本转语音并播放:

await mcp.invoke("speak", { text: "你好，世界！", speaker: 3 });

生成语音合成查询:

const queryResult = await mcp.invoke("generate_query", { text: "今天天气真好。", speaker: 1 });
const query = JSON.parse(queryResult.content[0].text);

根据查询生成语音文件:

const fileResult = await mcp.invoke("synthesize_file", { query: query, output: "/path/to/output.wav", speaker: 2 });
const filePath = fileResult.content[0].text;

详细的 API 参数和使用示例请参考仓库 README 文档和源代码。

环境变量

VOICEVOX_URL: 指定 VOICEVOX 引擎的 URL。默认值为 'http://localhost:50021'。
VOICEVOX_DEFAULT_SPEAKER: 设置默认的 VOICEVOX 说话人 ID。默认值为 '1'。
VOICEVOX_DEFAULT_SPEED_SCALE: 设置默认的语速。默认值为 '1.0'。

关键词