项目简介
本项目是 MCP TTS Voicevox Server,一个基于 Model Context Protocol (MCP) 构建的文本到语音(TTS)合成服务器。它使用 VOICEVOX 引擎将文本转换为自然流畅的语音,并作为 MCP 工具提供给大型语言模型(LLM)客户端。
主要功能点
- 文本转语音:将文本内容合成为语音并播放。
- 语音合成查询生成:生成用于语音合成的详细查询参数,允许更精细的语音控制。
- 语音文件生成:根据文本或查询生成语音文件,并保存到指定路径。
- 灵活的语音定制:支持调整语速、音调等参数,以及选择不同的 VOICEVOX 说话人。
- MCP 工具集成:通过标准 MCP 协议与客户端通信,易于集成到各种 LLM 应用中。
安装步骤
-
安装 Node.js: 确保你的系统已安装 Node.js 运行环境。
-
安装 VOICEVOX 引擎: 下载并启动 VOICEVOX 引擎。请注意,VOICEVOX 引擎需要预先运行,本 MCP 服务器依赖于 VOICEVOX 引擎提供语音合成能力。
-
安装 MCP TTS Voicevox Server: 打开终端,运行以下命令全局安装 MCP TTS Voicevox Server:
npm install -g @kajidog/mcp-tts-voicevox
服务器配置
MCP 服务器配置('server_config.json')用于指导 MCP 客户端如何连接和使用本 TTS 服务器。以下是一个示例配置,你需要将其提供给你的 MCP 客户端。
{ "serverName": "mcp-tts-voicevox", "command": "mcp-tts-voicevox", "args": [], "description": "VOICEVOX 语音合成 MCP 服务器", "capabilities": [ "tool" ] }
- serverName: 服务器名称,客户端用以识别。
- command: 启动 MCP 服务器的命令,这里直接使用安装后可用的 'mcp-tts-voicevox' 命令。
- args: 启动命令的参数,本服务器无需额外参数,因此为空数组。
- description: 服务器的简要描述,方便用户理解其功能。
- capabilities: 声明服务器提供的能力,这里声明了 'tool' 能力,表示提供 MCP 工具。
基本使用方法
-
启动 VOICEVOX 引擎: 确保 VOICEVOX 引擎正在运行,默认地址为 'http://localhost:50021'。 你可以通过设置环境变量 'VOICEVOX_URL' 来更改引擎地址。
-
启动 MCP TTS Voicevox Server: 在终端中运行以下命令启动 MCP TTS Voicevox Server:
npx @kajidog/mcp-tts-voicevox服务器默认通过 Stdio 协议与 MCP 客户端通信。
-
通过 MCP 客户端调用工具: 在你的 MCP 客户端应用中,可以使用 'mcp.invoke' 方法调用本服务器提供的工具,例如:
-
文本转语音并播放:
await mcp.invoke("speak", { text: "你好,世界!", speaker: 3 }); -
生成语音合成查询:
const queryResult = await mcp.invoke("generate_query", { text: "今天天气真好。", speaker: 1 }); const query = JSON.parse(queryResult.content[0].text); -
根据查询生成语音文件:
const fileResult = await mcp.invoke("synthesize_file", { query: query, output: "/path/to/output.wav", speaker: 2 }); const filePath = fileResult.content[0].text;
详细的 API 参数和使用示例请参考仓库 README 文档和源代码。
-
环境变量
- VOICEVOX_URL: 指定 VOICEVOX 引擎的 URL。 默认值为 'http://localhost:50021'。
- VOICEVOX_DEFAULT_SPEAKER: 设置默认的 VOICEVOX 说话人 ID。 默认值为 '1'。
- VOICEVOX_DEFAULT_SPEED_SCALE: 设置默认的语速。 默认值为 '1.0'。
信息
分类
AI与计算