使用说明

项目简介

Edge TTS MCP 服务器是一个实现了 Model Context Protocol (MCP) 的后端服务，它集成了 Microsoft Edge 的文本转语音 (TTS) 引擎。该服务器旨在为 AI 助手和聊天机器人等应用提供高质量、自然的语音合成功能。通过 MCP 协议，客户端可以方便地调用服务器提供的文本转语音工具，获取语音数据，从而实现听觉交互。

主要功能点

文本到语音转换: 将文本内容转换为自然流畅的语音。
多语言和多音色支持: 支持 Microsoft Edge TTS 引擎提供的多种语言和音色选择。
可调节的语音参数: 允许调整语速、音调和音量等参数，以定制语音效果。
音频播放控制: 支持控制是否自动播放生成的音频，并提供多种播放方式。
标准的 MCP 协议接口: 通过 JSON-RPC 协议与客户端通信，易于集成到支持 MCP 协议的 LLM 应用中。

安装步骤

安装 Python 包: 使用 pip 命令安装 'edge_tts_mcp_server' 包。

pip install "edge_tts_mcp_server"

或者，如果需要以开发模式安装，请先克隆仓库到本地，然后执行：

git clone https://github.com/yuiseki/edge_tts_mcp_server.git
cd edge_tts_mcp_server
pip install -e .

服务器配置

要使 MCP 客户端（如 VS Code 插件）连接到 Edge TTS MCP 服务器，需要在客户端的 MCP 服务器配置中添加以下信息。以下是 VS Code 'settings.json' 的配置示例，展示了如何配置名为 "edge-tts" 的服务器连接：

"mcp": {
  "servers": {
    "edge-tts": {
      "command": "uv",
      "args": [
        "--directory",
        "路径/到/edge_tts_mcp_server/src/edge_tts_mcp_server",  // 请替换为 edge_tts_mcp_server 模块的实际路径
        "run",
        "server.py"
      ]
    }
  }
}

配置参数说明:

'"edge-tts"': 服务器名称，可以自定义，用于在客户端中标识该服务器连接。
'"command"': 启动服务器的命令。这里使用 'uv'，它是一个 ASGI 服务器，用于运行 'server.py'。确保你的系统已安装 'uvicorn' 或类似的 ASGI 服务器，或者将 'uv' 替换为 'python' 并直接运行 'server.py'。
'"args"': 传递给启动命令的参数列表。
- '"--directory"': 指定工作目录，需要指向 'edge_tts_mcp_server' 模块的 'src/edge_tts_mcp_server' 目录的绝对路径。请务必将 '"路径/到/edge_tts_mcp_server/src/edge_tts_mcp_server"' 替换为你的实际路径。 你需要根据你的安装位置找到 'server.py' 文件所在的目录。
- '"run"': 'uv' 命令的子命令，用于运行 Python 模块。
- '"server.py"': 指定要运行的服务器脚本文件。

注意: 上述配置假设你使用 'uvicorn' 或与其兼容的 ASGI 服务器来运行。如果你选择直接使用 Python 运行，可以将 '"command"' 修改为 '"python"'，并将 '"args"' 修改为 '["-m", "edge_tts_mcp_server.server"]'。

基本使用方法

启动服务器: 根据上述配置，在 MCP 客户端中启动名为 "edge-tts" 的服务器连接。服务器将会在后台运行，并监听 MCP 客户端的请求。
调用工具: 客户端可以通过 MCP 协议调用服务器提供的工具。
- 'list_voices' 工具: 用于获取可用的语音列表。可以传入 'locale' 参数（例如 '"ja-JP"', '"en-US"'）来过滤特定语言的语音。
- 'text_to_speech' 工具: 用于将文本转换为语音。需要传入以下参数：
  - 'text' (必需): 要转换为语音的文本内容。
  - 'voice' (可选): 要使用的语音名称，默认为 '"ja-JP-NanamiNeural"'。可以使用 'list_voices' 工具获取可用的语音名称。
  - 'rate' (可选): 语速调整，例如 '"+10%"', '"-10%"'，默认为 '"0%"'。
  - 'volume' (可选): 音量调整，例如 '"+10%"', '"-10%"'，默认为 '"0%"'。
  - 'pitch' (可选): 音调调整，例如 '"+10%"', '"-10%"'，默认为 '"0%"'。
  - 'play_audio' (可选): 是否自动播放音频，默认为 'True'。
  - 'use_default_player' (可选): 是否使用默认的媒体播放器播放音频，默认为 'False' (使用 'mpv' 播放器，如果可用)。
接收响应: 服务器会将工具执行的结果以 JSON-RPC 响应的形式返回给客户端，其中包含了语音合成的结果或其他相关信息。对于 'text_to_speech' 工具，返回结果中可能包含音频文件的路径等信息。

示例使用场景: 在支持 MCP 协议的 AI 聊天机器人应用中，可以使用 Edge TTS MCP 服务器将机器人的回复文本转换为自然语音，从而提升用户体验。

Edge TTS MCP 服务器