使用说明
项目简介
Edge TTS MCP 服务器是一个实现了 Model Context Protocol (MCP) 的后端服务,它集成了 Microsoft Edge 的文本转语音 (TTS) 引擎。该服务器旨在为 AI 助手和聊天机器人等应用提供高质量、自然的语音合成功能。通过 MCP 协议,客户端可以方便地调用服务器提供的文本转语音工具,获取语音数据,从而实现听觉交互。
主要功能点
- 文本到语音转换: 将文本内容转换为自然流畅的语音。
- 多语言和多音色支持: 支持 Microsoft Edge TTS 引擎提供的多种语言和音色选择。
- 可调节的语音参数: 允许调整语速、音调和音量等参数,以定制语音效果。
- 音频播放控制: 支持控制是否自动播放生成的音频,并提供多种播放方式。
- 标准的 MCP 协议接口: 通过 JSON-RPC 协议与客户端通信,易于集成到支持 MCP 协议的 LLM 应用中。
安装步骤
- 安装 Python 包: 使用 pip 命令安装 'edge_tts_mcp_server' 包。
或者,如果需要以开发模式安装,请先克隆仓库到本地,然后执行:pip install "edge_tts_mcp_server"git clone https://github.com/yuiseki/edge_tts_mcp_server.git cd edge_tts_mcp_server pip install -e .
服务器配置
要使 MCP 客户端(如 VS Code 插件)连接到 Edge TTS MCP 服务器,需要在客户端的 MCP 服务器配置中添加以下信息。以下是 VS Code 'settings.json' 的配置示例,展示了如何配置名为 "edge-tts" 的服务器连接:
"mcp": { "servers": { "edge-tts": { "command": "uv", "args": [ "--directory", "路径/到/edge_tts_mcp_server/src/edge_tts_mcp_server", // 请替换为 edge_tts_mcp_server 模块的实际路径 "run", "server.py" ] } } }
配置参数说明:
- '"edge-tts"': 服务器名称,可以自定义,用于在客户端中标识该服务器连接。
- '"command"': 启动服务器的命令。这里使用 'uv',它是一个 ASGI 服务器,用于运行 'server.py'。 确保你的系统已安装 'uvicorn' 或类似的 ASGI 服务器,或者将 'uv' 替换为 'python' 并直接运行 'server.py'。
- '"args"': 传递给启动命令的参数列表。
- '"--directory"': 指定工作目录,需要指向 'edge_tts_mcp_server' 模块的 'src/edge_tts_mcp_server' 目录的绝对路径。请务必将 '"路径/到/edge_tts_mcp_server/src/edge_tts_mcp_server"' 替换为你的实际路径。 你需要根据你的安装位置找到 'server.py' 文件所在的目录。
- '"run"': 'uv' 命令的子命令,用于运行 Python 模块。
- '"server.py"': 指定要运行的服务器脚本文件。
注意: 上述配置假设你使用 'uvicorn' 或与其兼容的 ASGI 服务器来运行。如果你选择直接使用 Python 运行,可以将 '"command"' 修改为 '"python"',并将 '"args"' 修改为 '["-m", "edge_tts_mcp_server.server"]'。
基本使用方法
-
启动服务器: 根据上述配置,在 MCP 客户端中启动名为 "edge-tts" 的服务器连接。服务器将会在后台运行,并监听 MCP 客户端的请求。
-
调用工具: 客户端可以通过 MCP 协议调用服务器提供的工具。
- 'list_voices' 工具: 用于获取可用的语音列表。可以传入 'locale' 参数(例如 '"ja-JP"', '"en-US"')来过滤特定语言的语音。
- 'text_to_speech' 工具: 用于将文本转换为语音。需要传入以下参数:
- 'text' (必需): 要转换为语音的文本内容。
- 'voice' (可选): 要使用的语音名称,默认为 '"ja-JP-NanamiNeural"'。可以使用 'list_voices' 工具获取可用的语音名称。
- 'rate' (可选): 语速调整,例如 '"+10%"', '"-10%"',默认为 '"0%"'。
- 'volume' (可选): 音量调整,例如 '"+10%"', '"-10%"',默认为 '"0%"'。
- 'pitch' (可选): 音调调整,例如 '"+10%"', '"-10%"',默认为 '"0%"'。
- 'play_audio' (可选): 是否自动播放音频,默认为 'True'。
- 'use_default_player' (可选): 是否使用默认的媒体播放器播放音频,默认为 'False' (使用 'mpv' 播放器,如果可用)。
-
接收响应: 服务器会将工具执行的结果以 JSON-RPC 响应的形式返回给客户端,其中包含了语音合成的结果或其他相关信息。对于 'text_to_speech' 工具,返回结果中可能包含音频文件的路径等信息。
示例使用场景: 在支持 MCP 协议的 AI 聊天机器人应用中,可以使用 Edge TTS MCP 服务器将机器人的回复文本转换为自然语音,从而提升用户体验。
信息
分类
AI与计算