项目简介 Kokoro TTS MCP服务是一个功能强大的文本转语音(TTS)后端,它集成了多种TTS引擎(包括快速高质量的Kokoro英语TTS、支持语音克隆的多语言OpenVoice V2以及专业的印地语和其他印度语言TTS),并通过Model Context Protocol (MCP) 标准向LLM客户端(如Claude Desktop、Cursor等)提供服务。它支持语音生成、批量处理、脚本转配音、播客生成、音频转文字和丰富的上下文资源与提示模板。
主要功能点
- 高质量语音合成:利用Kokoro-82M模型生成自然流畅的英文、英式英文语音。
- 多引擎支持:根据需求选择Kokoro(快速英文)、OpenVoice V2(语音克隆、多语言)或Indic Parler-TTS(印地语及21种印度语言,含情感控制)。
- 智能文本处理:自动进行文本分块,确保长文本语音合成的连贯性和高质量。
- 专业音频增强:对生成的语音进行音量标准化、静音裁剪、降噪和淡入淡出处理,提升音频质量。
- 批量处理与脚本转配音:高效处理大量文本或将完整视频脚本转换为配音文件。
- 播客生成:支持多语音色、多语速的播客内容制作,轻松实现对话效果。
- 音频转文字:集成OpenAI Whisper(默认使用速度更快的faster-whisper)进行音频转录,支持多种模型和语言。
- MCP协议集成:作为MCP服务器,向AI工具提供上下文资源(如语音信息、预设)、可调用的工具(如语音生成、转录)和智能提示模板(如播客创建指南)。
- 多种传输协议:支持Stdio(适用于桌面AI工具)、HTTP(适用于OpenAI等集成)传输。
安装步骤
- 系统依赖:
- Linux/Debian: 'sudo apt-get install espeak-ng ffmpeg libsndfile1'
- macOS: 'brew install espeak ffmpeg'
- Windows: 从espeak-ng和ffmpeg官网下载并安装它们。
- Python环境:建议使用Python 3.10+。
# 创建并激活虚拟环境 python -m venv venv source venv/bin/activate # Windows: venv\Scripts\activate - 安装项目(推荐完整安装):
pip install -e ".[complete]" # 或仅包含MCP和CLI功能 pip install -e ".[mcp,cli]" - (可选)OpenVoice V2引擎额外依赖:
pip install git+https://github.com/myshell-ai/MeloTTS.git python -m aparsoft_tts.download_openvoice_checkpoints - (可选)音频转文字功能依赖:
pip install faster-whisper # 推荐,速度更快 # 或者 pip install openai-whisper
MCP服务器配置(以Claude Desktop为例) MCP服务器旨在被支持MCP协议的LLM客户端调用。您无需手动运行服务器,客户端会在需要时自动启动它。您只需在客户端配置服务器的启动命令。
Claude Desktop配置:
- 找到您的Python虚拟环境路径。在Linux/Mac上运行 'which python',在Windows上运行 'where python'。例如:'/home/user/my_project/venv/bin/python'。
- 打开或创建Claude Desktop的配置文件:
- macOS: '~/Library/Application Support/Claude/claude_desktop_config.json'
- Linux: '~/.config/Claude/claude_desktop_config.json'
- Windows: '%APPDATA%\Claude\claude_desktop_config.json'
- 在JSON文件中添加以下配置:
{ "mcpServers": { "aparsoft-tts": { "command": "/absolute/path/to/your/venv/bin/python", "args": ["-m", "aparsoft_tts.mcp_server"], "name": "Aparsoft TTS Server" } } }- 'aparsoft-tts':这是一个唯一的服务器名称标识符。
- 'command':这是最重要的配置项。 它指定了启动MCP服务器的Python解释器路径。您需要将其替换为您Python虚拟环境的绝对路径,例如 '/home/user/my_project/venv/bin/python'。
- 'args':传递给Python解释器的参数列表。'-m aparsoft_tts.mcp_server' 表示运行 'aparsoft_tts' 包下的 'mcp_server' 模块,这是服务器的启动命令。您通常不需要修改此项。
- 'name':此MCP服务器在MCP客户端界面中显示的友好名称。
- 保存文件并重启Claude Desktop(Mac: Cmd+R, Windows/Linux: Ctrl+R)。
Cursor配置:
- 创建或编辑Cursor的MCP配置文件:'mkdir -p ~/.cursor && code ~/.cursor/mcp.json'
- 添加与Claude Desktop类似的配置信息(替换Python路径):
{ "mcpServers": { "aparsoft-tts": { "command": "/absolute/path/to/your/venv/bin/python", "args": ["-m", "aparsoft_tts.mcp_server"], "name": "Aparsoft TTS Server" } } } - 保存文件并完全重启Cursor。
基本使用方法 配置完成后,您可以在支持MCP的LLM客户端中通过自然语言请求以下功能:
- 生成语音:
"为'Hello world'生成语音,使用am_michael声线。" "使用af_bella声线以1.2倍语速生成'欢迎来到我的频道'的语音文件。" "用indic引擎的divya声线,以happy情感生成'नमस्ते दोस्तों!'的语音。" - 列出可用声线:
"列出所有可用的TTS声线。" - 批量生成语音:
"为这三段文字生成配音:'介绍'、'主体内容'、'结束语'。" - 处理脚本:
"处理文件video_script.txt,并生成完整的配音文件。" - 生成播客:
"创建一个播客,包含以下片段:'介绍'由am_michael朗读,'嘉宾发言'由af_bella以0.95倍语速朗读,'结尾'由am_michael朗读。" - 音频转文字:
"将audio.wav文件转录为文本,使用base模型。" - 获取语音信息:
"查询tts://voice/info/am_michael 获取am_michael声线的详细信息。" - 获取播客创建指南:
"请提供一个关于如何创建关于'人工智能的未来'的播客的指南。"
LLM客户端将自动调用MCP服务器提供的工具和资源来完成您的请求。
信息
分类
AI与计算