项目简介 Kokoro TTS MCP服务是一个功能强大的文本转语音（TTS）后端，它集成了多种TTS引擎（包括快速高质量的Kokoro英语TTS、支持语音克隆的多语言OpenVoice V2以及专业的印地语和其他印度语言TTS），并通过Model Context Protocol (MCP) 标准向LLM客户端（如Claude Desktop、Cursor等）提供服务。它支持语音生成、批量处理、脚本转配音、播客生成、音频转文字和丰富的上下文资源与提示模板。

主要功能点

高质量语音合成：利用Kokoro-82M模型生成自然流畅的英文、英式英文语音。
多引擎支持：根据需求选择Kokoro（快速英文）、OpenVoice V2（语音克隆、多语言）或Indic Parler-TTS（印地语及21种印度语言，含情感控制）。
智能文本处理：自动进行文本分块，确保长文本语音合成的连贯性和高质量。
专业音频增强：对生成的语音进行音量标准化、静音裁剪、降噪和淡入淡出处理，提升音频质量。
批量处理与脚本转配音：高效处理大量文本或将完整视频脚本转换为配音文件。
播客生成：支持多语音色、多语速的播客内容制作，轻松实现对话效果。
音频转文字：集成OpenAI Whisper（默认使用速度更快的faster-whisper）进行音频转录，支持多种模型和语言。
MCP协议集成：作为MCP服务器，向AI工具提供上下文资源（如语音信息、预设）、可调用的工具（如语音生成、转录）和智能提示模板（如播客创建指南）。
多种传输协议：支持Stdio（适用于桌面AI工具）、HTTP（适用于OpenAI等集成）传输。

安装步骤

系统依赖：
- Linux/Debian: 'sudo apt-get install espeak-ng ffmpeg libsndfile1'
- macOS: 'brew install espeak ffmpeg'
- Windows: 从espeak-ng和ffmpeg官网下载并安装它们。

Python环境：建议使用Python 3.10+。

# 创建并激活虚拟环境
python -m venv venv
source venv/bin/activate # Windows: venv\Scripts\activate

安装项目（推荐完整安装）：

pip install -e ".[complete]"
# 或仅包含MCP和CLI功能
pip install -e ".[mcp,cli]"

（可选）OpenVoice V2引擎额外依赖：

pip install git+https://github.com/myshell-ai/MeloTTS.git
python -m aparsoft_tts.download_openvoice_checkpoints

（可选）音频转文字功能依赖：

pip install faster-whisper # 推荐，速度更快
# 或者 pip install openai-whisper

MCP服务器配置（以Claude Desktop为例） MCP服务器旨在被支持MCP协议的LLM客户端调用。您无需手动运行服务器，客户端会在需要时自动启动它。您只需在客户端配置服务器的启动命令。

Claude Desktop配置：

找到您的Python虚拟环境路径。在Linux/Mac上运行 'which python'，在Windows上运行 'where python'。例如：'/home/user/my_project/venv/bin/python'。
打开或创建Claude Desktop的配置文件：
- macOS: '~/Library/Application Support/Claude/claude_desktop_config.json'
- Linux: '~/.config/Claude/claude_desktop_config.json'
- Windows: '%APPDATA%\Claude\claude_desktop_config.json'

在JSON文件中添加以下配置：

{
  "mcpServers": {
    "aparsoft-tts": {
      "command": "/absolute/path/to/your/venv/bin/python",
      "args": ["-m", "aparsoft_tts.mcp_server"],
      "name": "Aparsoft TTS Server"
    }
  }
}

'aparsoft-tts'：这是一个唯一的服务器名称标识符。
'command'：这是最重要的配置项。 它指定了启动MCP服务器的Python解释器路径。您需要将其替换为您Python虚拟环境的绝对路径，例如 '/home/user/my_project/venv/bin/python'。
'args'：传递给Python解释器的参数列表。'-m aparsoft_tts.mcp_server' 表示运行 'aparsoft_tts' 包下的 'mcp_server' 模块，这是服务器的启动命令。您通常不需要修改此项。
'name'：此MCP服务器在MCP客户端界面中显示的友好名称。

保存文件并重启Claude Desktop（Mac: Cmd+R, Windows/Linux: Ctrl+R）。

Cursor配置：

创建或编辑Cursor的MCP配置文件：'mkdir -p ~/.cursor && code ~/.cursor/mcp.json'

添加与Claude Desktop类似的配置信息（替换Python路径）：

{
  "mcpServers": {
    "aparsoft-tts": {
      "command": "/absolute/path/to/your/venv/bin/python",
      "args": ["-m", "aparsoft_tts.mcp_server"],
      "name": "Aparsoft TTS Server"
    }
  }
}

保存文件并完全重启Cursor。

基本使用方法 配置完成后，您可以在支持MCP的LLM客户端中通过自然语言请求以下功能：

生成语音：

"为'Hello world'生成语音，使用am_michael声线。"
"使用af_bella声线以1.2倍语速生成'欢迎来到我的频道'的语音文件。"
"用indic引擎的divya声线，以happy情感生成'नमस्ते दोस्तों!'的语音。"

列出可用声线：

"列出所有可用的TTS声线。"

批量生成语音：

"为这三段文字生成配音：'介绍'、'主体内容'、'结束语'。"

处理脚本：

"处理文件video_script.txt，并生成完整的配音文件。"

生成播客：

"创建一个播客，包含以下片段：'介绍'由am_michael朗读，'嘉宾发言'由af_bella以0.95倍语速朗读，'结尾'由am_michael朗读。"

音频转文字：

"将audio.wav文件转录为文本，使用base模型。"

获取语音信息：

"查询tts://voice/info/am_michael 获取am_michael声线的详细信息。"

获取播客创建指南：

"请提供一个关于如何创建关于'人工智能的未来'的播客的指南。"

LLM客户端将自动调用MCP服务器提供的工具和资源来完成您的请求。

关键词

信息