项目简介 Kokoro TTS MCP服务是一个功能强大的文本转语音(TTS)后端,它集成了多种TTS引擎(包括快速高质量的Kokoro英语TTS、支持语音克隆的多语言OpenVoice V2以及专业的印地语和其他印度语言TTS),并通过Model Context Protocol (MCP) 标准向LLM客户端(如Claude Desktop、Cursor等)提供服务。它支持语音生成、批量处理、脚本转配音、播客生成、音频转文字和丰富的上下文资源与提示模板。

主要功能点

  • 高质量语音合成:利用Kokoro-82M模型生成自然流畅的英文、英式英文语音。
  • 多引擎支持:根据需求选择Kokoro(快速英文)、OpenVoice V2(语音克隆、多语言)或Indic Parler-TTS(印地语及21种印度语言,含情感控制)。
  • 智能文本处理:自动进行文本分块,确保长文本语音合成的连贯性和高质量。
  • 专业音频增强:对生成的语音进行音量标准化、静音裁剪、降噪和淡入淡出处理,提升音频质量。
  • 批量处理与脚本转配音:高效处理大量文本或将完整视频脚本转换为配音文件。
  • 播客生成:支持多语音色、多语速的播客内容制作,轻松实现对话效果。
  • 音频转文字:集成OpenAI Whisper(默认使用速度更快的faster-whisper)进行音频转录,支持多种模型和语言。
  • MCP协议集成:作为MCP服务器,向AI工具提供上下文资源(如语音信息、预设)、可调用的工具(如语音生成、转录)和智能提示模板(如播客创建指南)。
  • 多种传输协议:支持Stdio(适用于桌面AI工具)、HTTP(适用于OpenAI等集成)传输。

安装步骤

  1. 系统依赖
    • Linux/Debian: 'sudo apt-get install espeak-ng ffmpeg libsndfile1'
    • macOS: 'brew install espeak ffmpeg'
    • Windows: 从espeak-ng和ffmpeg官网下载并安装它们。
  2. Python环境:建议使用Python 3.10+。
    # 创建并激活虚拟环境
    python -m venv venv
    source venv/bin/activate # Windows: venv\Scripts\activate
  3. 安装项目(推荐完整安装)
    pip install -e ".[complete]"
    # 或仅包含MCP和CLI功能
    pip install -e ".[mcp,cli]"
  4. (可选)OpenVoice V2引擎额外依赖
    pip install git+https://github.com/myshell-ai/MeloTTS.git
    python -m aparsoft_tts.download_openvoice_checkpoints
  5. (可选)音频转文字功能依赖
    pip install faster-whisper # 推荐,速度更快
    # 或者 pip install openai-whisper

MCP服务器配置(以Claude Desktop为例) MCP服务器旨在被支持MCP协议的LLM客户端调用。您无需手动运行服务器,客户端会在需要时自动启动它。您只需在客户端配置服务器的启动命令。

Claude Desktop配置:

  1. 找到您的Python虚拟环境路径。在Linux/Mac上运行 'which python',在Windows上运行 'where python'。例如:'/home/user/my_project/venv/bin/python'。
  2. 打开或创建Claude Desktop的配置文件:
    • macOS: '~/Library/Application Support/Claude/claude_desktop_config.json'
    • Linux: '~/.config/Claude/claude_desktop_config.json'
    • Windows: '%APPDATA%\Claude\claude_desktop_config.json'
  3. 在JSON文件中添加以下配置:
    {
      "mcpServers": {
        "aparsoft-tts": {
          "command": "/absolute/path/to/your/venv/bin/python",
          "args": ["-m", "aparsoft_tts.mcp_server"],
          "name": "Aparsoft TTS Server"
        }
      }
    }
    • 'aparsoft-tts':这是一个唯一的服务器名称标识符。
    • 'command':这是最重要的配置项。 它指定了启动MCP服务器的Python解释器路径。您需要将其替换为您Python虚拟环境的绝对路径,例如 '/home/user/my_project/venv/bin/python'。
    • 'args':传递给Python解释器的参数列表。'-m aparsoft_tts.mcp_server' 表示运行 'aparsoft_tts' 包下的 'mcp_server' 模块,这是服务器的启动命令。您通常不需要修改此项。
    • 'name':此MCP服务器在MCP客户端界面中显示的友好名称。
  4. 保存文件并重启Claude Desktop(Mac: Cmd+R, Windows/Linux: Ctrl+R)。

Cursor配置:

  1. 创建或编辑Cursor的MCP配置文件:'mkdir -p ~/.cursor && code ~/.cursor/mcp.json'
  2. 添加与Claude Desktop类似的配置信息(替换Python路径):
    {
      "mcpServers": {
        "aparsoft-tts": {
          "command": "/absolute/path/to/your/venv/bin/python",
          "args": ["-m", "aparsoft_tts.mcp_server"],
          "name": "Aparsoft TTS Server"
        }
      }
    }
  3. 保存文件并完全重启Cursor

基本使用方法 配置完成后,您可以在支持MCP的LLM客户端中通过自然语言请求以下功能:

  • 生成语音
    "为'Hello world'生成语音,使用am_michael声线。"
    "使用af_bella声线以1.2倍语速生成'欢迎来到我的频道'的语音文件。"
    "用indic引擎的divya声线,以happy情感生成'नमस्ते दोस्तों!'的语音。"
  • 列出可用声线
    "列出所有可用的TTS声线。"
  • 批量生成语音
    "为这三段文字生成配音:'介绍'、'主体内容'、'结束语'。"
  • 处理脚本
    "处理文件video_script.txt,并生成完整的配音文件。"
  • 生成播客
    "创建一个播客,包含以下片段:'介绍'由am_michael朗读,'嘉宾发言'由af_bella以0.95倍语速朗读,'结尾'由am_michael朗读。"
  • 音频转文字
    "将audio.wav文件转录为文本,使用base模型。"
  • 获取语音信息
    "查询tts://voice/info/am_michael 获取am_michael声线的详细信息。"
  • 获取播客创建指南
    "请提供一个关于如何创建关于'人工智能的未来'的播客的指南。"

LLM客户端将自动调用MCP服务器提供的工具和资源来完成您的请求。

信息

分类

AI与计算