项目简介

这个仓库包含出门问问（Mobvoi）官方的 MCP (Model Context Protocol) 服务器实现。它旨在将出门问问强大的语音合成、语音克隆、图像转视频、视频配音等 AI 能力，通过标准的 MCP 协议暴露给支持 MCP 的大模型客户端（如 Cursor、Claude Desktop、Cline 等），让大模型能够调用这些功能。

主要功能点

语音合成: 将文本转换为指定音色（包括克隆音色）的语音，支持多种参数调节（语速、音量、音调等）。
语音克隆: 根据提供的音频文件（本地或远程链接），克隆出独特的音色，并返回可用于语音合成的音色ID。
播放音频: 直接播放本地音频文件。
图像转视频: 根据图片 URL 和音频 URL，生成说话人视频（如果图片中有人像）。
视频配音 (Voice Over): 根据基础视频 URL 和音频 URL，生成新的配音视频，支持口型同步。
视频翻译支持语言列表: 获取视频翻译功能支持的源语言和目标语言列表。

安装步骤

确保你的系统已安装 Python 3.10 或更高版本。
安装 'uv' Python 包管理器。如果未安装，可以通过 'pip install uv' 命令安装。
从出门问问序列猴子开放平台获取你的 APP_KEY 和 APP_SECRET。新用户通常有免费额度。
安装 Mobvoi MCP 服务器包：使用 'uv pip install mobvoi-mcp' 命令安装。

服务器配置（供 MCP 客户端使用）

你需要根据你使用的 MCP 客户端（如 Cursor, Claude Desktop, Cline 等）的配置方式，添加 Mobvoi MCP 服务器的配置。通常需要配置一个 JSON 对象，其中包含一个键（作为服务器的自定义名称），其值是一个配置对象，至少包含以下信息：

'command': 启动 MCP 服务器的可执行命令，例如 '"uvx"'（用于运行已安装的 uv 包中的可执行文件）。
'args': 传递给命令的参数列表。对于已安装的 'mobvoi-mcp' 包，参数通常是 '["mobvoi-mcp"]'。你也可以在此处添加 '--index' 参数来指定 PyPI 镜像源，例如 '["--index", "https://pypi.tuna.tsinghua.edu.cn/simple", "mobvoi-mcp"]'。
'env': 一个包含环境变量的 JSON 对象。你需要在此处设置 'APP_KEY' 和 'APP_SECRET'，例如 '{ "APP_KEY": "你的APP_KEY", "APP_SECRET": "你的APP_SECRET" }'。请将 '"你的APP_KEY"' 和 '"你的APP_SECRET"' 替换为你自己的密钥信息。
'transportType': 用于客户端和服务器通信的传输协议，通常是 '"stdio"'。

请参考你的具体 MCP 客户端文档，找到配置 MCP 服务器的位置和精确格式。

如果你需要从源码运行服务器（用于开发或测试），'command' 和 'args' 会有所不同。'command' 通常是 '"uv"'，而 'args' 则需要指定源码目录和入口文件，例如 '["--directory", "你的源码路径/mobvoi_mcp", "run", "server.py"]'。

基本使用方法

配置好 MCP 客户端并启动服务器后，你可以在客户端中与大模型交互时，通过自然语言提示来调用 Mobvoi MCP 服务器提供的功能。大模型会根据你的提示和可用的工具描述（由服务器提供）来决定何时调用哪个工具。例如：

请求克隆声音：给大模型提供一个音频文件链接或本地路径，并告诉它“请克隆这个声音”。
请求语音合成：告诉大模型“使用音色 [某个音色ID] 播放文本：'...'”。
请求播放本地音频：提供本地音频文件的绝对路径，并告诉大模型“请播放这个音频文件”。
请求图像转视频或视频配音：提供相应的图片/视频 URL 和音频 URL，并说明你想进行的操作（例如“请根据这张图片和这段音频生成一个视频”）。
请求支持语言列表：直接询问大模型“视频翻译支持哪些语言？”

大模型会自动识别你的意图并调用相应的 Mobvoi 工具来完成任务。

关键词

项目简介

主要功能点

安装步骤

服务器配置（供 MCP 客户端使用）

基本使用方法

信息