项目简介
这个仓库包含出门问问(Mobvoi)官方的 MCP (Model Context Protocol) 服务器实现。它旨在将出门问问强大的语音合成、语音克隆、图像转视频、视频配音等 AI 能力,通过标准的 MCP 协议暴露给支持 MCP 的大模型客户端(如 Cursor、Claude Desktop、Cline 等),让大模型能够调用这些功能。
主要功能点
- 语音合成: 将文本转换为指定音色(包括克隆音色)的语音,支持多种参数调节(语速、音量、音调等)。
- 语音克隆: 根据提供的音频文件(本地或远程链接),克隆出独特的音色,并返回可用于语音合成的音色ID。
- 播放音频: 直接播放本地音频文件。
- 图像转视频: 根据图片 URL 和音频 URL,生成说话人视频(如果图片中有人像)。
- 视频配音 (Voice Over): 根据基础视频 URL 和音频 URL,生成新的配音视频,支持口型同步。
- 视频翻译支持语言列表: 获取视频翻译功能支持的源语言和目标语言列表。
安装步骤
- 确保你的系统已安装 Python 3.10 或更高版本。
- 安装 'uv' Python 包管理器。如果未安装,可以通过 'pip install uv' 命令安装。
- 从出门问问序列猴子开放平台获取你的 APP_KEY 和 APP_SECRET。新用户通常有免费额度。
- 安装 Mobvoi MCP 服务器包:使用 'uv pip install mobvoi-mcp' 命令安装。
服务器配置(供 MCP 客户端使用)
你需要根据你使用的 MCP 客户端(如 Cursor, Claude Desktop, Cline 等)的配置方式,添加 Mobvoi MCP 服务器的配置。通常需要配置一个 JSON 对象,其中包含一个键(作为服务器的自定义名称),其值是一个配置对象,至少包含以下信息:
- 'command': 启动 MCP 服务器的可执行命令,例如 '"uvx"'(用于运行已安装的 uv 包中的可执行文件)。
- 'args': 传递给命令的参数列表。对于已安装的 'mobvoi-mcp' 包,参数通常是 '["mobvoi-mcp"]'。你也可以在此处添加 '--index' 参数来指定 PyPI 镜像源,例如 '["--index", "https://pypi.tuna.tsinghua.edu.cn/simple", "mobvoi-mcp"]'。
- 'env': 一个包含环境变量的 JSON 对象。你需要在此处设置 'APP_KEY' 和 'APP_SECRET',例如 '{ "APP_KEY": "你的APP_KEY", "APP_SECRET": "你的APP_SECRET" }'。请将 '"你的APP_KEY"' 和 '"你的APP_SECRET"' 替换为你自己的密钥信息。
- 'transportType': 用于客户端和服务器通信的传输协议,通常是 '"stdio"'。
请参考你的具体 MCP 客户端文档,找到配置 MCP 服务器的位置和精确格式。
如果你需要从源码运行服务器(用于开发或测试),'command' 和 'args' 会有所不同。'command' 通常是 '"uv"',而 'args' 则需要指定源码目录和入口文件,例如 '["--directory", "你的源码路径/mobvoi_mcp", "run", "server.py"]'。
基本使用方法
配置好 MCP 客户端并启动服务器后,你可以在客户端中与大模型交互时,通过自然语言提示来调用 Mobvoi MCP 服务器提供的功能。大模型会根据你的提示和可用的工具描述(由服务器提供)来决定何时调用哪个工具。例如:
- 请求克隆声音:给大模型提供一个音频文件链接或本地路径,并告诉它“请克隆这个声音”。
- 请求语音合成:告诉大模型“使用音色 [某个音色ID] 播放文本:'...'”。
- 请求播放本地音频:提供本地音频文件的绝对路径,并告诉大模型“请播放这个音频文件”。
- 请求图像转视频或视频配音:提供相应的图片/视频 URL 和音频 URL,并说明你想进行的操作(例如“请根据这张图片和这段音频生成一个视频”)。
- 请求支持语言列表:直接询问大模型“视频翻译支持哪些语言?”
大模型会自动识别你的意图并调用相应的 Mobvoi 工具来完成任务。
信息
分类
AI与计算