使用说明

项目简介

MiniMax-MCP 是一个实现了 Model Context Protocol (MCP) 协议的服务器,旨在为大型语言模型(LLM)客户端提供多媒体处理能力。它集成了 MiniMax 强大的文本转语音、语音克隆、视频生成和图像生成 API,使开发者能够轻松地将这些高级功能集成到 LLM 应用中。通过 MCP 协议,MiniMax-MCP 服务器以标准化的方式与客户端通信,提供稳定、可扩展的上下文服务。

主要功能点

  • 文本转语音 (Text to Speech): 将文本内容转换为自然流畅的语音,支持多种音色选择,让 LLM 应用具备语音播报能力。
  • 视频生成 (Video Generation): 根据文本提示或结合首帧图像,生成创意视频内容,为 LLM 应用增加视频创作能力。
  • 图像生成 (Image Generation): 根据文本描述生成高质量图像,扩展 LLM 应用的视觉内容生成能力。
  • 语音克隆 (Voice Cloning): 通过上传音频文件快速克隆指定音色,定制独特的语音合成效果,但需注意首次使用后可能会产生费用。
  • 音频播放 (Play Audio): 支持播放本地或在线音频文件,方便用户进行音频内容试听和管理。

安装步骤

  1. 克隆仓库

    git clone https://github.com/mattheussnf/MiniMax-MCP.git
    cd MiniMax-MCP
  2. 安装依赖

    确保已安装 Python 3.x,然后运行:

    pip install -r requirements.txt
  3. 配置环境变量

    • MINIMAX_API_KEY: 您的 MiniMax API 密钥,用于访问 MiniMax API 服务。这是必需配置的,请务必设置。
    • MINIMAX_API_HOST: MiniMax API 主机地址,默认为 'https://api.minimax.chat'。通常无需修改。
    • MINIMAX_MCP_BASE_PATH: 可选配置,用于设置输出文件(如音频、视频、图像)的基础保存路径。如果设置,非绝对路径的输出目录将基于此路径。
    • MINIMAX_API_RESOURCE_MODE: 可选配置,资源模式。设置为 'url' 时,服务器返回资源的 URL;设置为 'local' 或不设置时,资源将保存到本地文件系统并返回文件路径。默认为 'url'。

    您可以通过以下方式配置环境变量:

    • 在 '.env' 文件中添加以上变量及其值(推荐)。
    • 直接在命令行中设置,例如:'export MINIMAX_API_KEY=your_api_key' (Linux/macOS) 或 'set MINIMAX_API_KEY=your_api_key' (Windows)。
  4. 运行服务器

    执行以下命令启动 MiniMax MCP 服务器:

    python minimax_mcp/server.py

    服务器默认运行在本地,并等待 MCP 客户端连接。

服务器配置 (MCP 客户端配置)

以下 JSON 配置信息用于 MCP 客户端连接 MiniMax MCP 服务器。客户端需要配置 'command' 和 'args' 以启动服务器进程。

{
  "servers": {
    "Minimax": {
      "name": "Minimax",  // 服务器名称,客户端中用于标识和选择服务器
      "command": "uvx",   // 启动服务器的命令,这里使用 uvx (Universal Versatile Executor) 来运行 Python 模块
      "args": [
        "minimax-mcp"    // uvx 的参数,指定要运行的 Python 模块为 "minimax-mcp" (__main__.py 所在模块名)
      ],
      "env": {           // 环境变量配置,传递给服务器进程
        // 客户端 **无需** 在此处配置 API 密钥和 API Host 等,
        // 这些应在服务器端配置(例如通过 .env 文件或系统环境变量)。
        // 此处可以留空或根据需要添加其他客户端特定的环境变量。
      }
    }
  }
}

配置说明:

  • 'command: "uvx"' 和 'args: ["minimax-mcp"]': 这表示使用 'uvx' 命令来执行 'minimax-mcp' Python 模块。 'uvx' 是一个通用的进程执行器,可以方便地运行各种类型的程序,包括 Python 模块。 确保您的 MCP 客户端环境已安装 'uvx' 或类似的命令执行工具,并能正确解析和执行 Python 模块。 如果您的客户端环境不支持 'uvx',您可能需要根据客户端的具体配置方式调整为直接运行 Python 脚本的命令,例如 '"command": "python"' 和 '"args": ["minimax_mcp/server.py"]'。
  • 'name: "Minimax"': 这是在 MCP 客户端中显示和引用的服务器名称。您可以根据需要自定义,但请确保与客户端配置保持一致。
  • 'env': 此部分用于设置传递给服务器进程的环境变量。重要提示: 通常情况下,客户端配置中无需包含 'MINIMAX_API_KEY' 和 'MINIMAX_API_HOST' 等敏感信息。 这些 API 密钥和主机地址应该在 服务器端 安全地配置和管理,例如通过服务器部署环境的环境变量或配置文件进行设置,以避免泄露风险。 'env' 部分可以用于传递其他客户端可能需要的、非敏感的环境变量。

请根据您的 MCP 客户端的具体配置要求,调整上述 JSON 配置信息。 重点是确保客户端能够通过 'command' 和 'args' 正确启动 MiniMax MCP 服务器进程。

基本使用方法

MiniMax MCP 服务器启动后,将通过 MCP 协议与客户端进行通信。客户端可以使用预定义的工具来调用 MiniMax API 的各项功能。

常用工具示例 (客户端调用方式)

  1. 文本转语音 (text_to_audio)

    客户端可以调用 'text_to_audio' 工具,并传入以下参数:

    • 'text': 要转换成语音的文本内容。
    • 'voice_id': (可选) 音色 ID,指定使用的音色。
    • 其他可选参数,如 'model', 'speed', 'vol', 'pitch', 'emotion' 等,用于更精细地控制语音合成效果。

    服务器将返回包含音频文件路径或 URL 的文本内容。

  2. 视频生成 (generate_video)

    客户端可以调用 'generate_video' 工具,并传入以下参数:

    • 'prompt': 生成视频的文本提示。
    • 'model': (可选) 使用的视频生成模型。
    • 'first_frame_image': (可选) 首帧图像,用于图像到视频的生成模式。

    服务器将返回包含视频文件路径或 URL 的文本内容。

  3. 图像生成 (text_to_image)

    客户端可以调用 'text_to_image' 工具,并传入以下参数:

    • 'prompt': 生成图像的文本提示。
    • 'aspect_ratio': (可选) 图像的宽高比。
    • 'n': (可选) 生成图像的数量。

    服务器将返回包含图像文件路径或 URL 的文本内容。

  4. 语音克隆 (voice_clone)

    客户端可以调用 'voice_clone' 工具,并传入以下参数:

    • 'voice_id': 要克隆的目标音色 ID。
    • 'file': 用于克隆的音频文件路径或 URL。
    • 'text': (可选) 用于生成演示音频的文本。

    服务器将返回包含克隆音色 ID 和演示音频文件路径/URL 的文本内容。

  5. 播放音频 (play_audio)

    客户端可以调用 'play_audio' 工具,并传入以下参数:

    • 'input_file_path': 要播放的音频文件路径或 URL。

    服务器将尝试播放指定的音频文件。

请参考 MCP 客户端的文档,了解如何配置和使用 MCP 服务器,以及如何调用上述工具。 MiniMax MCP 服务器旨在提供便捷的多媒体 API 接入能力,让您的 LLM 应用更加强大。

信息

分类

AI与计算