MLX Whisper MCP音频转录服务器使用说明

项目简介

MLX Whisper MCP音频转录服务器是一个实现了Model Context Protocol (MCP) 的后端应用,它利用Apple Silicon Mac的MLX框架和Whisper模型,为LLM客户端(如Claude Desktop)提供强大的音频转录能力。该服务器通过简单的配置即可集成到支持MCP协议的客户端中,实现音频文件的转录、在线音频转录以及YouTube视频的转录和下载功能。

主要功能点

  • 本地音频文件转录: 支持直接从磁盘路径读取音频文件进行转录。
  • Base64编码音频转录: 支持通过Base64编码传输音频数据进行转录,方便在线应用集成。
  • YouTube视频转录与下载: 支持下载和转录YouTube视频,方便处理在线音视频内容。
  • 高质量转录模型: 默认使用 'mlx-community/whisper-large-v3-turbo' 高质量Whisper模型。
  • 简单易用: 通过 'uv run' 命令即可一键启动,自动处理依赖,配置简单。
  • 丰富的日志输出: 提供详细的控制台日志,方便调试和问题排查。
  • 转录文本保存: 自动将转录文本保存为与音频文件同名的.txt文件。

安装步骤

  1. 环境要求:

    • Python 3.12 或更高版本
    • Apple Silicon Mac (M系列芯片)
    • 已安装 'uv' (可以使用 'pip install uv' 或 'curl -sS https://astral.sh/uv/install.sh | bash' 安装)
  2. 下载仓库代码: 将 'mlx-whisper-mcp' 仓库代码下载到本地。

  3. 运行服务器: 在仓库根目录下,打开终端并执行命令:

    uv run mlx_whisper_mcp.py

    首次运行会自动安装依赖,并启动MCP服务器。

服务器配置

此MCP服务器主要用于配合MCP客户端使用,例如Claude Desktop。以下是配置 Claude Desktop 以连接到 MLX Whisper MCP 服务器的步骤和配置信息。

配置 Claude Desktop (或其他MCP客户端)

  1. 打开 Claude Desktop 配置文件: 根据您的操作系统,打开 Claude Desktop 的配置文件 'claude_desktop_config.json':

    • macOS: '~/Library/Application\ Support/Claude/claude_desktop_config.json'
    • Windows: '%APPDATA%\Claude\claude_desktop_config.json'
  2. 添加 MCP 服务器配置: 在 'claude_desktop_config.json' 文件中的 '"mcpServers"' 字段下,添加以下配置信息。请将 '/absolute/path/to/mlx_whisper_mcp/' 替换为 'mlx-whisper-mcp' 仓库代码在您电脑上的绝对路径

    {
      "mcpServers": {
        "mlx-whisper": {  // 服务器名称,可以自定义
          "command": "uv", // 启动服务器的命令,这里使用 uv
          "args": [      // 启动命令的参数
            "--directory",  // 指定工作目录
            "/absolute/path/to/mlx_whisper_mcp/", // 替换为 mlx-whisper-mcp 仓库的绝对路径
            "run",          // 运行 uv
            "mlx_whisper_mcp.py" // 要运行的 Python 脚本
          ]
        }
      }
    }
  3. 重启 Claude Desktop: 保存配置文件并重启 Claude Desktop,配置即可生效。

基本使用方法

配置完成后,您可以在 Claude Desktop 中通过自然语言指令调用 MLX Whisper MCP 服务器提供的工具,例如:

  • 转录本地音频文件: 在 Claude Desktop 中输入类似指令:'Transcribe the audio file at /Users/username/Desktop/recording.mp3' (请替换为实际文件路径)
  • 转录上传的音频: 在 Claude Desktop 中上传音频文件后,可以使用指令:'What is being said in this recording?' 或 'Translate this Spanish audio recording to English'。
  • 下载并转录YouTube视频: 在 Claude Desktop 中输入类似指令:'Download and transcribe this YouTube video: https://www.youtube.com/watch?v=dQw4w9WgXcQ' (请替换为实际YouTube链接)
  • 下载YouTube视频: 在 Claude Desktop 中输入类似指令:'Download this YouTube video: https://www.youtube.com/watch?v=dQw4w9WgXcQ' (仅下载视频,不转录)

注意:

  • 使用文件路径时,请确保使用绝对路径
  • 服务器的日志输出在终端窗口中,可以用于调试和查看运行状态。
  • 如果遇到问题,请参考 README.md 文件中的 "Troubleshooting" 章节。

信息

分类

AI与计算