项目简介

本项目是一个实现了 Model Context Protocol (MCP) 的服务器,专注于提供音频转文本服务。它利用 OpenAI 的 Whisper API,将本地音频文件转录成文本,并通过 MCP 协议与客户端进行通信,为 LLM 应用提供便捷的音频处理能力。

主要功能点

  • 音频转文本:通过 'transcribe_audio' 工具,使用 OpenAI Whisper API 将音频文件转录为文本。
  • 本地文件处理:支持指定本地音频文件路径进行转录。
  • 结果保存:可选择将转录后的文本保存到与音频文件相同的目录下。
  • 语言设置:支持设置音频文件的语言,以提高转录准确性。

安装步骤

  1. 克隆仓库
    git clone https://github.com/Ichigo3766/audio-transcriber-mcp.git
  2. 进入项目目录
    cd audio-transcriber-mcp
  3. 安装依赖
    npm install
  4. 构建项目
    npm run build
  5. 配置 OpenAI API 密钥 您需要在环境变量中设置 OpenAI API 密钥 'OPENAI_API_KEY',这是服务器连接 OpenAI API 的凭证。您也可以选择性配置 'OPENAI_BASE_URL' 和 'OPENAI_MODEL' 环境变量来自定义 OpenAI API 的基础 URL 和模型。

服务器配置

要使 MCP 客户端能够连接到此服务器,您需要在客户端的 MCP 服务器配置中添加以下 JSON 配置。请根据您的实际环境修改路径和 API 密钥。

{
  "mcpServers": {
    "audio-transcriber": {
      "command": "node",
      "args": [
        "/path/to/audio-transcriber-mcp/build/index.js"
      ],
      "env": {
        "OPENAI_API_KEY": "<YOUR_OPENAI_API_KEY>",  // 替换为您的 OpenAI API 密钥 (必需)
        "OPENAI_BASE_URL": "<YOUR_OPENAI_BASE_URL>", // 可选:  如果您使用了非官方的 OpenAI API 基地址,请设置此项
        "OPENAI_MODEL": "<YOUR_OPENAI_MODEL>"   // 可选:  如果您想指定使用的 OpenAI 模型,请设置此项,默认为 whisper-1
      }
    }
  }
}

注意:

  • 请将 '<YOUR_OPENAI_API_KEY>' 替换为您在 OpenAI 平台申请的 API 密钥。
  • 请将 '/path/to/audio-transcriber-mcp' 替换为您克隆仓库后 'audio-transcriber-mcp' 目录的绝对路径

基本使用方法

配置完成后,MCP 客户端即可通过 "audio-transcriber" 服务调用 'transcribe_audio' 工具,并传入音频文件路径作为参数,即可将音频文件转录为文本。具体工具参数和使用方式请参考 MCP 客户端的文档。

信息

分类

AI与计算