使用说明
项目简介
MCP Server Whisper 是一个实现了 Model Context Protocol (MCP) 的服务器,专注于音频处理功能。它利用 OpenAI 的 Whisper 和 GPT-4o 模型,为支持 MCP 协议的客户端(如 Claude)提供强大的音频转录、基于音频内容的对话以及文本转语音能力。通过标准化的 MCP 接口,AI 助手可以轻松调用这些音频处理工具,实现更智能的交互。
主要功能点
- 高级音频文件管理:支持通过正则表达式、文件元数据(大小、时长、修改时间、格式)进行音频文件搜索、过滤和排序。
- 多格式音频处理:支持多种音频格式(flac, mp3, mp4, mpeg, mpga, m4a, ogg, wav, webm)的转录和处理,以及 mp3 和 wav 格式的音频聊天。
- 智能音频转录:
- 支持 OpenAI Whisper 模型 ('whisper-1') 以及更先进的 'gpt-4o-transcribe' 和 'gpt-4o-mini-transcribe' 模型。
- 提供自定义 Prompt 功能,可以引导转录结果,例如修正特定词汇、保持上下文或规范标点。
- 支持多种时间戳粒度(词级别、段落级别),方便精细化分析。
- 提供增强型转录模板(详细、叙事、专业、分析型),满足不同场景需求。
- 交互式音频聊天:
- 使用 GPT-4o 音频模型 ('gpt-4o-audio-preview-', 'gpt-4o-mini-audio-preview-'),实现基于音频内容的对话。
- 支持自定义系统和用户 Prompt,控制对话风格和内容。
- 高质量文本转语音:
- 使用 OpenAI TTS API,支持 'gpt-4o-mini-tts' 等模型。
- 提供多种音色选择 (alloy, ash, coral, echo, fable, onyx, nova, sage, shimmer) 和语速调节。
- 支持长文本处理,自动分割并合并音频片段。
- 高性能和高效率:
- 并行批量处理多个音频文件,提高处理速度。
- 高性能缓存机制,加速重复操作。
- 自动音频文件压缩,处理超过 API 大小限制的文件。
安装步骤
-
克隆仓库:
git clone https://github.com/arcaputo3/mcp-server-whisper.git cd mcp-server-whisper -
安装依赖 (推荐使用 uv):
uv sync -
设置 pre-commit hooks (可选,但推荐):
uv run pre-commit install -
配置环境变量: 创建 '.env' 文件,并填入 OpenAI API 密钥和音频文件路径:
OPENAI_API_KEY=YOUR_OPENAI_API_KEY AUDIO_FILES_PATH=/path/to/your/audio/files请将 'YOUR_OPENAI_API_KEY' 替换为你的 OpenAI API 密钥,'/path/to/your/audio/files' 替换为你存放音频文件的目录。
服务器配置
以下是配置 MCP Server Whisper 服务器连接 Claude Desktop 或其他 MCP 客户端的 'claude_desktop_config.json' 示例。你需要将这段 JSON 配置添加到你的客户端配置文件中。
{ "mcpServers": { "whisper": { // 服务器名称,可以自定义,例如 "audio-server" "command": "uvx", // 启动命令,uvx 是 uv 提供的运行 Python 程序的命令 "args": [ // 启动参数 "--with", // uvx 的参数,用于指定需要包含的 Python 包 "aiofiles", // 异步文件操作库 "--with", "mcp[cli]", // MCP 协议库及其命令行工具 "--with", "openai", // OpenAI Python 库 "--with", "pydub", // 音频处理库 "mcp-server-whisper" // 指定运行 mcp-server-whisper 项目 ], "env": { // 环境变量 "OPENAI_API_KEY": "YOUR_OPENAI_API_KEY", // 你的 OpenAI API 密钥,请替换为实际密钥 "AUDIO_FILES_PATH": "/path/to/your/audio/files" // 音频文件存放路径,请替换为实际路径 } } } }
注意: 请将 'YOUR_OPENAI_API_KEY' 和 '/path/to/your/audio/files' 替换为你在 '.env' 文件中设置的实际值。
基本使用方法
配置完成后,在支持 MCP 协议的客户端(例如 Claude Desktop)中,你可以通过自然语言指令调用 MCP Server Whisper 提供的音频处理功能。
示例指令:
-
音频转录:
- 'Claude, please transcribe my latest audio file.' (转录最新音频文件)
- 'Claude, transcribe the audio file named "meeting.mp3" with detailed insights.' (转录指定文件并进行详细分析)
- 'Claude, create a professional transcript for all MP3 files containing "interview" in the filename.' (批量转录文件名包含 "interview" 的 MP3 文件,生成专业转录)
-
音频聊天:
- 'Claude, analyze this audio file and summarize the main points.' (分析音频文件并总结要点)
- 'Claude, listen to this audio and tell me the speaker's sentiment.' (分析音频情感)
-
文本转语音:
- 'Claude, create a claudecast with the script: "Hello, world! This is a test." using the shimmer voice.' (使用 shimmer 音色将指定文本转换为语音)
- 'Claude, generate an audio version of "The quick brown fox jumps over the lazy dog." with a fast speed.' (快速语速将指定文本转换为语音)
更多使用示例和高级用法请参考仓库 README 文档。
信息
分类
AI与计算