项目简介
Fun-ASR MCP服务器是一个基于阿里巴巴Fun-ASR-Nano-2512模型的语音识别服务,通过Model Context Protocol为AI助手提供语音转文字能力。
主要功能
- 🎙️ 语音转文字:将音频文件转换为可读文本
- 🌍 多语言支持:支持中文、英文、日文及自动语言检测
- 🔥 高性能识别:RTF < 0.1,支持超长音频处理
- ⚡ 实时转录:支持流式音频处理和进度反馈
- 📱 多种接口:提供文件路径和Base64两种音频输入方式
- 🛠️ 实用工具:包含GPU状态监控和模型信息查询
安装步骤
-
确保环境:Docker 20.10+、NVIDIA GPU 4GB+ VRAM、NVIDIA Container Toolkit
-
运行Docker容器:
docker run -d --name fun-asr --gpus '"device=0"' -p 8189:8189 neosun/fun-asr:latest
- 服务启动后,MCP客户端可通过Stdio传输协议连接
服务器配置
MCP客户端需要配置以下启动命令:
{ "mcpServers": { "fun-asr": { "command": "python", "args": ["mcp_server.py"] }
配置说明:
- command: 使用Python解释器运行MCP服务器
- args: 指定MCP服务器主程序文件
基本使用方法
MCP服务器提供以下工具供AI助手调用:
- transcribe: 通过文件路径转录音频
- transcribe_base64: 通过Base64编码数据转录音频
- get_gpu_status: 获取GPU内存使用情况
- get_model_info: 查询模型配置和支持的语言
- preload_model: 预加载模型到GPU内存
服务支持中文、英文、日文等多种语言识别,具备热词增强、文本规整等高级功能。
信息
分类
AI与计算