Fun-ASR语音识别MCP服务器

关键词

语音识别音频转文字多语言转录实时语音处理

项目简介

Fun-ASR MCP服务器是一个基于阿里巴巴Fun-ASR-Nano-2512模型的语音识别服务，通过Model Context Protocol为AI助手提供语音转文字能力。

主要功能

🎙️ 语音转文字：将音频文件转换为可读文本
🌍 多语言支持：支持中文、英文、日文及自动语言检测
🔥 高性能识别：RTF < 0.1，支持超长音频处理
⚡ 实时转录：支持流式音频处理和进度反馈
📱 多种接口：提供文件路径和Base64两种音频输入方式
🛠️ 实用工具：包含GPU状态监控和模型信息查询

安装步骤

确保环境：Docker 20.10+、NVIDIA GPU 4GB+ VRAM、NVIDIA Container Toolkit
运行Docker容器：

docker run -d --name fun-asr --gpus '"device=0"' -p 8189:8189 neosun/fun-asr:latest

服务启动后，MCP客户端可通过Stdio传输协议连接

服务器配置

MCP客户端需要配置以下启动命令：

{
  "mcpServers": {
    "fun-asr": {
      "command": "python",
      "args": ["mcp_server.py"]
}

配置说明：

command: 使用Python解释器运行MCP服务器
args: 指定MCP服务器主程序文件

基本使用方法

MCP服务器提供以下工具供AI助手调用：

transcribe: 通过文件路径转录音频
transcribe_base64: 通过Base64编码数据转录音频
get_gpu_status: 获取GPU内存使用情况
get_model_info: 查询模型配置和支持的语言
preload_model: 预加载模型到GPU内存

服务支持中文、英文、日文等多种语言识别，具备热词增强、文本规整等高级功能。

服务器信息

分类