项目简介

Fun-ASR MCP服务器是一个基于阿里巴巴Fun-ASR-Nano-2512模型的语音识别服务,通过Model Context Protocol为AI助手提供语音转文字能力。

主要功能

  • 🎙️ 语音转文字:将音频文件转换为可读文本
  • 🌍 多语言支持:支持中文、英文、日文及自动语言检测
  • 🔥 高性能识别:RTF < 0.1,支持超长音频处理
  • 实时转录:支持流式音频处理和进度反馈
  • 📱 多种接口:提供文件路径和Base64两种音频输入方式
  • 🛠️ 实用工具:包含GPU状态监控和模型信息查询

安装步骤

  1. 确保环境:Docker 20.10+、NVIDIA GPU 4GB+ VRAM、NVIDIA Container Toolkit

  2. 运行Docker容器:

docker run -d --name fun-asr --gpus '"device=0"' -p 8189:8189 neosun/fun-asr:latest
  1. 服务启动后,MCP客户端可通过Stdio传输协议连接

服务器配置

MCP客户端需要配置以下启动命令:

{
  "mcpServers": {
    "fun-asr": {
      "command": "python",
      "args": ["mcp_server.py"]
}

配置说明

  • command: 使用Python解释器运行MCP服务器
  • args: 指定MCP服务器主程序文件

基本使用方法

MCP服务器提供以下工具供AI助手调用:

  • transcribe: 通过文件路径转录音频
  • transcribe_base64: 通过Base64编码数据转录音频
  • get_gpu_status: 获取GPU内存使用情况
  • get_model_info: 查询模型配置和支持的语言
  • preload_model: 预加载模型到GPU内存

服务支持中文、英文、日文等多种语言识别,具备热词增强、文本规整等高级功能。

信息

分类

AI与计算