使用说明

项目简介

本项目是一个 MCP (Model Context Protocol) 服务器,旨在为 LLM 应用提供强大的多媒体内容理解能力。它集成了 Google Gemini AI,能够分析和识别图像、音频和视频内容,并将识别结果以结构化的方式提供给 LLM 客户端。

主要功能点

  • 图像识别: 分析和描述图像内容,例如识别图像中的物体、场景等。
  • 音频识别: 分析和转录音频内容,例如将语音转换为文字。
  • 视频识别: 分析和描述视频内容,例如理解视频中的动作、事件等。

所有识别功能均由 Google Gemini AI 提供支持,保证了识别的准确性和先进性。

安装步骤

  1. 克隆仓库: 使用 'git clone https://github.com/mario-andreschak/mcp_video_recognition.git' 命令克隆仓库到本地。
  2. 进入目录: 使用 'cd mcp_video_recognition' 命令进入项目目录。
  3. 安装依赖: 确保已安装 Node.js (>= 18.0),然后运行 'npm install' 命令安装项目依赖。
  4. 构建项目: 运行 'npm run build' 命令构建项目。

服务器配置

要将此 MCP 服务器集成到 MCP 客户端(例如 Cline),您需要配置服务器启动命令。以下是配置示例,您需要根据实际情况修改路径:

{
  "mcpServers": {
    "video-recognition": {
      "command": "node",
      "args": [
        "/path/to/mcp-video-recognition/dist/index.js"  //  请替换为实际的 index.js 文件路径
      ],
      "disabled": false,
      "autoApprove": []
    }
  }
}

配置参数说明:

  • 'command': 启动服务器的命令,这里使用 'node' 运行 JavaScript 文件。
  • 'args': 命令参数,指向编译后的 'index.js' 文件路径。请务必将 '/path/to/mcp-video-recognition/dist/index.js' 替换为服务器 'index.js' 文件的实际绝对路径。

环境变量配置:

启动服务器前,您需要设置以下环境变量:

  • 'GOOGLE_API_KEY': (必需) 您的 Google Gemini API 密钥。请在启动命令前设置此环境变量,例如 'GOOGLE_API_KEY=YOUR_API_KEY'。
  • 'TRANSPORT_TYPE': (可选) 传输类型,默认为 'stdio'。如果需要使用 SSE 传输,请设置为 'sse'。
  • 'PORT': (可选,当 TRANSPORT_TYPE=sse 时生效) SSE 传输的端口号,默认为 '3000'。
  • 'LOG_LEVEL': (可选) 日志级别,默认为 'info'。可选值包括 'verbose', 'debug', 'info', 'warn', 'error', 'fatal'。

启动服务器示例 (stdio 传输):

GOOGLE_API_KEY=YOUR_API_KEY npm start

启动服务器示例 (SSE 传输):

GOOGLE_API_KEY=YOUR_API_KEY TRANSPORT_TYPE=sse PORT=3000 npm start

基本使用方法

服务器启动后,MCP 客户端可以通过 JSON-RPC 协议调用以下工具:

1. 图像识别 (image_recognition)

用于分析图像内容。

请求示例:

{
  "name": "image_recognition",
  "arguments": {
    "filepath": "/path/to/image.jpg",  //  请替换为图像文件路径
    "prompt": "请详细描述这张图片的内容",  // (可选) 自定义提示语
    "modelname": "gemini-2.0-flash"   // (可选) 指定使用的 Gemini 模型
  }
}

2. 音频识别 (audio_recognition)

用于分析音频内容,例如音频转录。

请求示例:

{
  "name": "audio_recognition",
  "arguments": {
    "filepath": "/path/to/audio.mp3",  //  请替换为音频文件路径
    "prompt": "请转录这段音频",      // (可选) 自定义提示语
    "modelname": "gemini-2.0-flash"   // (可选) 指定使用的 Gemini 模型
  }
}

3. 视频识别 (video_recognition)

用于分析视频内容。

请求示例:

{
  "name": "video_recognition",
  "arguments": {
    "filepath": "/path/to/video.mp4",  //  请替换为视频文件路径
    "prompt": "请描述这个视频中发生了什么", // (可选) 自定义提示语
    "modelname": "gemini-2.0-flash"   // (可选) 指定使用的 Gemini 模型
  }
}

通用参数说明:

  • 'filepath' (必需): 要分析的媒体文件路径。
  • 'prompt' (可选): 自定义提示语,用于更精细地控制识别结果。
  • 'modelname' (可选): 指定使用的 Gemini 模型名称,默认为 'gemini-2.0-flash'。

请根据您的 MCP 客户端的具体使用方法,配置服务器连接并调用相应的工具。

信息

分类

AI与计算