使用说明

项目简介

本项目是一个 MCP (Model Context Protocol) 服务器，旨在为 LLM 应用提供强大的多媒体内容理解能力。它集成了 Google Gemini AI，能够分析和识别图像、音频和视频内容，并将识别结果以结构化的方式提供给 LLM 客户端。

主要功能点

图像识别: 分析和描述图像内容，例如识别图像中的物体、场景等。
音频识别: 分析和转录音频内容，例如将语音转换为文字。
视频识别: 分析和描述视频内容，例如理解视频中的动作、事件等。

所有识别功能均由 Google Gemini AI 提供支持，保证了识别的准确性和先进性。

安装步骤

克隆仓库: 使用 'git clone https://github.com/mario-andreschak/mcp_video_recognition.git' 命令克隆仓库到本地。
进入目录: 使用 'cd mcp_video_recognition' 命令进入项目目录。
安装依赖: 确保已安装 Node.js (>= 18.0)，然后运行 'npm install' 命令安装项目依赖。
构建项目: 运行 'npm run build' 命令构建项目。

服务器配置

要将此 MCP 服务器集成到 MCP 客户端（例如 Cline），您需要配置服务器启动命令。以下是配置示例，您需要根据实际情况修改路径：

{
  "mcpServers": {
    "video-recognition": {
      "command": "node",
      "args": [
        "/path/to/mcp-video-recognition/dist/index.js"  //  请替换为实际的 index.js 文件路径
      ],
      "disabled": false,
      "autoApprove": []
    }
  }
}

配置参数说明:

'command': 启动服务器的命令，这里使用 'node' 运行 JavaScript 文件。
'args': 命令参数，指向编译后的 'index.js' 文件路径。请务必将 '/path/to/mcp-video-recognition/dist/index.js' 替换为服务器 'index.js' 文件的实际绝对路径。

环境变量配置:

启动服务器前，您需要设置以下环境变量：

'GOOGLE_API_KEY': (必需) 您的 Google Gemini API 密钥。请在启动命令前设置此环境变量，例如 'GOOGLE_API_KEY=YOUR_API_KEY'。
'TRANSPORT_TYPE': (可选) 传输类型，默认为 'stdio'。如果需要使用 SSE 传输，请设置为 'sse'。
'PORT': (可选，当 TRANSPORT_TYPE=sse 时生效) SSE 传输的端口号，默认为 '3000'。
'LOG_LEVEL': (可选) 日志级别，默认为 'info'。可选值包括 'verbose', 'debug', 'info', 'warn', 'error', 'fatal'。

启动服务器示例 (stdio 传输):

GOOGLE_API_KEY=YOUR_API_KEY npm start

启动服务器示例 (SSE 传输):

GOOGLE_API_KEY=YOUR_API_KEY TRANSPORT_TYPE=sse PORT=3000 npm start

基本使用方法

服务器启动后，MCP 客户端可以通过 JSON-RPC 协议调用以下工具：

1. 图像识别 (image_recognition)

用于分析图像内容。

请求示例:

{
  "name": "image_recognition",
  "arguments": {
    "filepath": "/path/to/image.jpg",  //  请替换为图像文件路径
    "prompt": "请详细描述这张图片的内容",  // (可选) 自定义提示语
    "modelname": "gemini-2.0-flash"   // (可选) 指定使用的 Gemini 模型
  }
}

2. 音频识别 (audio_recognition)

用于分析音频内容，例如音频转录。

请求示例:

{
  "name": "audio_recognition",
  "arguments": {
    "filepath": "/path/to/audio.mp3",  //  请替换为音频文件路径
    "prompt": "请转录这段音频",      // (可选) 自定义提示语
    "modelname": "gemini-2.0-flash"   // (可选) 指定使用的 Gemini 模型
  }
}

3. 视频识别 (video_recognition)

用于分析视频内容。

请求示例:

{
  "name": "video_recognition",
  "arguments": {
    "filepath": "/path/to/video.mp4",  //  请替换为视频文件路径
    "prompt": "请描述这个视频中发生了什么", // (可选) 自定义提示语
    "modelname": "gemini-2.0-flash"   // (可选) 指定使用的 Gemini 模型
  }
}

通用参数说明:

'filepath' (必需): 要分析的媒体文件路径。
'prompt' (可选): 自定义提示语，用于更精细地控制识别结果。
'modelname' (可选): 指定使用的 Gemini 模型名称，默认为 'gemini-2.0-flash'。

请根据您的 MCP 客户端的具体使用方法，配置服务器连接并调用相应的工具。

Gemini 媒体识别 MCP 服务器

使用说明

项目简介

主要功能点

安装步骤

服务器配置

基本使用方法

服务器信息