使用说明
项目简介
本项目是一个 MCP (Model Context Protocol) 服务器,旨在为 LLM 应用提供强大的多媒体内容理解能力。它集成了 Google Gemini AI,能够分析和识别图像、音频和视频内容,并将识别结果以结构化的方式提供给 LLM 客户端。
主要功能点
- 图像识别: 分析和描述图像内容,例如识别图像中的物体、场景等。
- 音频识别: 分析和转录音频内容,例如将语音转换为文字。
- 视频识别: 分析和描述视频内容,例如理解视频中的动作、事件等。
所有识别功能均由 Google Gemini AI 提供支持,保证了识别的准确性和先进性。
安装步骤
- 克隆仓库: 使用 'git clone https://github.com/mario-andreschak/mcp_video_recognition.git' 命令克隆仓库到本地。
- 进入目录: 使用 'cd mcp_video_recognition' 命令进入项目目录。
- 安装依赖: 确保已安装 Node.js (>= 18.0),然后运行 'npm install' 命令安装项目依赖。
- 构建项目: 运行 'npm run build' 命令构建项目。
服务器配置
要将此 MCP 服务器集成到 MCP 客户端(例如 Cline),您需要配置服务器启动命令。以下是配置示例,您需要根据实际情况修改路径:
{ "mcpServers": { "video-recognition": { "command": "node", "args": [ "/path/to/mcp-video-recognition/dist/index.js" // 请替换为实际的 index.js 文件路径 ], "disabled": false, "autoApprove": [] } } }
配置参数说明:
- 'command': 启动服务器的命令,这里使用 'node' 运行 JavaScript 文件。
- 'args': 命令参数,指向编译后的 'index.js' 文件路径。请务必将 '/path/to/mcp-video-recognition/dist/index.js' 替换为服务器 'index.js' 文件的实际绝对路径。
环境变量配置:
启动服务器前,您需要设置以下环境变量:
- 'GOOGLE_API_KEY': (必需) 您的 Google Gemini API 密钥。请在启动命令前设置此环境变量,例如 'GOOGLE_API_KEY=YOUR_API_KEY'。
- 'TRANSPORT_TYPE': (可选) 传输类型,默认为 'stdio'。如果需要使用 SSE 传输,请设置为 'sse'。
- 'PORT': (可选,当 TRANSPORT_TYPE=sse 时生效) SSE 传输的端口号,默认为 '3000'。
- 'LOG_LEVEL': (可选) 日志级别,默认为 'info'。可选值包括 'verbose', 'debug', 'info', 'warn', 'error', 'fatal'。
启动服务器示例 (stdio 传输):
GOOGLE_API_KEY=YOUR_API_KEY npm start
启动服务器示例 (SSE 传输):
GOOGLE_API_KEY=YOUR_API_KEY TRANSPORT_TYPE=sse PORT=3000 npm start
基本使用方法
服务器启动后,MCP 客户端可以通过 JSON-RPC 协议调用以下工具:
1. 图像识别 (image_recognition)
用于分析图像内容。
请求示例:
{ "name": "image_recognition", "arguments": { "filepath": "/path/to/image.jpg", // 请替换为图像文件路径 "prompt": "请详细描述这张图片的内容", // (可选) 自定义提示语 "modelname": "gemini-2.0-flash" // (可选) 指定使用的 Gemini 模型 } }
2. 音频识别 (audio_recognition)
用于分析音频内容,例如音频转录。
请求示例:
{ "name": "audio_recognition", "arguments": { "filepath": "/path/to/audio.mp3", // 请替换为音频文件路径 "prompt": "请转录这段音频", // (可选) 自定义提示语 "modelname": "gemini-2.0-flash" // (可选) 指定使用的 Gemini 模型 } }
3. 视频识别 (video_recognition)
用于分析视频内容。
请求示例:
{ "name": "video_recognition", "arguments": { "filepath": "/path/to/video.mp4", // 请替换为视频文件路径 "prompt": "请描述这个视频中发生了什么", // (可选) 自定义提示语 "modelname": "gemini-2.0-flash" // (可选) 指定使用的 Gemini 模型 } }
通用参数说明:
- 'filepath' (必需): 要分析的媒体文件路径。
- 'prompt' (可选): 自定义提示语,用于更精细地控制识别结果。
- 'modelname' (可选): 指定使用的 Gemini 模型名称,默认为 'gemini-2.0-flash'。
请根据您的 MCP 客户端的具体使用方法,配置服务器连接并调用相应的工具。
信息
分类
AI与计算