Luma 多模型视觉理解服务器

关键词

图像分析 OCR识别视觉理解代码截图界面设计

项目简介

Luma MCP 是一个专门为AI助手设计的视觉理解服务器，通过Model Context Protocol标准为文本模型（如GPT-4、Claude Opus等）提供图片分析能力，包括代码截图识别、UI界面分析、OCR文字提取等功能。

主要功能

多模型支持：集成四家主流视觉模型提供商
- 智谱 GLM-4.6V（付费，中文理解优秀）
- 硅基流动 DeepSeek-OCR（免费，OCR能力强）
- 阿里云 Qwen3-VL-Flash（付费，速度快成本低）
- 火山方舟 Doubao-Seed-1.6（付费，性价比高）
智能场景识别：自动识别代码、UI、错误等不同场景
多种图片来源：支持本地文件、远程URL和Data URI格式
重试机制：内置指数退避重试，提高服务可靠性

安装步骤

安装依赖：确保Node.js版本≥18.0.0
获取API密钥：选择其中一个模型提供商并获取相应的API密钥
构建项目：运行 'npm install && npm run build'

服务器配置

配置MCP客户端（如Claude Desktop）来连接Luma服务器，配置包含：

服务器名称：luma
启动命令：node（本地开发）或npx（已发布版本）

环境变量：根据选择的模型设置对应的API密钥

基本使用方法

明确调用工具：在与AI助手对话时，明确指示使用'analyze_image'工具
提供图片路径：可以是本地文件路径或网络图片URL
示例指令：
- "使用 mcp__luma-mcp__analyze_image 工具分析这张图片"
"请用 analyze_image 工具查看 ./screenshot.png 中的代码错误"
"通过 luma-mcp 服务器分析这张图片"

重要提示：Luma MCP主要服务于本身不支持视觉功能的AI模型，如果使用的AI模型已具备视觉能力，它会优先使用自身能力而不会调用Luma。

服务器信息

分类