项目简介
Luma MCP 是一个专门为AI助手设计的视觉理解服务器,通过Model Context Protocol标准为文本模型(如GPT-4、Claude Opus等)提供图片分析能力,包括代码截图识别、UI界面分析、OCR文字提取等功能。
主要功能
- 多模型支持:集成四家主流视觉模型提供商
- 智谱 GLM-4.6V(付费,中文理解优秀)
- 硅基流动 DeepSeek-OCR(免费,OCR能力强)
- 阿里云 Qwen3-VL-Flash(付费,速度快成本低)
- 火山方舟 Doubao-Seed-1.6(付费,性价比高)
- 智能场景识别:自动识别代码、UI、错误等不同场景
- 多种图片来源:支持本地文件、远程URL和Data URI格式
- 重试机制:内置指数退避重试,提高服务可靠性
安装步骤
- 安装依赖:确保Node.js版本≥18.0.0
- 获取API密钥:选择其中一个模型提供商并获取相应的API密钥
- 构建项目:运行 'npm install && npm run build'
服务器配置
配置MCP客户端(如Claude Desktop)来连接Luma服务器,配置包含:
- 服务器名称:luma
- 启动命令:node(本地开发)或npx(已发布版本)
- 环境变量:根据选择的模型设置对应的API密钥
基本使用方法
- 明确调用工具:在与AI助手对话时,明确指示使用'analyze_image'工具
- 提供图片路径:可以是本地文件路径或网络图片URL
- 示例指令:
- "使用 mcp__luma-mcp__analyze_image 工具分析这张图片"
- "请用 analyze_image 工具查看 ./screenshot.png 中的代码错误"
- "通过 luma-mcp 服务器分析这张图片"
重要提示:Luma MCP主要服务于本身不支持视觉功能的AI模型,如果使用的AI模型已具备视觉能力,它会优先使用自身能力而不会调用Luma。
信息
分类
AI与计算