项目简介

Luma MCP 是一个专门为AI助手设计的视觉理解服务器,通过Model Context Protocol标准为文本模型(如GPT-4、Claude Opus等)提供图片分析能力,包括代码截图识别、UI界面分析、OCR文字提取等功能。

主要功能

  • 多模型支持:集成四家主流视觉模型提供商
    • 智谱 GLM-4.6V(付费,中文理解优秀)
    • 硅基流动 DeepSeek-OCR(免费,OCR能力强)
    • 阿里云 Qwen3-VL-Flash(付费,速度快成本低)
    • 火山方舟 Doubao-Seed-1.6(付费,性价比高)
  • 智能场景识别:自动识别代码、UI、错误等不同场景
  • 多种图片来源:支持本地文件、远程URL和Data URI格式
  • 重试机制:内置指数退避重试,提高服务可靠性

安装步骤

  1. 安装依赖:确保Node.js版本≥18.0.0
  2. 获取API密钥:选择其中一个模型提供商并获取相应的API密钥
  3. 构建项目:运行 'npm install && npm run build'

服务器配置

配置MCP客户端(如Claude Desktop)来连接Luma服务器,配置包含:

  • 服务器名称:luma
  • 启动命令:node(本地开发)或npx(已发布版本)
  1. 环境变量:根据选择的模型设置对应的API密钥

基本使用方法

  1. 明确调用工具:在与AI助手对话时,明确指示使用'analyze_image'工具
  2. 提供图片路径:可以是本地文件路径或网络图片URL
  3. 示例指令
    • "使用 mcp__luma-mcp__analyze_image 工具分析这张图片"
  4. "请用 analyze_image 工具查看 ./screenshot.png 中的代码错误"
  5. "通过 luma-mcp 服务器分析这张图片"

重要提示:Luma MCP主要服务于本身不支持视觉功能的AI模型,如果使用的AI模型已具备视觉能力,它会优先使用自身能力而不会调用Luma。

信息

分类

AI与计算