项目简介

Peekaboo是一款专为macOS设计的强大工具,旨在弥合屏幕内容与AI理解之间的鸿沟。它不仅能进行高速屏幕截图和AI图像分析,还集成了全面的GUI自动化框架,允许AI代理通过自然语言与任何macOS应用进行交互。它既可以作为独立的命令行工具使用,也可以作为MCP服务器为AI助手(如Claude Desktop、Cursor IDE)提供上下文信息和功能。

主要功能点

  • 极速屏幕截图: 快速捕捉整个屏幕、特定应用或窗口的图像。
  • AI图像分析: 利用GPT-4.1 Vision、Claude、Grok或本地Ollama模型分析屏幕截图内容,实现AI视觉理解。
  • 全面GUI自动化: 支持点击、输入、滚动、拖拽、按键等操作,实现与任何macOS应用的深度交互。
  • 自然语言AI代理: 通过AI代理理解并执行复杂的自然语言自动化任务(例如,“打开文本编辑并写一首诗”),将指令转化为具体操作。
  • 智能UI元素识别: 自动识别屏幕上的按钮、文本框、链接等互动式UI元素,并进行精确坐标映射。
  • 菜单栏提取: 无需实际点击或打开菜单,即可提取应用的完整菜单结构和对应的键盘快捷键。
  • 窗口与应用管理: 支持启动、关闭、聚焦、隐藏、最小化、移动、调整窗口大小等操作,并支持多屏幕显示器和macOS虚拟桌面(Spaces)的管理。
  • 多传输协议支持: 作为MCP服务器通过JSON-RPC协议与客户端通信,支持Stdio等多种传输方式,为AI助手提供安全、可扩展的上下文服务。

安装步骤

有多种安装Peekaboo CLI和MCP服务器的方式,推荐使用npm全局安装,它包含了MCP服务器:

  1. 确保您已安装Node.js (版本 >= 20.0.0)
  2. 打开终端,运行以下命令进行全局安装:
    npm install -g @steipete/peekaboo-mcp
  3. 授权: Peekaboo需要“屏幕录制”权限(用于截图)和“辅助功能”权限(用于UI自动化)。请前往“系统设置”>“隐私与安全性”,找到“屏幕与系统音频录制”和“辅助功能”,为您的终端应用或AI助手(如Claude Desktop)授予权限。您也可以通过运行 'peekaboo permissions request screen-recording' 和 'peekaboo permissions request accessibility' 来快速打开权限设置界面。

服务器配置

Peekaboo MCP服务器通常由AI助手客户端直接启动和管理。以下是如何配置主流AI助手以使用Peekaboo MCP服务器的示例。请将以下JSON片段添加到您的AI助手(如Claude Desktop、Cursor IDE)的配置中:

{
  "mcpServers": {
    "peekaboo": {
      "command": "npx",
      "args": ["-y", "@steipete/peekaboo-mcp@beta"],
      "env": {
        "PEEKABOO_AI_PROVIDERS": "anthropic/claude-opus-4,openai/gpt-4.1,ollama/llava:latest",
        "OPENAI_API_KEY": "your-openai-api-key-here",
        "ANTHROPIC_API_KEY": "your-anthropic-api-key-here"
      }
    }
  }
}

参数说明:

  • '"peekaboo"': 这是您为该MCP服务器定义的名称,AI助手将通过此名称引用它。
  • '"command": "npx"': 指定用于启动MCP服务器的命令。'npx'是一个Node.js工具,用于执行npm包而无需预先安装。
  • '"args": ["-y", "@steipete/peekaboo-mcp@beta"]': 传递给'command'的参数。它会运行最新的Peekaboo MCP服务器包。
  • '"env"': 这是一个可选的环境变量对象,用于配置Peekaboo的行为。
    • '"PEEKABOO_AI_PROVIDERS"': 指定用于AI分析的视觉模型提供商,用逗号分隔。例如,可以配置OpenAI、Anthropic或本地Ollama模型。
    • '"OPENAI_API_KEY"': 您的OpenAI API密钥。请将其替换为您的实际密钥。
    • '"ANTHROPIC_API_KEY"': 您的Anthropic API密钥。请将其替换为您的实际密钥。
    • 注意: 建议将API密钥安全地存储在AI助手的凭据管理或Peekaboo的配置文件('~/.peekaboo/credentials')中,而不是直接写入JSON配置。您可以在终端运行 'peekaboo config set-credential OPENAI_API_KEY sk-...' 来安全地设置API密钥。

基本使用方法

配置完成后,您的AI助手将能够通过MCP协议调用Peekaboo的功能。您可以尝试以下自然语言指令(示例针对AI助手):

  • 截图并分析: 向AI助手说:“使用Peekaboo截取当前Safari浏览器窗口的图,并告诉我上面显示了什么错误信息。”
  • GUI自动化: 向AI助手说:“使用Peekaboo打开文本编辑,然后输入‘Hello World’。” 向AI助手说:“使用Peekaboo在Finder中找到并关闭所有窗口。”
  • 窗口管理: 向AI助手说:“使用Peekaboo将Safari浏览器移动到我的第二个显示器上。”
  • 查找UI元素: 向AI助手说:“使用Peekaboo查看当前屏幕,并列出所有可点击的按钮。”

信息

分类

桌面与硬件