使用说明

项目简介

mcp-screenshot 是一个基于 Model Context Protocol (MCP) 构建的服务器,旨在为大型语言模型 (LLM) 客户端提供屏幕截图和光学字符识别 (OCR) 功能。通过此服务器,LLM 可以方便地获取屏幕内容并进行文本分析。

主要功能点

  • 屏幕截图: 支持截取全屏、左半屏或右半屏屏幕截图。
  • OCR 文本识别: 能够识别截图中包含的日语和英语文本。
  • 多种输出格式: OCR 结果支持 JSON、Markdown、垂直或水平文本等多种格式输出。
  • 双 OCR 引擎: 默认使用高精度的 yomitoku OCR API,备选方案为 Tesseract.js 本地引擎,确保 OCR 服务的可用性。

安装步骤

  1. 确保已安装 Node.js 和 npm。

  2. 打开终端,运行以下命令安装 mcp-screenshot 服务器:

    npx -y @kazuph/mcp-screenshot

服务器配置

要将 mcp-screenshot 服务器与 MCP 客户端(例如 Claude 桌面应用)连接,您需要在客户端的配置文件中添加服务器配置信息。以下是 Claude 桌面应用 'claude_desktop_config.json' 的配置示例:

{
  "mcpServers": {
    "screenshot": {
      "command": "npx",
      "args": ["-y", "@kazuph/mcp-screenshot"],
      "env": {
        "OCR_API_URL": "http://localhost:8000" // yomitoku API 服务器地址 (如果使用本地 yomitoku-api-server, 保持默认即可)
      }
    }
  }
}
  • 'server name': 服务器名称,例如 "screenshot",可以自定义。
  • 'command': 启动服务器的命令,固定为 "npx"。
  • 'args': 启动服务器的参数,固定为 '["-y", "@kazuph/mcp-screenshot"]'。
  • 'env': 环境变量配置,'OCR_API_URL' 用于配置 yomitoku OCR API 服务器地址。如果使用仓库默认的 'yomitoku-api-server' (需要单独安装和运行),则无需修改此项。

基本使用方法

配置完成后,在 MCP 客户端中,您可以使用自然语言指令调用 "capture" 工具来执行屏幕截图和 OCR 操作。例如,在 Claude 中,您可以这样指示:

请截取左半边屏幕并识别其中的文字。

请对整个屏幕截图并以 Markdown 格式返回识别的文本。

工具 "capture" 支持以下选项:

  • 'region': 截图区域,可选值包括 'left' (左半屏), 'right' (右半屏), 'full' (全屏),默认为 'left'。
  • 'format': OCR 输出格式,可选值包括 'json', 'markdown', 'vertical' (垂直文本), 'horizontal' (水平文本),默认为 'markdown'。

信息

分类

桌面与硬件