使用说明

项目简介

mcp-screenshot 是一个基于 Model Context Protocol (MCP) 构建的服务器，旨在为大型语言模型 (LLM) 客户端提供屏幕截图和光学字符识别 (OCR) 功能。通过此服务器，LLM 可以方便地获取屏幕内容并进行文本分析。

主要功能点

屏幕截图: 支持截取全屏、左半屏或右半屏屏幕截图。
OCR 文本识别: 能够识别截图中包含的日语和英语文本。
多种输出格式: OCR 结果支持 JSON、Markdown、垂直或水平文本等多种格式输出。
双 OCR 引擎: 默认使用高精度的 yomitoku OCR API，备选方案为 Tesseract.js 本地引擎，确保 OCR 服务的可用性。

安装步骤

确保已安装 Node.js 和 npm。

打开终端，运行以下命令安装 mcp-screenshot 服务器：

npx -y @kazuph/mcp-screenshot

服务器配置

要将 mcp-screenshot 服务器与 MCP 客户端（例如 Claude 桌面应用）连接，您需要在客户端的配置文件中添加服务器配置信息。以下是 Claude 桌面应用 'claude_desktop_config.json' 的配置示例：

{
  "mcpServers": {
    "screenshot": {
      "command": "npx",
      "args": ["-y", "@kazuph/mcp-screenshot"],
      "env": {
        "OCR_API_URL": "http://localhost:8000" // yomitoku API 服务器地址 (如果使用本地 yomitoku-api-server, 保持默认即可)
      }
    }
  }
}

'server name': 服务器名称，例如 "screenshot"，可以自定义。
'command': 启动服务器的命令，固定为 "npx"。
'args': 启动服务器的参数，固定为 '["-y", "@kazuph/mcp-screenshot"]'。
'env': 环境变量配置，'OCR_API_URL' 用于配置 yomitoku OCR API 服务器地址。如果使用仓库默认的 'yomitoku-api-server' (需要单独安装和运行)，则无需修改此项。

基本使用方法

配置完成后，在 MCP 客户端中，您可以使用自然语言指令调用 "capture" 工具来执行屏幕截图和 OCR 操作。例如，在 Claude 中，您可以这样指示：

请截取左半边屏幕并识别其中的文字。

或

请对整个屏幕截图并以 Markdown 格式返回识别的文本。

工具 "capture" 支持以下选项：

'region': 截图区域，可选值包括 'left' (左半屏), 'right' (右半屏), 'full' (全屏)，默认为 'left'。
'format': OCR 输出格式，可选值包括 'json', 'markdown', 'vertical' (垂直文本), 'horizontal' (水平文本)，默认为 'markdown'。

关键词

使用说明

信息