项目简介

Google OCR MCP 服务器是一个基于 Model Context Protocol (MCP) 构建的应用后端,旨在为大型语言模型 (LLM) 客户端提供图像光学字符识别 (OCR) 功能和基础的笔记管理能力。通过集成 Google Cloud Vision API,该服务器能够从图片中提取文本,并支持用户创建、存储和总结笔记。

主要功能点

  • 资源 (Resources):

    • 笔记存储: 提供简单的笔记存储系统,每条笔记包含名称、描述和纯文本内容。
    • 自定义 URI 方案: 使用 'note://' URI 方案访问和管理单个笔记资源。
  • 工具 (Tools):

    • 'add-note' (添加笔记): 允许客户端向服务器添加新的笔记,需要提供笔记的名称和内容。添加成功后,服务器会更新状态并通知客户端资源变更。
    • 'ocr' (光学字符识别): 对指定的图像文件执行 OCR 操作,返回图像中识别出的文本内容。
  • Prompt 模板 (Prompts):

    • 'summarize-notes' (总结笔记): 生成所有存储笔记的摘要。可以接受可选参数 'style' (风格),控制摘要的详细程度 (brief/detailed)。

安装步骤

  1. 环境准备: 确保已安装 Python 3.8 或更高版本,并配置好 Python 虚拟环境(推荐使用 'uv' 或 'venv')。
  2. 安装依赖: 使用 'uv sync' 命令安装项目依赖。如果未安装 'uv',请先安装 'pip install uv'。
  3. 配置 Google Cloud Vision API 凭据:
    • 前往 Google Cloud Console 创建或选择一个项目。
    • 启用 Cloud Vision API。
    • 创建服务账号并下载 JSON 格式的凭据文件。
    • 将凭据文件路径配置到环境变量 'GOOGLE_APPLICATION_CREDENTIALS' 中。 例如:'export GOOGLE_APPLICATION_CREDENTIALS=/path/to/your/google-application-credentials.json'。
  4. 安装 Smithery CLI (可选): 如果您希望通过 Smithery 自动安装和配置服务器到 Claude Desktop,请安装 Smithery CLI: 'npm install -g @smithery/cli'。

服务器配置

要将 'google-ocr-mcp-server' 配置为 Claude Desktop 的 MCP 服务器,您需要编辑 Claude Desktop 的配置文件 'claude_desktop_config.json'。

配置文件路径:

  • MacOS: '~/Library/Application\ Support/Claude/claude_desktop_config.json'
  • Windows: '%APPDATA%/Claude/claude_desktop_config.json'

配置内容 (添加到 'mcpServers' 字段中):

{
  "mcpServers": {
    "google-ocr-mcp-server": {
      "command": "uv",
      "args": ["run", "google-ocr-mcp-server"],
      "env": {
        "GOOGLE_APPLICATION_CREDENTIALS": "/path/to/google-application-credentials.json",
        "SAVE_RESULTS": false
      }
    }
  }
}

配置参数说明:

  • '"google-ocr-mcp-server"': 服务器名称,在 Claude Desktop 中用于标识该服务器。
  • '"command": "uv"': 启动服务器的命令,这里使用 'uv' 运行 Python 代码。如果您的环境中使用的是 'python' 或 'python3',请替换为相应的命令。
  • '"args": ["run", "google-ocr-mcp-server"]': 传递给 'uv' 命令的参数,'run google-ocr-mcp-server' 表示运行 'google-ocr-mcp-server' 包中的主程序。
  • '"env"': 环境变量配置。
    • '"GOOGLE_APPLICATION_CREDENTIALS": "/path/to/google-application-credentials.json"': Google Cloud Vision API 凭据文件路径,请替换为您的实际凭据文件路径
    • '"SAVE_RESULTS": false': 是否保存 OCR 结果为 JSON 文件,默认为 'false'。

如果您已发布该服务器,可以使用以下配置 (使用 'uvx' 运行已发布的包):

{
  "mcpServers": {
    "google-ocr-mcp-server": {
      "command": "uvx",
      "args": ["google-ocr-mcp-server"],
      "env": {
        "GOOGLE_APPLICATION_CREDENTIALS": "/path/to/google-application-credentials.json",
        "SAVE_RESULTS": false
      }
    }
  }
}

使用 Smithery 安装 (可选):

如果您安装了 Smithery CLI,可以使用以下命令自动安装和配置 'google-ocr-mcp-server' 到 Claude Desktop:

npx -y @smithery/cli install @Zerohertz/google-ocr-mcp-server --client claude

基本使用方法

  1. 启动服务器: 配置完成后,启动 Claude Desktop 客户端,'google-ocr-mcp-server' 将会自动启动并与客户端建立连接。
  2. 使用 OCR 工具: 在 Claude Desktop 中,您可以指示 LLM 客户端调用 'ocr' 工具,并提供本地图像文件的绝对路径作为参数。例如,您可以向 Claude 提问: "请识别图片 '/path/to/your/image.png' 中的文字"。 服务器将执行 OCR 操作并将识别结果返回给客户端。
  3. 使用笔记功能: 您可以指示 LLM 客户端使用 'add-note' 工具创建笔记,并使用 'summarize-notes' prompt 获取笔记摘要。例如:
    • "请帮我创建一个名为 '会议记录' 的笔记,内容是 '今天讨论了项目进展和下周计划' " (使用 'add-note' 工具)。
    • "请总结一下我所有的笔记" (使用 'summarize-notes' prompt)。

开发和调试

如果您需要进行开发或调试,可以使用 MCP Inspector 工具。按照仓库 README 中的 "Debugging" 部分的说明进行操作。

信息

分类

AI与计算