项目简介

Google OCR MCP 服务器是一个基于 Model Context Protocol (MCP) 构建的应用后端，旨在为大型语言模型 (LLM) 客户端提供图像光学字符识别 (OCR) 功能和基础的笔记管理能力。通过集成 Google Cloud Vision API，该服务器能够从图片中提取文本，并支持用户创建、存储和总结笔记。

主要功能点

资源 (Resources):
- 笔记存储: 提供简单的笔记存储系统，每条笔记包含名称、描述和纯文本内容。
- 自定义 URI 方案: 使用 'note://' URI 方案访问和管理单个笔记资源。
工具 (Tools):
- 'add-note' (添加笔记): 允许客户端向服务器添加新的笔记，需要提供笔记的名称和内容。添加成功后，服务器会更新状态并通知客户端资源变更。
- 'ocr' (光学字符识别): 对指定的图像文件执行 OCR 操作，返回图像中识别出的文本内容。
Prompt 模板 (Prompts):
- 'summarize-notes' (总结笔记): 生成所有存储笔记的摘要。可以接受可选参数 'style' (风格)，控制摘要的详细程度 (brief/detailed)。

安装步骤

环境准备: 确保已安装 Python 3.8 或更高版本，并配置好 Python 虚拟环境（推荐使用 'uv' 或 'venv'）。
安装依赖: 使用 'uv sync' 命令安装项目依赖。如果未安装 'uv'，请先安装 'pip install uv'。
配置 Google Cloud Vision API 凭据:
- 前往 Google Cloud Console 创建或选择一个项目。
- 启用 Cloud Vision API。
- 创建服务账号并下载 JSON 格式的凭据文件。
- 将凭据文件路径配置到环境变量 'GOOGLE_APPLICATION_CREDENTIALS' 中。例如：'export GOOGLE_APPLICATION_CREDENTIALS=/path/to/your/google-application-credentials.json'。
安装 Smithery CLI (可选): 如果您希望通过 Smithery 自动安装和配置服务器到 Claude Desktop，请安装 Smithery CLI： 'npm install -g @smithery/cli'。

服务器配置

要将 'google-ocr-mcp-server' 配置为 Claude Desktop 的 MCP 服务器，您需要编辑 Claude Desktop 的配置文件 'claude_desktop_config.json'。

配置文件路径:

MacOS: '~/Library/Application\ Support/Claude/claude_desktop_config.json'
Windows: '%APPDATA%/Claude/claude_desktop_config.json'

配置内容 (添加到 'mcpServers' 字段中):

{
  "mcpServers": {
    "google-ocr-mcp-server": {
      "command": "uv",
      "args": ["run", "google-ocr-mcp-server"],
      "env": {
        "GOOGLE_APPLICATION_CREDENTIALS": "/path/to/google-application-credentials.json",
        "SAVE_RESULTS": false
      }
    }
  }
}

配置参数说明:

'"google-ocr-mcp-server"': 服务器名称，在 Claude Desktop 中用于标识该服务器。
'"command": "uv"': 启动服务器的命令，这里使用 'uv' 运行 Python 代码。如果您的环境中使用的是 'python' 或 'python3'，请替换为相应的命令。
'"args": ["run", "google-ocr-mcp-server"]': 传递给 'uv' 命令的参数，'run google-ocr-mcp-server' 表示运行 'google-ocr-mcp-server' 包中的主程序。
'"env"': 环境变量配置。
- '"GOOGLE_APPLICATION_CREDENTIALS": "/path/to/google-application-credentials.json"': Google Cloud Vision API 凭据文件路径，请替换为您的实际凭据文件路径。
- '"SAVE_RESULTS": false': 是否保存 OCR 结果为 JSON 文件，默认为 'false'。

如果您已发布该服务器，可以使用以下配置 (使用 'uvx' 运行已发布的包):

{
  "mcpServers": {
    "google-ocr-mcp-server": {
      "command": "uvx",
      "args": ["google-ocr-mcp-server"],
      "env": {
        "GOOGLE_APPLICATION_CREDENTIALS": "/path/to/google-application-credentials.json",
        "SAVE_RESULTS": false
      }
    }
  }
}

使用 Smithery 安装 (可选):

如果您安装了 Smithery CLI，可以使用以下命令自动安装和配置 'google-ocr-mcp-server' 到 Claude Desktop:

npx -y @smithery/cli install @Zerohertz/google-ocr-mcp-server --client claude

基本使用方法

启动服务器: 配置完成后，启动 Claude Desktop 客户端，'google-ocr-mcp-server' 将会自动启动并与客户端建立连接。
使用 OCR 工具: 在 Claude Desktop 中，您可以指示 LLM 客户端调用 'ocr' 工具，并提供本地图像文件的绝对路径作为参数。例如，您可以向 Claude 提问： "请识别图片 '/path/to/your/image.png' 中的文字"。服务器将执行 OCR 操作并将识别结果返回给客户端。
使用笔记功能: 您可以指示 LLM 客户端使用 'add-note' 工具创建笔记，并使用 'summarize-notes' prompt 获取笔记摘要。例如：
- "请帮我创建一个名为 '会议记录' 的笔记，内容是 '今天讨论了项目进展和下周计划' " (使用 'add-note' 工具)。
- "请总结一下我所有的笔记" (使用 'summarize-notes' prompt)。

开发和调试

如果您需要进行开发或调试，可以使用 MCP Inspector 工具。按照仓库 README 中的 "Debugging" 部分的说明进行操作。

Google OCR MCP 服务器