使用说明

项目简介

Florence-2 MCP服务器是一个基于 Model Context Protocol (MCP) 构建的应用后端,专注于图像处理。它集成了强大的 Florence-2 视觉模型,为大型语言模型(LLM)客户端提供光学字符识别(OCR)和图像描述生成能力。通过标准化的 MCP 协议,该服务器可以轻松地与各种支持 MCP 协议的 LLM 客户端(如 Claude Desktop, Goose)集成,扩展 LLM 在视觉内容理解方面的能力。

主要功能点

  • 光学字符识别 (OCR):从图片或PDF文档中提取文本内容,支持本地文件和网络URL。
  • 图像描述生成 (Captioning):生成图片内容的描述性文字,提供不同详细程度的描述,支持本地文件和网络URL。
  • 支持多种图像和文档格式:支持常见的图片格式以及PDF文档。
  • 易于集成:遵循 MCP 协议,可以方便地与各种 LLM 客户端集成。
  • 灵活部署:可以通过简单的命令启动服务,并可以根据需求配置模型大小和缓存策略。

安装步骤

由于该仓库提供的是一个 MCP 服务器的实现,你需要使用一个 MCP 客户端(例如 Claude Desktop 或 Goose)来连接和使用它。这里以通用的安装方式为例,指导你如何配置和运行这个 MCP 服务器:

  1. 环境准备

    • 确保你的系统已安装 Python 环境。
    • 推荐使用 'uv' 包管理器来简化 Python 应用的安装和运行。如果还没有安装 'uv',请先安装 'uv'。
    • 确保你的网络环境可以访问 GitHub 和 Hugging Face 模型仓库,因为需要下载代码和模型。
  2. 配置 MCP 客户端: 你需要根据你使用的 MCP 客户端类型进行配置。该仓库的 'README.md' 文件中提供了针对 Claude Desktop、Goose CLI 和 Goose Desktop 的配置示例。你需要根据你的客户端类型,复制相应的配置信息。

服务器配置

以下是如何在 MCP 客户端中配置 Florence-2 MCP 服务器的示例配置信息。请注意,这里提供的是配置信息,你不需要手动执行命令,而是在 MCP 客户端的配置中填写以下信息。

以 Claude Desktop 为例,配置 'claude_desktop_config.json' 文件:

{
  "mcpServers": {
    "florence-2": {  // 服务器名称,可以自定义,例如 "florence-2-ocr"
      "command": "uvx", // 启动服务器的命令,这里使用 uvx
      "args": [       // 传递给 uvx 命令的参数
        "--from",    // 指定从哪里获取代码
        "git+https://github.com/jkawamoto/mcp-florence2", // 代码仓库地址
        "mcp-florence2" //  指定要运行的包或模块名,这里是 mcp-florence2
      ]
    }
  }
}

配置参数解释:

  • '"florence-2"': MCP 服务器的名称,在客户端中用于标识和选择该服务器。你可以自定义这个名称。
  • '"command": "uvx"': 指定用于启动服务器的命令。 'uvx' 是一个用于运行 Python 应用的工具,这里用于从 Git 仓库运行 Florence-2 MCP 服务器。
  • '"args"': 一个字符串数组,包含了传递给 'uvx' 命令的参数。
    • '"--from"': 告知 'uvx' 从指定的源获取代码。
    • '"git+https://github.com/jkawamoto/mcp-florence2"': 指定代码源为 Git 仓库,并提供仓库的 URL。 'uvx' 会自动从这个仓库下载代码。
    • '"mcp-florence2"': 指定要运行的 Python 包或模块的名称。 'uvx' 会在下载的代码中查找名为 'mcp-florence2' 的包或模块并运行。

对于 Goose CLI 或 Goose Desktop,配置方式类似,请参考仓库 'README.md' 文件中对应的配置示例。 关键在于理解 'command' 和 'args' 的作用,它们告诉 MCP 客户端如何启动 Florence-2 MCP 服务器。

基本使用方法

一旦你在 MCP 客户端中配置并成功连接到 Florence-2 MCP 服务器,你就可以在客户端中调用服务器提供的工具来处理图像。

例如,在支持 MCP 协议的 LLM 应用中:

  1. 选择 Florence-2 MCP 服务器:在你的 LLM 应用中选择或启用已配置的 "Florence-2" (或你自定义的名称) MCP 服务器。
  2. 调用 'ocr' 工具
    • 指定 'ocr' 工具。
    • 提供 'src' 参数,指定要处理的图片或 PDF 文件的路径或 URL。例如,'src: "path/to/your/image.jpg"' 或 'src: "https://example.com/document.pdf"'。
    • LLM 客户端会将请求发送到 Florence-2 MCP 服务器,服务器会执行 OCR 任务并返回提取的文本内容。
  3. 调用 'caption' 工具
    • 指定 'caption' 工具。
    • 提供 'src' 参数,指定要处理的图片或 PDF 文件的路径或 URL。
    • LLM 客户端会将请求发送到 Florence-2 MCP 服务器,服务器会生成图像描述并返回。

具体的操作界面和步骤会根据你使用的 MCP 客户端有所不同,但核心思想是:配置 MCP 服务器连接 -> 选择工具 -> 提供参数 -> 获取结果

通过 Florence-2 MCP 服务器,你的 LLM 应用将获得强大的视觉内容理解能力,可以处理图片和 PDF 文档中的信息,从而实现更丰富的应用场景。

信息

分类

AI与计算