使用说明

项目简介

Florence-2 MCP服务器是一个基于 Model Context Protocol (MCP) 构建的应用后端，专注于图像处理。它集成了强大的 Florence-2 视觉模型，为大型语言模型（LLM）客户端提供光学字符识别（OCR）和图像描述生成能力。通过标准化的 MCP 协议，该服务器可以轻松地与各种支持 MCP 协议的 LLM 客户端（如 Claude Desktop, Goose）集成，扩展 LLM 在视觉内容理解方面的能力。

主要功能点

光学字符识别 (OCR)：从图片或PDF文档中提取文本内容，支持本地文件和网络URL。
图像描述生成 (Captioning)：生成图片内容的描述性文字，提供不同详细程度的描述，支持本地文件和网络URL。
支持多种图像和文档格式：支持常见的图片格式以及PDF文档。
易于集成：遵循 MCP 协议，可以方便地与各种 LLM 客户端集成。
灵活部署：可以通过简单的命令启动服务，并可以根据需求配置模型大小和缓存策略。

安装步骤

由于该仓库提供的是一个 MCP 服务器的实现，你需要使用一个 MCP 客户端（例如 Claude Desktop 或 Goose）来连接和使用它。这里以通用的安装方式为例，指导你如何配置和运行这个 MCP 服务器：

环境准备：
- 确保你的系统已安装 Python 环境。
- 推荐使用 'uv' 包管理器来简化 Python 应用的安装和运行。如果还没有安装 'uv'，请先安装 'uv'。
- 确保你的网络环境可以访问 GitHub 和 Hugging Face 模型仓库，因为需要下载代码和模型。
配置 MCP 客户端：你需要根据你使用的 MCP 客户端类型进行配置。该仓库的 'README.md' 文件中提供了针对 Claude Desktop、Goose CLI 和 Goose Desktop 的配置示例。你需要根据你的客户端类型，复制相应的配置信息。

服务器配置

以下是如何在 MCP 客户端中配置 Florence-2 MCP 服务器的示例配置信息。请注意，这里提供的是配置信息，你不需要手动执行命令，而是在 MCP 客户端的配置中填写以下信息。

以 Claude Desktop 为例，配置 'claude_desktop_config.json' 文件：

{
  "mcpServers": {
    "florence-2": {  // 服务器名称，可以自定义，例如 "florence-2-ocr"
      "command": "uvx", // 启动服务器的命令，这里使用 uvx
      "args": [       // 传递给 uvx 命令的参数
        "--from",    // 指定从哪里获取代码
        "git+https://github.com/jkawamoto/mcp-florence2", // 代码仓库地址
        "mcp-florence2" //  指定要运行的包或模块名，这里是 mcp-florence2
      ]
    }
  }
}

配置参数解释：

'"florence-2"': MCP 服务器的名称，在客户端中用于标识和选择该服务器。你可以自定义这个名称。
'"command": "uvx"': 指定用于启动服务器的命令。 'uvx' 是一个用于运行 Python 应用的工具，这里用于从 Git 仓库运行 Florence-2 MCP 服务器。
'"args"': 一个字符串数组，包含了传递给 'uvx' 命令的参数。
- '"--from"': 告知 'uvx' 从指定的源获取代码。
- '"git+https://github.com/jkawamoto/mcp-florence2"': 指定代码源为 Git 仓库，并提供仓库的 URL。 'uvx' 会自动从这个仓库下载代码。
- '"mcp-florence2"': 指定要运行的 Python 包或模块的名称。 'uvx' 会在下载的代码中查找名为 'mcp-florence2' 的包或模块并运行。

对于 Goose CLI 或 Goose Desktop，配置方式类似，请参考仓库 'README.md' 文件中对应的配置示例。 关键在于理解 'command' 和 'args' 的作用，它们告诉 MCP 客户端如何启动 Florence-2 MCP 服务器。

基本使用方法

一旦你在 MCP 客户端中配置并成功连接到 Florence-2 MCP 服务器，你就可以在客户端中调用服务器提供的工具来处理图像。

例如，在支持 MCP 协议的 LLM 应用中：

选择 Florence-2 MCP 服务器：在你的 LLM 应用中选择或启用已配置的 "Florence-2" (或你自定义的名称) MCP 服务器。
调用 'ocr' 工具：
- 指定 'ocr' 工具。
- 提供 'src' 参数，指定要处理的图片或 PDF 文件的路径或 URL。例如，'src: "path/to/your/image.jpg"' 或 'src: "https://example.com/document.pdf"'。
- LLM 客户端会将请求发送到 Florence-2 MCP 服务器，服务器会执行 OCR 任务并返回提取的文本内容。
调用 'caption' 工具：
- 指定 'caption' 工具。
- 提供 'src' 参数，指定要处理的图片或 PDF 文件的路径或 URL。
- LLM 客户端会将请求发送到 Florence-2 MCP 服务器，服务器会生成图像描述并返回。

具体的操作界面和步骤会根据你使用的 MCP 客户端有所不同，但核心思想是：配置 MCP 服务器连接 -> 选择工具 -> 提供参数 -> 获取结果。

通过 Florence-2 MCP 服务器，你的 LLM 应用将获得强大的视觉内容理解能力，可以处理图片和 PDF 文档中的信息，从而实现更丰富的应用场景。

关键词