使用说明
项目简介
Florence-2 MCP服务器是一个基于 Model Context Protocol (MCP) 构建的应用后端,专注于图像处理。它集成了强大的 Florence-2 视觉模型,为大型语言模型(LLM)客户端提供光学字符识别(OCR)和图像描述生成能力。通过标准化的 MCP 协议,该服务器可以轻松地与各种支持 MCP 协议的 LLM 客户端(如 Claude Desktop, Goose)集成,扩展 LLM 在视觉内容理解方面的能力。
主要功能点
- 光学字符识别 (OCR):从图片或PDF文档中提取文本内容,支持本地文件和网络URL。
- 图像描述生成 (Captioning):生成图片内容的描述性文字,提供不同详细程度的描述,支持本地文件和网络URL。
- 支持多种图像和文档格式:支持常见的图片格式以及PDF文档。
- 易于集成:遵循 MCP 协议,可以方便地与各种 LLM 客户端集成。
- 灵活部署:可以通过简单的命令启动服务,并可以根据需求配置模型大小和缓存策略。
安装步骤
由于该仓库提供的是一个 MCP 服务器的实现,你需要使用一个 MCP 客户端(例如 Claude Desktop 或 Goose)来连接和使用它。这里以通用的安装方式为例,指导你如何配置和运行这个 MCP 服务器:
-
环境准备:
- 确保你的系统已安装 Python 环境。
- 推荐使用 'uv' 包管理器来简化 Python 应用的安装和运行。如果还没有安装 'uv',请先安装 'uv'。
- 确保你的网络环境可以访问 GitHub 和 Hugging Face 模型仓库,因为需要下载代码和模型。
-
配置 MCP 客户端: 你需要根据你使用的 MCP 客户端类型进行配置。该仓库的 'README.md' 文件中提供了针对 Claude Desktop、Goose CLI 和 Goose Desktop 的配置示例。你需要根据你的客户端类型,复制相应的配置信息。
服务器配置
以下是如何在 MCP 客户端中配置 Florence-2 MCP 服务器的示例配置信息。请注意,这里提供的是配置信息,你不需要手动执行命令,而是在 MCP 客户端的配置中填写以下信息。
以 Claude Desktop 为例,配置 'claude_desktop_config.json' 文件:
{ "mcpServers": { "florence-2": { // 服务器名称,可以自定义,例如 "florence-2-ocr" "command": "uvx", // 启动服务器的命令,这里使用 uvx "args": [ // 传递给 uvx 命令的参数 "--from", // 指定从哪里获取代码 "git+https://github.com/jkawamoto/mcp-florence2", // 代码仓库地址 "mcp-florence2" // 指定要运行的包或模块名,这里是 mcp-florence2 ] } } }
配置参数解释:
- '"florence-2"': MCP 服务器的名称,在客户端中用于标识和选择该服务器。你可以自定义这个名称。
- '"command": "uvx"': 指定用于启动服务器的命令。 'uvx' 是一个用于运行 Python 应用的工具,这里用于从 Git 仓库运行 Florence-2 MCP 服务器。
- '"args"': 一个字符串数组,包含了传递给 'uvx' 命令的参数。
- '"--from"': 告知 'uvx' 从指定的源获取代码。
- '"git+https://github.com/jkawamoto/mcp-florence2"': 指定代码源为 Git 仓库,并提供仓库的 URL。 'uvx' 会自动从这个仓库下载代码。
- '"mcp-florence2"': 指定要运行的 Python 包或模块的名称。 'uvx' 会在下载的代码中查找名为 'mcp-florence2' 的包或模块并运行。
对于 Goose CLI 或 Goose Desktop,配置方式类似,请参考仓库 'README.md' 文件中对应的配置示例。 关键在于理解 'command' 和 'args' 的作用,它们告诉 MCP 客户端如何启动 Florence-2 MCP 服务器。
基本使用方法
一旦你在 MCP 客户端中配置并成功连接到 Florence-2 MCP 服务器,你就可以在客户端中调用服务器提供的工具来处理图像。
例如,在支持 MCP 协议的 LLM 应用中:
- 选择 Florence-2 MCP 服务器:在你的 LLM 应用中选择或启用已配置的 "Florence-2" (或你自定义的名称) MCP 服务器。
- 调用 'ocr' 工具:
- 指定 'ocr' 工具。
- 提供 'src' 参数,指定要处理的图片或 PDF 文件的路径或 URL。例如,'src: "path/to/your/image.jpg"' 或 'src: "https://example.com/document.pdf"'。
- LLM 客户端会将请求发送到 Florence-2 MCP 服务器,服务器会执行 OCR 任务并返回提取的文本内容。
- 调用 'caption' 工具:
- 指定 'caption' 工具。
- 提供 'src' 参数,指定要处理的图片或 PDF 文件的路径或 URL。
- LLM 客户端会将请求发送到 Florence-2 MCP 服务器,服务器会生成图像描述并返回。
具体的操作界面和步骤会根据你使用的 MCP 客户端有所不同,但核心思想是:配置 MCP 服务器连接 -> 选择工具 -> 提供参数 -> 获取结果。
通过 Florence-2 MCP 服务器,你的 LLM 应用将获得强大的视觉内容理解能力,可以处理图片和 PDF 文档中的信息,从而实现更丰富的应用场景。
信息
分类
AI与计算