使用说明
项目简介
RapidOCR MCP 服务器是一个基于 Model Context Protocol (MCP) 标准构建的后端应用,它利用 RapidOCR 引擎提供高效的图像 OCR 功能。该服务器实现了 MCP 协议,可以作为 LLM (大型语言模型) 应用的上下文服务,允许 LLM 通过标准化的方式调用 OCR 功能,从而增强 LLM 在处理图像和文档方面的能力。
主要功能点
- 图像 OCR 服务: 提供 'ocr_by_content' 和 'ocr_by_path' 两种工具,分别支持对 Base64 编码的图像内容和本地图像文件进行 OCR 识别。
- MCP 协议支持: 遵循 MCP 协议规范,易于与任何兼容 MCP 协议的客户端集成。
- 工具注册与执行: 将 OCR 功能封装为 MCP 工具,方便 LLM 客户端发现和调用。
- 标准 JSON-RPC 通信: 使用 JSON-RPC 协议进行客户端和服务器之间的通信。
安装步骤
- 安装 Python 环境: 确保您的系统已安装 Python 3.8 或更高版本。
- 安装 RapidOCR MCP 服务器: 使用 pip 包管理器安装 'rapidocr-mcp' 包。
pip install rapidocr-mcp
服务器配置
对于 MCP 客户端,您需要配置连接到 RapidOCR MCP 服务器的信息。以下是一个典型的 JSON 格式配置示例,用于 'stdio' 传输协议:
{ "server_name": "rapidocr-mcp", "command": "rapidocr-mcp", "args": [], "transport": "stdio" }
配置参数说明:
- 'server_name': 服务器的名称,可以自定义,用于在客户端标识服务器。
- 'command': 启动服务器的命令。 在安装 'rapidocr-mcp' 后,'rapidocr-mcp' 命令将被添加到系统路径中,可以直接使用。
- 'args': 启动命令的参数。 RapidOCR MCP 服务器默认通过 'stdio' 传输协议运行,无需额外参数。
- 'transport': 传输协议,这里使用 'stdio' (标准输入输出)。
基本使用方法
-
启动服务器: 在安装完成后,您可以在终端中直接运行 'rapidocr-mcp' 命令来启动服务器。
rapidocr-mcp服务器启动后,将通过 'stdio' 等待 MCP 客户端的请求。
-
客户端调用 OCR 工具: MCP 客户端可以使用以下工具与服务器交互:
-
'ocr_by_content': 对 Base64 编码的图像内容进行 OCR。客户端需要将图像数据编码为 Base64 字符串,并将其作为参数 'base64_data' 传递给该工具。服务器将返回识别出的文本内容列表。
-
'ocr_by_path': 对指定路径的图像文件进行 OCR。客户端需要提供图像文件的路径作为参数 'path' 传递给该工具。服务器将返回识别出的文本内容列表。
具体的工具调用方式和参数格式,请参考 MCP 客户端的文档和 RapidOCR MCP 服务器提供的工具定义。
-
信息
分类
AI与计算