OScribe MCP Server

使用说明

  • 项目简介

    • OScribe 提供一个基于 MCP 的后端服务器,用于向 AI 客户端提供桌面自动化相关的资源、工具和提示模板。服务器通过 MCP 协议与客户端通信,支持净化的请求/响应流程,便于 LLM 驱动的桌面自动化工作流。
    • 服务器核心功能包括:资源管理(数据访问与持久化)、工具注册与执行(如截屏、点击、打字、窗口聚焦等)、以及对提示/模板的渲染与描述,帮助 AI 客户端在对话中获取和使用必要的上下文信息。
  • 主要功能点

    • MCP 服务器实现:基于 @modelcontextprotocol/sdk,提供标准的 MCP 请求处理、工具调用、以及结果返回;支持通过 STDIO 等传输实现。
    • Tools(工具)集成:暴露一组桌面自动化工具,例如截图、鼠标移动、点击、输入文本、热键、滚动、窗口操作等,便于 AI 客户端按需调用。
    • 资源与上下文:能够提供屏幕截图、UI 元素信息等上下文数据,方便 AI 做出决策与操作。
    • 会话与日志:提供会话级别的追踪、操作记录和会话报告,便于回放和调试。
    • 跨平台能力与扩展性:实现对 Windows/macOS/Linux 的桌面自动化能力的基础支撑,包含对浏览器的 CDP 支持、以及对 NVDA/VoiceOver 等辅助技术的集成。
    • 服务器端实现与调试工具:提供本地运行方式(stdio 传输)、以及开发与测试脚本供验证。
  • 安装步骤

    • 获取代码并安装依赖
      • 克隆仓库并安装依赖
      • 构建源码以生成可执行的 MCP 服务器
    • 启动 MCP 服务器
      • 通过命令行启动:oscribe serve
      • 服务将以 stdio 传输提供 MCP 服务,供 MCP 客户端连接
  • 服务器配置(MCP 客户端需要的配置信息示例)

    • 服务器名称:oscribe
    • 启动命令:npx oscribe serve
    • 参数示例(用于 MCP 客户端的 JSON 配置,描述服务器启动方式;客户端无需改动服务器端实现,仅用于连接信息): { "mcpServers": { "oscribe": { "command": "npx", "args": ["-y", "oscribe", "serve"] } // 也可全局安装后使用: // "oscribe": { // "command": "oscribe", // "args": ["serve"] // } } } 注解说明:
    • 以上配置用于 MCP 客户端连接时,指定如何启动并连接到 OScribe 的 MCP 服务器。实际连接时,客户端会根据 server 名称找到对应的命令和参数来启动服务器并建立 JSON-RPC 通道。
    • 服务器端实现会接收 MCP 请求、执行相应工具、返回响应或通知,并维护会话、能力声明等上下文信息。
  • 基本使用方法

    • 使用 MCP 客户端(如 Claude Desktop/Claude Code 等)连接到 OScribe 的 MCP 服务器并开始对话式桌面自动化。
    • 客户端体验要点:
      • 读取资源:请求并获取屏幕截图、UI 元素等上下文信息。
      • 调用工具:通过工具名称调用,例如 os_screenshot、os_click、os_type、os_move、os_focus 等。
      • 提示渲染:通过 prompts/模板获取可定制的对话交互模式,结合上下文内容进行 AI 决策。
    • 常见工作流示例(概念性说明,具体调用名称与参数以 MCP 客户端实际交互为准):
      • 读取当前屏幕并让 AI 描述场景,以决定下一步操作。
      • AI 给出目标按钮位置后,调用工具执行点击、输入或导航等操作。
      • 通过 MCP 的提示系统,自定义对话和交互模板,提升对话质量和自动化稳定性。
  • 备注

    • 该仓库实现了一个完整的 MCP 服务器端,包含对 MCP 请求的处理、工具执行、以及对视图/上下文数据的输出,符合 MCP 服务器的核心职责。

服务器信息