使用说明

项目简介

AHK MCP服务器是一个实现了Model Context Protocol (MCP) 的后端应用,它利用AutoHotkey的功能,将Windows桌面自动化能力以工具的形式暴露给大型语言模型 (LLM) 客户端。通过这个服务器,LLM可以安全、可扩展地与Windows操作系统进行交互,实现各种自动化任务。

主要功能点

  • 窗口管理:获取窗口信息、激活窗口、设置窗口置顶/取消置顶、移动窗口到顶部/底部、查找窗口等。
  • 键盘鼠标自动化:模拟键盘按键输入、发送文本到窗口或控件、移动鼠标、执行鼠标点击等操作。
  • 剪贴板操作:获取和设置剪贴板内容、监听剪贴板变化、保存和恢复剪贴板内容到文件。
  • 屏幕OCR:对屏幕指定区域进行光学字符识别 (OCR),提取图像中的文本信息。
  • 显示器信息:获取显示器信息,包括位置、尺寸、刷新率等。

安装步骤

  1. 克隆仓库
    git clone https://github.com/spyoungtech/ahk-mcp.git
    cd ahk-mcp
  2. 安装依赖 确保你的Python环境中已安装以下依赖库:
    pip install ahk ahk-binary mss easyocr numpy wmutil fastmcp-server
    这些依赖库是AHK MCP服务器运行所必需的,包括AutoHotkey的Python接口、屏幕截图、OCR和窗口管理工具等。

服务器配置

MCP客户端需要配置以下JSON信息以连接到AHK MCP服务器:

{
  "server_name": "AHK MCP",
  "command": "python",
  "args": ["main.py"]
}
  • 'server_name': 服务器名称,必须与 'main.py' 中 'FastMCP' 实例化的名称一致,这里是 "AHK MCP"。
  • 'command': 启动服务器的命令,通常为 'python'。
  • 'args': 传递给启动命令的参数,这里指定运行 'main.py' 脚本。

基本使用方法

  1. 启动服务器:在仓库目录下,运行命令 'python main.py' 启动AHK MCP服务器。
  2. 配置MCP客户端:在你的MCP客户端中,根据上述“服务器配置”部分的信息配置连接。
  3. 调用工具:客户端连接成功后,即可发现并调用服务器提供的各种工具,例如 'get_window_text' (获取窗口文本), 'send_keys_to_window' (发送按键到窗口), 'ocr_region' (屏幕OCR) 等,以实现Windows桌面自动化任务。

注意: 确保你的Windows系统上已安装 AutoHotkey (AHK) v1 版本,因为 'ahk-python' 库依赖于它。

信息

分类

桌面与硬件