使用说明
项目简介
AHK MCP服务器是一个实现了Model Context Protocol (MCP) 的后端应用,它利用AutoHotkey的功能,将Windows桌面自动化能力以工具的形式暴露给大型语言模型 (LLM) 客户端。通过这个服务器,LLM可以安全、可扩展地与Windows操作系统进行交互,实现各种自动化任务。
主要功能点
- 窗口管理:获取窗口信息、激活窗口、设置窗口置顶/取消置顶、移动窗口到顶部/底部、查找窗口等。
- 键盘鼠标自动化:模拟键盘按键输入、发送文本到窗口或控件、移动鼠标、执行鼠标点击等操作。
- 剪贴板操作:获取和设置剪贴板内容、监听剪贴板变化、保存和恢复剪贴板内容到文件。
- 屏幕OCR:对屏幕指定区域进行光学字符识别 (OCR),提取图像中的文本信息。
- 显示器信息:获取显示器信息,包括位置、尺寸、刷新率等。
安装步骤
- 克隆仓库
git clone https://github.com/spyoungtech/ahk-mcp.git cd ahk-mcp - 安装依赖
确保你的Python环境中已安装以下依赖库:
这些依赖库是AHK MCP服务器运行所必需的,包括AutoHotkey的Python接口、屏幕截图、OCR和窗口管理工具等。pip install ahk ahk-binary mss easyocr numpy wmutil fastmcp-server
服务器配置
MCP客户端需要配置以下JSON信息以连接到AHK MCP服务器:
{ "server_name": "AHK MCP", "command": "python", "args": ["main.py"] }
- 'server_name': 服务器名称,必须与 'main.py' 中 'FastMCP' 实例化的名称一致,这里是 "AHK MCP"。
- 'command': 启动服务器的命令,通常为 'python'。
- 'args': 传递给启动命令的参数,这里指定运行 'main.py' 脚本。
基本使用方法
- 启动服务器:在仓库目录下,运行命令 'python main.py' 启动AHK MCP服务器。
- 配置MCP客户端:在你的MCP客户端中,根据上述“服务器配置”部分的信息配置连接。
- 调用工具:客户端连接成功后,即可发现并调用服务器提供的各种工具,例如 'get_window_text' (获取窗口文本), 'send_keys_to_window' (发送按键到窗口), 'ocr_region' (屏幕OCR) 等,以实现Windows桌面自动化任务。
注意: 确保你的Windows系统上已安装 AutoHotkey (AHK) v1 版本,因为 'ahk-python' 库依赖于它。
信息
分类
桌面与硬件