项目简介

Windows MCP 是一个轻量级的开源项目,它作为一个 MCP (Model Context Protocol) 服务器运行在 Windows 操作系统上。它使得支持 MCP 协议的 AI Agent (如大型语言模型 LLM) 能够直接与 Windows 系统进行交互,执行各种自动化任务,如文件导航、应用控制、UI 交互、QA 测试等。它通过提供一系列工具来实现这一功能,而无需依赖传统的计算机视觉技术或特定微调模型。

主要功能点

  • 无缝 Windows 集成: 能够原生与 Windows UI 元素交互,打开应用,控制窗口,模拟用户输入等。
  • 兼容任意 LLM: 不依赖特定的 LLM 模型或计算机视觉,可与任何支持 MCP 的 LLM 配合使用。
  • 丰富的 UI 自动化工具: 提供模拟键盘、鼠标操作,获取窗口/UI 状态快照等多种工具。
  • 轻量级与开源: 依赖项少,设置简单,代码完全开源。
  • 可定制与可扩展: 可以轻松调整或扩展现有工具,以满足特定的自动化或 AI 集成需求。
  • 实时交互: 支持 AI Agent 对 Windows 桌面的实时操作。

安装步骤

  1. 满足先决条件:

    • 确保您的系统已安装 Python 3.12 或更高版本。
    • 安装 UV Python 包管理器:在命令行运行 'pip install uv'。
    • 准备一个支持 MCP 协议的客户端应用,例如 Anthropic Claude Desktop 应用。
  2. 克隆仓库: 在命令行中执行以下命令克隆项目仓库:

    git clone https://github.com/CursorTouch/Windows-MCP.git
    cd Windows-MCP
  3. 安装依赖: 进入项目目录后,使用 UV 安装所需的依赖库:

    uv pip install -r pyproject.toml

服务器配置 (供 MCP 客户端使用)

Windows MCP 服务器通常由支持 MCP 协议的客户端应用启动和管理。您需要将以下配置信息添加到您的 MCP 客户端的配置文件中,以便客户端知道如何启动和连接到 Windows MCP 服务器。

以下是配置示例的说明(请注意,您需要根据实际情况替换路径):

  • 'mcpServers': 这是客户端配置文件中用于列出所有 MCP 服务器的顶级部分。
  • 'windows-mcp': 这是您为这个 MCP 服务器指定的名称,客户端将使用这个名称来识别它。
  • 'command': 指定启动 MCP 服务器进程的命令。在这里,它应该是您的系统上 'uv' 可执行文件的完整路径。
  • 'args': 传递给启动命令的参数列表。
    • '--directory': 指定运行 'uv' 命令的工作目录,应设置为您克隆的 Windows-MCP 仓库的根目录路径。
    • 'run': 'uv' 的一个子命令,用于运行指定的 Python 脚本。
    • 'server.py': 这是 Windows MCP 服务器的主启动脚本文件。

例如,对于 Claude Desktop 客户端,您通常会将类似上述结构的 JSON 配置保存在 '%APPDATA%/Claude/claude_desktop_config.json' 文件中,并根据您的实际安装路径填写 'command' 和 'args' 中的路径占位符 '{{PATH_TO_UV}}' 和 '{{PATH_TO_SRC}}'。

基本使用方法

配置完成后,启动您的 MCP 客户端应用 (如 Claude Desktop)。客户端应该能检测到配置的 Windows MCP 服务器。一旦连接成功,您的 AI Agent (LLM) 将能够通过调用 Windows MCP 服务器提供的工具来与 Windows 操作系统进行交互。您可以像使用其他 MCP 工具一样,通过与 AI Agent 自然语言交流,让它利用这些工具完成在 Windows 上的操作,例如让它打开某个应用、输入文本、点击界面元素等。

MCP 工具列表 (AI Agent 可调用)

Windows MCP 提供了一系列工具,LLM 可以调用它们来执行特定任务:

  • 'Launch-Tool': 启动开始菜单中的应用。
  • 'Powershell-Tool': 执行 PowerShell 命令。
  • 'State-Tool': 获取当前桌面的状态,包括打开的应用和可交互的 UI 元素列表。
  • 'Clipboard-Tool': 复制文本到剪贴板或粘贴剪贴板内容。
  • 'Click-Tool': 在指定坐标点击鼠标。
  • 'Type-Tool': 在指定坐标的元素上输入文本。
  • 'Scroll-Tool': 滚动屏幕。
  • 'Drag-Tool': 将元素从一个点拖动到另一个点。
  • 'Move-Tool': 将鼠标指针移动到指定坐标。
  • 'Shortcut-Tool': 执行键盘快捷键。
  • 'Key-Tool': 按下单个按键。
  • 'Wait-Tool': 暂停执行一段时间。
  • 'Screenshot-Tool': 截取桌面屏幕截图 (当前代码中可能被注释)。

通过这些工具,AI Agent 可以理解并操作 Windows 桌面环境,实现复杂的自动化流程。

信息

分类

桌面与硬件