使用说明

项目简介

ScreenPilot 是一个基于 Model Context Protocol (MCP) 构建的服务器,旨在为大型语言模型 (LLM) 提供控制和自动化用户图形界面 (GUI) 的能力。通过 ScreenPilot,LLM 可以执行屏幕截图、鼠标点击、键盘输入等操作,从而实现更丰富的交互和自动化任务。

主要功能点

  • 屏幕捕获与分析: 截取屏幕截图并获取屏幕信息。
  • 鼠标控制: 控制鼠标移动和执行点击操作。
  • 键盘输入: 模拟键盘输入文本、按键和组合热键。
  • 滚动控制: 控制屏幕滚动,包括垂直和水平滚动,以及滚动到顶部或底部。
  • 元素检测: 检测屏幕上是否存在指定图像代表的元素,并等待元素出现。
  • 动作序列: 执行一系列预定义的鼠标和键盘动作。

安装步骤

  1. 安装 Python 3.12: 确保您的系统已安装 Python 3.12 或更高版本。
  2. 克隆仓库: 使用 Git 克隆 ScreenPilot 仓库到本地:
    git clone https://github.com/Mtehabsim/ScreenPilot.git
  3. 创建虚拟环境: 在项目目录下创建 Python 虚拟环境:
    python -m venv venv
  4. 激活虚拟环境: 激活虚拟环境:
    venv\Scripts\activate  # Windows
    source venv/bin/activate # macOS/Linux
  5. 安装依赖: 安装项目所需的 Python 包:
    pip install -r requirements.txt
  6. 配置 MCP 服务器: ScreenPilot 需要在 MCP 客户端(例如 Claude AI 桌面应用)中配置才能使用。打开 Claude AI 桌面应用的设置,找到开发者选项,编辑配置文件。将以下 JSON 配置粘贴到配置文件中,并根据您的实际路径进行修改。

服务器配置

MCP客户端需要配置以下 JSON 格式信息以连接 ScreenPilot 服务器。请将以下配置添加到您的 MCP 客户端配置文件中(例如 Claude AI 的配置文件):

{
    "mcpServers": {
        "device-controll": {  // 服务器名称,可以自定义
            "command": "pathToEnv\\venv\\Scripts\\python.exe", // Python 解释器路径,请替换为您的虚拟环境 Python 解释器路径
            "args": [
                "pathToProject\\ScreenPilot\\main.py" // ScreenPilot 主程序 main.py 路径,请替换为您的 main.py 文件路径
            ]
        }
    }
}

配置参数说明:

  • '"device-controll"': 服务器的名称,您可以自定义,用于在 MCP 客户端中标识 ScreenPilot 服务器。
  • '"command"': 必须修改。指向 Python 解释器的完整路径。通常是您在安装步骤中创建的虚拟环境中的 'python.exe' 可执行文件。例如:'"C:\path\to\ScreenPilot\venv\Scripts\python.exe"' (Windows) 或 '"/path/to/ScreenPilot/venv/bin/python"' (macOS/Linux)。
  • '"args"': 必须修改。一个字符串数组,包含启动 ScreenPilot 服务器的参数。这里指向 'main.py' 文件的完整路径。例如:'"C:\path\to\ScreenPilot\ScreenPilot\main.py"' (Windows) 或 '"/path/to/ScreenPilot/ScreenPilot/main.py"' (macOS/Linux)。

请务必将 'pathToEnv\venv\Scripts\python.exe' 和 'pathToProject\ScreenPilot\main.py' 替换为您的实际路径。 路径中如果包含反斜杠 '',请确保在 JSON 字符串中进行转义,写成 '\'。

  1. 重启 MCP 客户端: 保存配置文件后,退出并重新启动您的 MCP 客户端(例如 Claude AI 桌面应用),ScreenPilot 服务器配置即可生效。

基本使用方法

配置完成后,您的 MCP 客户端(如 Claude AI)应该能够检测到 ScreenPilot 服务器提供的工具。您可以通过 MCP 客户端的界面或指令,调用 ScreenPilot 提供的各种工具,例如屏幕截图、鼠标点击、键盘输入等,实现对计算机图形界面的控制和自动化操作。

具体工具的使用方法和参数,请参考 MCP 客户端的相关文档或帮助信息,在客户端中通常会列出 ScreenPilot 提供的可用工具及其参数说明。

信息

分类

桌面与硬件