使用说明
项目简介
Computer Control MCP Server 是一个基于 Model Context Protocol (MCP) 的开源服务器实现,旨在为 AI 智能体提供控制计算机的能力。该项目通过 MCP 协议,以标准化的方式向 LLM 客户端提供一系列工具,使 AI 智能体能够与桌面应用程序进行交互,完成自动化任务。该服务器利用操作系统提供的底层桌面元素信息,而非传统的像素识别,从而实现更快速、更可靠的计算机控制。
主要功能点
- 应用启动与控制: 支持启动 macOS 应用程序。
- 内容读取: 能够读取屏幕上应用程序的文本内容。
- 用户界面交互: 提供点击、输入文本和按键等基本用户界面操作工具。
- 链式工具与智能代理: 支持通过链式工具组合,构建复杂的自动化工作流和智能代理。
- Discord 消息发送示例: 内置 AI 驱动的 Discord 消息发送工具,展示了如何利用 LLM 和桌面控制能力进行应用集成。
- MCP Inspector 集成: 兼容 MCP Inspector,方便开发者进行工具测试和调试。
安装步骤
-
克隆仓库
git clone https://github.com/m13v/MCP-server-client-computer-use-ai-sdk.git cd MCP-server-client-computer-use-ai-sdk -
安装 Rust (如果尚未安装) 访问 https://www.rust-lang.org/tools/install 按照指引安装 Rust 工具链。
-
安装 Node.js 和 npm (如果尚未安装) 访问 https://nodejs.org/ 或使用 nvm 等工具安装 Node.js 和 npm。
-
设置 Anthropic API 密钥 设置环境变量 'ANTHROPIC_API_KEY' 为您的 Anthropic API 密钥。
export ANTHROPIC_API_KEY=sk-ant-xxxx # 将 sk-ant-xxxx 替换为您的实际密钥对于 Windows 系统,请使用 'set ANTHROPIC_API_KEY=sk-ant-xxxx' 命令。
-
运行后端服务器
cd mcp-server-for-low-level-computer-use cargo run --bin server保持此终端窗口运行服务器。
-
运行前端客户端 (在新的终端窗口中)
cd hello-world-mcp-client npx tsx main.ts
服务器配置
MCP 客户端需要配置以下 JSON 格式信息以连接到 MCP 服务器。请根据上述安装步骤,填写服务器的启动命令和参数。
{ "serverName": "computer-control-mcp-server", "command": "cargo", "args": [ "run", "--bin", "server" ] }
- 'serverName': 自定义服务器名称,例如 "computer-control-mcp-server"。
- 'command': 启动 MCP 服务器的命令,这里为 'cargo',用于运行 Rust 程序。
- 'args': 启动命令的参数列表,包括 'run'、'--bin server',用于指定运行 'mcp-server-for-low-level-computer-use' 目录下的 'server.rs' 二进制文件。
基本使用方法
- 确保 MCP 服务器和客户端都已成功启动并运行。
- 在客户端的命令行界面中,可以直接输入自然语言指令进行桌面控制,例如:
- 'get text from Whatsapp' (获取 WhatsApp 文本信息)
- 'give me interactable elements from messages app and then type hello world and send' (列出消息应用的可交互元素,然后输入 "hello world" 并发送)
- 'open arc browser' (打开 Arc 浏览器)
- 客户端会将指令发送到 MCP 服务器进行处理,服务器调用相应的工具执行桌面操作,并将结果返回客户端。
- 您也可以使用 MCP Inspector 等 MCP 客户端工具连接到该服务器,测试和调用服务器提供的各项工具功能。
信息
分类
桌面与硬件