项目简介
GPU Kill 是一个功能强大的命令行工具,用于管理NVIDIA、AMD、Intel和Apple Silicon等多种GPU系统。它提供实时监控、进程终止、安全威胁检测和资源策略强制执行等功能。为了更好地与AI助手集成,GPU Kill 内置了一个基于 Model Context Protocol (MCP) 的服务器,允许AI助手通过标准化的JSON-RPC协议访问GPU状态、调用管理工具并执行安全策略。
主要功能点
- GPU资源监控: AI助手可以读取实时的GPU使用率、显存、温度、功耗以及正在运行的进程列表。例如,可以获取 'gpu://list'、'gpu://processes'、'gpu://audit' 等资源。
- GPU进程管理: 允许AI助手调用工具终止GPU上的进程,包括单个进程('kill_gpu_process')或根据名称模式批量终止('kill_processes_by_name')。
- GPU设备控制: AI助手可以调用工具请求重置指定的GPU设备('reset_gpu')。
- 安全威胁检测: AI助手能够调用工具发起安全扫描('scan_rogue_activity'),检测加密矿工、资源滥用者和可疑活动,并获取扫描结果(通过 'gpu://rogue-detection' 资源)。
- 资源策略管理: AI助手可以调用工具创建和管理用户资源使用策略('create_user_policy'),例如设置显存限制、利用率限制等,以防止资源滥用,并获取当前策略(通过 'gpu://policies' 资源)。
安装步骤
- 安装Rust: GPU Kill 使用Rust语言开发。请确保您的系统已安装Rust 1.70+版本。您可以访问 Rust官方网站 下载并安装 'rustup',然后通过 'rustup update' 更新Rust工具链。
- 克隆仓库: 打开终端,执行以下命令克隆GPU Kill仓库:
git clone https://github.com/kagehq/gpu-kill.git cd gpu-kill - 构建和安装:
- 要构建整个GPU Kill项目(包括MCP服务器):
cargo build --release - 如果您只关心MCP服务器,可以专门构建它以减小体积:
cargo build --release -p gpukill-mcp - 或者,您可以通过Cargo安装 'gpukill' 二进制文件,它将包含MCP服务器子命令:
cargo install gpukill
- 要构建整个GPU Kill项目(包括MCP服务器):
服务器配置
MCP服务器是应用程序后端,与LLM客户端通过JSON-RPC协议通信。MCP客户端需要知道如何启动此服务器并与其建立连接。以下是推荐的MCP客户端配置信息(JSON格式):
{ "server_name": "GPU Kill MCP Server", "command": "gpukill-mcp", "args": [], "env": { "MCP_PORT": "3001" }, "description": "GPU Kill MCP 服务器提供GPU资源管理和监控功能,包括实时状态、进程控制和安全检测,供AI助手通过JSON-RPC协议调用。", "tags": ["GPU", "管理", "监控", "安全", "AI"] }
配置参数说明:
- 'server_name': MCP服务器的显示名称,方便AI客户端识别。
- 'command': 启动MCP服务器的可执行文件命令。如果通过 'cargo build --release -p gpukill-mcp' 构建,则为 'gpukill-mcp'。如果通过 'cargo install gpukill' 安装,具体路径可能需要调整为 '~/.cargo/bin/gpukill-mcp' 或其在系统PATH中的位置。
- 'args': 启动命令的额外参数,当前无需额外命令行参数,服务器端口通过环境变量配置。
- 'env': 环境变量,其中 'MCP_PORT' 指定MCP服务器监听的端口,默认为 '3001'。
- 'description': 服务器功能的详细描述,帮助AI客户端理解其能力。
- 'tags': 用于分类和搜索的标签列表。
基本使用方法
启动MCP服务器后,AI助手客户端将能够通过JSON-RPC协议与其交互。
-
启动MCP服务器: 在终端中,进入 'gpu-kill' 仓库目录(如果未通过 'cargo install' 安装),并执行以下命令启动MCP服务器:
cargo run --release -p gpukill-mcp如果您已通过 'cargo install gpukill' 安装,可以直接运行:
gpukill-mcp服务器将默认监听 'http://localhost:3001/mcp'。您将在终端中看到日志输出,指示服务器已成功启动并列出可用的资源和工具。
-
AI助手集成示例: 一旦MCP服务器运行,AI助手客户端即可通过JSON-RPC请求调用其功能。例如,一个与此服务器集成的AI助手可以理解并执行以下自然语言请求:
- “我的GPU有哪些?它们目前的使用情况如何?” (AI助手会读取 'gpu://list' 资源)
- “终止GPU 0上卡住的Python进程。” (AI助手会调用 'kill_gpu_process' 工具,并传入进程ID或名称)
- “扫描一下是否有加密矿工或可疑活动。” (AI助手会调用 'scan_rogue_activity' 工具)
- “为用户'john'创建一个策略,限制其显存使用为8GB,GPU利用率70%。” (AI助手会调用 'create_user_policy' 工具,并传入相应的参数)
信息
分类
AI与计算