项目简介
Cluster Director MCP 服务器是一个基于 Model Context Protocol (MCP) 的代理式AI助手,专门用于与Google Cloud Platform上的GPU集群进行交互。用户可以通过自然语言指令来使用、监控、维护和基准测试其集群。
主要功能
- 集群管理:列出集群、获取集群详情、显示集群状态
- 作业监控:检查作业状态、显示运行中的作业、查看最近作业记录
- 健康检查:运行NCCL和DCGM测试验证GPU节点健康状态
- 维护事件检查:监控所有计算节点的维护事件
- 分区信息:显示Slurm分区在集群中的详细信息
- 软件版本:显示所有计算节点的软件版本信息
- 节点状态:显示计算节点的空闲状态、运行作业情况等
安装步骤
-
从项目所有者处申请必要的IAM角色:
- roles/compute.osLogin
- roles/iam.serviceAccountUser
- roles/compute.instanceAdmin.v1
- roles/iap.tunnelResourceAccessor
-
克隆仓库:
git clone https://github.com/GoogleCloudPlatform/cluster-director-mcp.git
- 在Google Cloud Shell中运行:
cd cluster-director-mcp; ./run.sh
服务器配置
该MCP服务器设计为Gemini CLI扩展使用,配置信息包括:
- 服务器名称:cluster-director-mcp
- 启动命令:编译后的可执行文件路径
- 信任设置:true(自动信任)
- 超时配置:72000000毫秒
- 环境变量:MCP_SERVER_REQUEST_TIMEOUT=72000000
基本使用方法
安装完成后,用户可以通过Gemini CLI使用自然语言与集群交互,例如:
- "列出我的集群"
- "检查集群nadig的状态"
- "运行NCCL测试验证GPU健康状态
注意:该实现包含两个MCP服务器:
- QA助手 - 基于context7 MCP服务器的AI超计算机专家
- cluster-director-mcp服务器 - 能够代表用户执行工具操作的代理式AI助手
信息
分类
网页与API