项目简介

Cluster Director MCP 服务器是一个基于 Model Context Protocol (MCP) 的代理式AI助手,专门用于与Google Cloud Platform上的GPU集群进行交互。用户可以通过自然语言指令来使用、监控、维护和基准测试其集群。

主要功能

  • 集群管理:列出集群、获取集群详情、显示集群状态
  • 作业监控:检查作业状态、显示运行中的作业、查看最近作业记录
  • 健康检查:运行NCCL和DCGM测试验证GPU节点健康状态
  • 维护事件检查:监控所有计算节点的维护事件
  • 分区信息:显示Slurm分区在集群中的详细信息
  • 软件版本:显示所有计算节点的软件版本信息
  • 节点状态:显示计算节点的空闲状态、运行作业情况等

安装步骤

  1. 从项目所有者处申请必要的IAM角色:

    • roles/compute.osLogin
    • roles/iam.serviceAccountUser
    • roles/compute.instanceAdmin.v1
    • roles/iap.tunnelResourceAccessor
  2. 克隆仓库:

git clone https://github.com/GoogleCloudPlatform/cluster-director-mcp.git
  1. 在Google Cloud Shell中运行:
cd cluster-director-mcp; ./run.sh

服务器配置

该MCP服务器设计为Gemini CLI扩展使用,配置信息包括:

  • 服务器名称:cluster-director-mcp
  • 启动命令:编译后的可执行文件路径
  • 信任设置:true(自动信任)
  • 超时配置:72000000毫秒
  • 环境变量:MCP_SERVER_REQUEST_TIMEOUT=72000000

基本使用方法

安装完成后,用户可以通过Gemini CLI使用自然语言与集群交互,例如:

  • "列出我的集群"
  • "检查集群nadig的状态"
  • "运行NCCL测试验证GPU健康状态

注意:该实现包含两个MCP服务器:

  1. QA助手 - 基于context7 MCP服务器的AI超计算机专家
  2. cluster-director-mcp服务器 - 能够代表用户执行工具操作的代理式AI助手

信息

分类

网页与API