找到 1 个结果
Benchmax是一个框架,用于为LLM强化学习微调定义、运行和并行化RL环境。它通过内部部署的Model Context Protocol (MCP) 服务器,以标准化的方式向LLM客户端提供环境中的上下文信息、可调用工具和奖励机制。