← 返回首页

"模型评估"标签的搜索结果

找到 4 个结果

Launch the Nukes

一个基于Flask的Web应用,用于安全研究,通过模拟MCP工具来评估大型语言模型对恶意提示的响应。

Scorecard MCP 服务器

通过 Model Context Protocol (MCP),使 Claude 等 LLM 客户端能够安全访问 Scorecard 的模型评估工具。

Root Signals MCP Server

Root Signals MCP Server是一个基于MCP协议的服务端实现,旨在将Root Signals的评估器作为工具提供给AI助手,用于评估AI模型的输出质量。

Patronus MCP Server

Patronus MCP Server为LLM应用提供标准化的评估和实验后端服务,支持远程评估器、批量评估和自定义评估流程。