"LLM评估"标签的搜索结果

找到 7 个结果

SumOmniEval MCP 服务端

基于 Model Context Protocol (MCP) 的后端服务器实现，向 LLM 客户端提供资源、工具及提示模板的托管、注册与执行，采用 JSON-RPC 进行通信，并具备会话管理与能力声明。该服务器封装了指标计算工具集的对接入口，允许通过 MCP 客户端灵活读取工具信息、执行单/多项指标、获取指标详情等能力。

LLM评估指标运行 JSON-RPC...服务端工具评测框架

Langfuse LLM工程平台

开源LLM工程平台，用于开发、监控、评估和调试AI应用，提供上下文管理、Prompt模板及评估工具。

LLM工程 AI应用监控 Prompt管理 LLM评估 Tracing

Trustwise MCP 服务器

提供AI安全、对齐和性能评估工具，用于评估大型语言模型输出质量。

AI安全 LLM评估 AI对齐性能评估 Trustwis...

Atla MCP 服务端

基于 Model Context Protocol (MCP)，提供与 Atla API 交互的标准接口，用于 LLM 性能评估。

LLM评估模型性能评估 AI工具 Atla API...

Root Signals MCP Server

Root Signals MCP Server是一个基于MCP协议的服务端实现，旨在将Root Signals的评估器作为工具提供给AI助手，用于评估AI模型的输出质量。

AI评估 LLM评估模型评估质量评估 Root Sig...

MCP vLLM 基准测试服务器

该项目实现了一个MCP服务器，将 vLLM 基准测试功能作为工具对外提供，允许LLM客户端通过MCP协议调用以评估 vLLM 服务的性能。

vLLM基准测试性能分析 LLM评估推理服务器性能工具

Patronus MCP Server

Patronus MCP Server为LLM应用提供标准化的评估和实验后端服务，支持远程评估器、批量评估和自定义评估流程。

LLM评估模型评估实验管理 AI工具后端服务