项目简介

这是一个基于 Model Context Protocol (MCP) 的服务器实现，专门用于集成阿里云通义万相的文生图 (Text-to-Image) 和文生视频 (Text-to-Video) 能力。它允许支持 MCP 协议的大语言模型 (LLM) 直接调用这些强大的 AI 生成功能。

主要功能点

文生图能力: 集成通义万相的文生图 API，支持生成高质量的 AI 图像。
文生视频能力: 集成通义万相的文生视频 API，支持生成 AI 视频。
异步任务处理: 支持处理耗时的图像和视频生成任务，并通过异步轮询获取最终结果。
MCP 协议支持: 符合 MCP 规范，可与各种支持 MCP 的 LLM 应用集成。

安装步骤

确保您的系统安装了 Node.js (版本 >= 16.x) 和 npm (或 pnpm)。

通过 npm 或 pnpm 安装该服务器包：

# 使用 npm
npm install -g tongyi-wanx-mcp-server
# 或使用 pnpm
pnpm install -g tongyi-wanx-mcp-server

MCP 客户端配置

MCP 服务器启动后，需要通过 MCP 客户端与其建立连接。客户端通常需要一个配置文件来指定如何启动服务器并与之通信。以下是一个典型的 MCP 客户端配置示例（JSON 格式），您需要将 '<你的通义万相 API 密钥>' 替换为您的实际密钥：

{
  "mcpServers": {
    "tongyi-wanxiang": {
      "command": "npx", // 启动服务器的命令
      "args": [
        "-y", // npx 的参数，表示自动安装
        "tongyi-wanx-mcp-server@latest" // 要运行的服务器包名称和版本
      ],
      "env": {
        "DASHSCOPE_API_KEY": "<你的通义万相 API 密钥>" // 设置环境变量，用于服务器认证
      }
    }
  }
}

这个配置告诉 MCP 客户端如何启动 'tongyi-wanx-mcp-server' 程序，并将您的 API 密钥作为环境变量传递给它。

基本使用方法

该服务器通过 MCP 协议暴露了以下几个工具 (Tools)，LLM 客户端可以通过 MCP 协议调用它们：

'wanx-t2i-image-generation': 启动文生图任务，需要传入 'prompt' (提示词) 和可选的 'negative_prompt' (负面提示词)，返回任务 ID。
'wanx-t2i-image-generation-result': 根据任务 ID 获取文生图结果，返回图片 URL 等信息。
'wanx-t2v-video-generation': 启动文生视频任务，需要传入 'prompt' (提示词)，返回任务 ID。
'wanx-t2v-video-generation-result': 根据任务 ID 获取文生视频结果，返回视频 URL 等信息。

LLM 客户端会根据对话上下文和用户的请求，判断需要调用哪个工具，并构造相应的参数发送给 MCP 服务器。服务器执行工具调用（即调用通义万相 API），并将结果返回给客户端，客户端再将结果呈现给用户或用于后续对话。

关键词

信息