项目简介
这是一个基于 Model Context Protocol (MCP) 的服务器实现,专门用于集成阿里云通义万相的文生图 (Text-to-Image) 和文生视频 (Text-to-Video) 能力。它允许支持 MCP 协议的大语言模型 (LLM) 直接调用这些强大的 AI 生成功能。
主要功能点
- 文生图能力: 集成通义万相的文生图 API,支持生成高质量的 AI 图像。
- 文生视频能力: 集成通义万相的文生视频 API,支持生成 AI 视频。
- 异步任务处理: 支持处理耗时的图像和视频生成任务,并通过异步轮询获取最终结果。
- MCP 协议支持: 符合 MCP 规范,可与各种支持 MCP 的 LLM 应用集成。
安装步骤
-
确保您的系统安装了 Node.js (版本 >= 16.x) 和 npm (或 pnpm)。
-
通过 npm 或 pnpm 安装该服务器包:
# 使用 npm npm install -g tongyi-wanx-mcp-server # 或使用 pnpm pnpm install -g tongyi-wanx-mcp-server
MCP 客户端配置
MCP 服务器启动后,需要通过 MCP 客户端与其建立连接。客户端通常需要一个配置文件来指定如何启动服务器并与之通信。以下是一个典型的 MCP 客户端配置示例(JSON 格式),您需要将 '<你的通义万相 API 密钥>' 替换为您的实际密钥:
{ "mcpServers": { "tongyi-wanxiang": { "command": "npx", // 启动服务器的命令 "args": [ "-y", // npx 的参数,表示自动安装 "tongyi-wanx-mcp-server@latest" // 要运行的服务器包名称和版本 ], "env": { "DASHSCOPE_API_KEY": "<你的通义万相 API 密钥>" // 设置环境变量,用于服务器认证 } } } }
这个配置告诉 MCP 客户端如何启动 'tongyi-wanx-mcp-server' 程序,并将您的 API 密钥作为环境变量传递给它。
基本使用方法
该服务器通过 MCP 协议暴露了以下几个工具 (Tools),LLM 客户端可以通过 MCP 协议调用它们:
- 'wanx-t2i-image-generation': 启动文生图任务,需要传入 'prompt' (提示词) 和可选的 'negative_prompt' (负面提示词),返回任务 ID。
- 'wanx-t2i-image-generation-result': 根据任务 ID 获取文生图结果,返回图片 URL 等信息。
- 'wanx-t2v-video-generation': 启动文生视频任务,需要传入 'prompt' (提示词),返回任务 ID。
- 'wanx-t2v-video-generation-result': 根据任务 ID 获取文生视频结果,返回视频 URL 等信息。
LLM 客户端会根据对话上下文和用户的请求,判断需要调用哪个工具,并构造相应的参数发送给 MCP 服务器。服务器执行工具调用(即调用通义万相 API),并将结果返回给客户端,客户端再将结果呈现给用户或用于后续对话。
信息
分类
AI与计算