使用说明

项目简介

TEN Agent 是一个开源的实时会话式 AI Agent 框架,旨在帮助开发者快速构建和部署具备实时音视频交互能力的多模态 AI Agent。它集成了多种主流的 LLM、STT、TTS 以及工具扩展,并提供 Playground 方便用户在本地环境进行体验和配置。

主要功能点

  • 多模态 Agent: 支持语音、文本、图像、屏幕共享等多种输入模态,打造更丰富的交互体验。
  • 实时会话: 基于 Agora RTC 和 RTM 技术,实现低延迟的实时音视频通信,保证对话的流畅性。
  • 灵活可扩展: 采用模块化设计,易于扩展新的 LLM、STT、TTS 引擎以及各种工具,满足不同的应用场景需求。
  • 预置扩展: 内置 Gemini Multimodal Live API, OpenAI, Coze Bot, Dify 等多种即开即用的扩展,快速集成强大功能。
  • 本地 Playground: 提供 Docker 部署的 Playground 环境,方便用户在本地快速体验、配置和开发 Agent。
  • 多语言支持: 支持包括中文、英文、日文、韩文在内的多语言环境。

安装步骤

  1. 环境准备:

  2. 获取代码:

    git clone https://github.com/1313057/TEN-Agent.git
    cd TEN-Agent
  3. 配置环境变量:

    • 复制 '.env.example' 文件并重命名为 '.env':
      cp ./.env.example ./.env
    • 根据需要,在 '.env' 文件中配置 Agora App ID 和 App Certificate 等 API 密钥。
  4. 启动 Agent 开发容器:

    docker compose up -d
  5. 进入容器:

    docker exec -it ten_agent_dev bash
  6. 构建 Agent:

    task use
  7. 启动 Web 服务器:

    task run
  8. 访问 Playground: 打开浏览器访问 http://localhost:3000 即可进入 Playground 界面。

服务器配置

TEN Agent 作为 MCP 服务器,需要 MCP 客户端配置以下连接信息。以下是一个 JSON 格式的配置示例,请根据实际情况修改 'command' 和 'args' 字段。

{
  "serverName": "TEN Agent Server",
  "command": "docker",
  "args": [
    "compose",
    "up",
    "-d"
  ],
  "description": "用于连接本地部署的 TEN Agent MCP 服务器",
  "protocol": "stdio",
  "transport": "stdio",
  "apiVersion": "1.0",
  "capabilities": [
    "resources",
    "tools",
    "prompts"
  ],
  "enabled": true
}

参数注释:

  • 'serverName': MCP 服务器的名称,可自定义。
  • 'command': 启动 MCP 服务器的命令。这里使用 'docker compose up -d',假设 TEN Agent 是通过 Docker Compose 部署的。
  • 'args': 启动命令的参数,与 'command' 配合使用,完整启动 TEN Agent 服务器。
  • 'description': 对该服务器配置的描述,方便用户识别。
  • 'protocol': MCP 协议版本,通常为 'stdio'。
  • 'transport': 传输协议,这里使用 'stdio',表示标准输入输出流。TEN Agent 也支持 SSE 和 WebSocket 等协议,可以根据实际情况选择。
  • 'apiVersion': API 版本,当前版本为 '1.0'。
  • 'capabilities': 服务器声明的能力,TEN Agent 作为 MCP 服务器,具备 'resources', 'tools', 'prompts' 三种核心能力。
  • 'enabled': 是否启用该服务器配置。

注意: MCP 客户端需要根据实际部署情况配置 'command' 和 'args' 以正确启动 TEN Agent 服务器。上述配置仅为示例,请根据您的环境进行调整。例如,如果直接在本地运行 Go 编译后的 'main' 文件,则 'command' 应指向该文件的路径,'args' 应为相应的命令行参数。

基本使用方法

  1. 启动 Agent 服务: 按照安装步骤启动 TEN Agent Playground 环境。
  2. 配置 Agent: 在 Playground 界面,选择合适的 Agent 类型(如 Voice Agent, Realtime Agent),配置所需的模块和扩展,并填入 API 密钥等信息。
  3. 体验 Agent: 通过 Playground 界面与 Agent 进行交互,体验其语音对话、实时视觉分析等功能。
  4. 开发扩展: 参考文档创建自定义扩展,扩展 Agent 的功能。

关键词

AI Agent, 实时会话, 多模态, 扩展框架, 本地部署

信息

分类

AI与计算