使用说明
-
项目简介 UI-TARS-desktop 将 Agent TARS 的多模态能力落地到桌面应用场景,结合本地 MCP 服务器实现对资源、工具和提示模板的托管与渲染,以标准化的 JSON-RPC 方式与 LLM 客户端通信,提供安全、可扩展的上下文服务。核心能力包括本地资源管理、工具注册与执行、以及 Prompt/模板渲染,支持多传输模式并可与云端模型提供商协同工作。该实现不仅提供可运行的服务器组件,同时也提供了面向开发者的工具链与示例,便于在本地快速搭建 MCP 服务端并对接 LLM 客户端。
-
主要功能点
- 资源、工具与提示的托管与管理:将浏览器相关资源、文件系统工具等作为 MCP 服务端暴露,供客户端查询与调用。
- MCP Server 集成与注册:在本地环境中支持通过 In-Memory 传输或标准 MCP 服务端实现注册与连接,方便与客户端进行 JSON-RPC 通信。
- 多工具执行能力:包含浏览器、文件系统、搜索等多种内置工具,提供统一的接口注册给 LLM 客户端调用。
- Prompt 模板定义与渲染:提供默认系统提示、浏览器控制规则等模板,帮助 LLM 客户端正确理解工作流与交互方式。
- 本地化与远程运算支持:支持在本地直接执行工具,亦可通过 MCP Server 连接远程服务;可扩展为本地传输(stdio、SSE、WebSocket 等)等多种传输方案。
- 会话与上下文管理:具备会话管理、能力声明以及对话上下文的高效组织,便于持续任务执行。
- 组件化架构与可扩展性:通过 BrowserManager、FilesystemToolsManager、BrowserToolsManager 等模块实现模块化扩展,便于添加新工具与新资源。
- 安装与运行步骤
- 环境准备:确保本地环境已安装 Node.js(推荐版本 >= 18/22,按仓库要求与模型提供商要求配置)。
- 安装依赖:在仓库根目录执行依赖安装(如 npm/yarn/pnpm 安装),确保所有子模块正确安装。
- 启动与运行:
- 启动本地 MCP 服务器组件(如 In-Memory Transport 或 stdio 模式的 MCP 服务器),以便客户端能够通过 MCP 的 JSON-RPC 进行请求与响应。
- 启动 UI-TARS-desktop 应用,以作为 MCP 客户端/服务端集成环境运行,默认暴露浏览器、文件系统等工具。
- 按需配置云端模型提供商、API Key、基礎 BaseURL 等,确保 LLM 能通过代理与服务端进行交互。
- 传输模式选择:
- In-Memory 模式:适用于单机开发/测试场景,便于快速演示与调试。
- stdio/其他传输模式:可结合实际部署要求,选择合适的传输协议进行部署与通信。
- 配置示例(以 MCP 客户端所需连接的 MCP 服务器为例,具体参数以实际部署为准):
服务器配置示例(JSON 风格,非代码块,仅供参考;请按实际部署替换参数)
{
"servers": [
{ "name": "browser", "command": "npx", "args": ["-y", "@agent-infra/mcp-server-browser"] },
{ "name": "filesystem", "command": "npx", "args": ["-y", "@agent-infra/mcp-server-filesystem", "<workspace>"] },
{ "name": "commands", "command": "npx", "args": ["-y", "@agent-infra/mcp-server-commands"] }
]
}
注释:
- browser:暴露浏览器相关 MCP 服务端,外部浏览器资源与工具通过该服务对接。
- filesystem:暴露本地文件系统相关工具与资源的 MCP 服务端。
- commands:暴露命令/实用工具相关的 MCP 服务端。
- 若使用 In-Memory Transport,请根据实际客户端实现将其连接到对应的 MCP 服务端。
- workspace / 目标工作目录需替换为实际工作区路径。
- 基本使用方法
- 第一步:启动 MCP 服务器端组件(如上述 browser/filesystem/commands),确保服务端能对外提供访问。
- 第二步:在 UI-TARS-desktop 中配置相应工作区、模型提供商、API Key 等信息,确保 LLM 客户端能够正确请求 MCP 服务端的工具和资源。
- 第三步:通过桌面应用的界面或 CLI 启动 AgentTARS 实例,开始任务执行。可通过对话输入、任务指令来触发工具调用、资源读取与提示渲染等行为。
- 第四步:在需要时,查看日志与输出,使用内置的资源清理、工具注册等功能,确保系统稳定运行。
- 运行中的注意事项
- 确保网络访问与权限配置正确,避免 API Key、模型提供商访问被阻断。
- 本地工具如浏览器、文件系统工具在执行前需正确初始化,必要时通过环境配置进行延迟加载或懒加载。
- 如遇资源释放与清理,请使用资源清理组件,确保 MCP 客户端和服务器的连接与资源正确关闭。
- 服务器配置与客户端连接说明
- MCP 服务器的作用是为 MCP 客户端提供标准化的访问入口,客户端需要知道服务器的名称、启动命令与参数,以便建立连接。
- 配置要点(概览,非代码块描述,便于阅读):
- server name:browser,command:npx,args:[-y, @agent-infra/mcp-server-browser],用途:暴露浏览器相关工具的 MCP 服务端。
- server name:filesystem,command:npx,args:[-y, @agent-infra/mcp-server-filesystem, <workspace>],用途:暴露本地文件系统相关工具,工作区用于相对路径解析。
- server name:commands,command:npx,args:[-y, @agent-infra/mcp-server-commands],用途:暴露通用命令工具。
- 客户端不需要代码级配置,这里提供的是可参考的服务器启动信息,实际连接需要启动上述服务端并在客户端配置相应的 MCP 服务地址与端口等信息。
-
关键词 多模态代理, 浏览器自动化, 本地工具, 资源管理, 桌面应用
-
分类ID 8
信息
分类
桌面与硬件