使用说明

项目简介 UI-TARS-desktop 将 Agent TARS 的多模态能力落地到桌面应用场景，结合本地 MCP 服务器实现对资源、工具和提示模板的托管与渲染，以标准化的 JSON-RPC 方式与 LLM 客户端通信，提供安全、可扩展的上下文服务。核心能力包括本地资源管理、工具注册与执行、以及 Prompt/模板渲染，支持多传输模式并可与云端模型提供商协同工作。该实现不仅提供可运行的服务器组件，同时也提供了面向开发者的工具链与示例，便于在本地快速搭建 MCP 服务端并对接 LLM 客户端。
主要功能点

资源、工具与提示的托管与管理：将浏览器相关资源、文件系统工具等作为 MCP 服务端暴露，供客户端查询与调用。
MCP Server 集成与注册：在本地环境中支持通过 In-Memory 传输或标准 MCP 服务端实现注册与连接，方便与客户端进行 JSON-RPC 通信。
多工具执行能力：包含浏览器、文件系统、搜索等多种内置工具，提供统一的接口注册给 LLM 客户端调用。
Prompt 模板定义与渲染：提供默认系统提示、浏览器控制规则等模板，帮助 LLM 客户端正确理解工作流与交互方式。
本地化与远程运算支持：支持在本地直接执行工具，亦可通过 MCP Server 连接远程服务；可扩展为本地传输（stdio、SSE、WebSocket 等）等多种传输方案。
会话与上下文管理：具备会话管理、能力声明以及对话上下文的高效组织，便于持续任务执行。
组件化架构与可扩展性：通过 BrowserManager、FilesystemToolsManager、BrowserToolsManager 等模块实现模块化扩展，便于添加新工具与新资源。

安装与运行步骤

环境准备：确保本地环境已安装 Node.js（推荐版本 >= 18/22，按仓库要求与模型提供商要求配置）。
安装依赖：在仓库根目录执行依赖安装（如 npm/yarn/pnpm 安装），确保所有子模块正确安装。
启动与运行：
- 启动本地 MCP 服务器组件（如 In-Memory Transport 或 stdio 模式的 MCP 服务器），以便客户端能够通过 MCP 的 JSON-RPC 进行请求与响应。
- 启动 UI-TARS-desktop 应用，以作为 MCP 客户端/服务端集成环境运行，默认暴露浏览器、文件系统等工具。
- 按需配置云端模型提供商、API Key、基礎 BaseURL 等，确保 LLM 能通过代理与服务端进行交互。
传输模式选择：
- In-Memory 模式：适用于单机开发/测试场景，便于快速演示与调试。
- stdio/其他传输模式：可结合实际部署要求，选择合适的传输协议进行部署与通信。
配置示例（以 MCP 客户端所需连接的 MCP 服务器为例，具体参数以实际部署为准）：服务器配置示例（JSON 风格，非代码块，仅供参考；请按实际部署替换参数） { "servers": [ { "name": "browser", "command": "npx", "args": ["-y", "@agent-infra/mcp-server-browser"] }, { "name": "filesystem", "command": "npx", "args": ["-y", "@agent-infra/mcp-server-filesystem", "<workspace>"] }, { "name": "commands", "command": "npx", "args": ["-y", "@agent-infra/mcp-server-commands"] } ] } 注释：
- browser：暴露浏览器相关 MCP 服务端，外部浏览器资源与工具通过该服务对接。
- filesystem：暴露本地文件系统相关工具与资源的 MCP 服务端。
- commands：暴露命令/实用工具相关的 MCP 服务端。
- 若使用 In-Memory Transport，请根据实际客户端实现将其连接到对应的 MCP 服务端。
- workspace / 目标工作目录需替换为实际工作区路径。
基本使用方法
- 第一步：启动 MCP 服务器端组件（如上述 browser/filesystem/commands），确保服务端能对外提供访问。
- 第二步：在 UI-TARS-desktop 中配置相应工作区、模型提供商、API Key 等信息，确保 LLM 客户端能够正确请求 MCP 服务端的工具和资源。
- 第三步：通过桌面应用的界面或 CLI 启动 AgentTARS 实例，开始任务执行。可通过对话输入、任务指令来触发工具调用、资源读取与提示渲染等行为。
- 第四步：在需要时，查看日志与输出，使用内置的资源清理、工具注册等功能，确保系统稳定运行。
运行中的注意事项
- 确保网络访问与权限配置正确，避免 API Key、模型提供商访问被阻断。
- 本地工具如浏览器、文件系统工具在执行前需正确初始化，必要时通过环境配置进行延迟加载或懒加载。
- 如遇资源释放与清理，请使用资源清理组件，确保 MCP 客户端和服务器的连接与资源正确关闭。

服务器配置与客户端连接说明

MCP 服务器的作用是为 MCP 客户端提供标准化的访问入口，客户端需要知道服务器的名称、启动命令与参数，以便建立连接。
配置要点（概览，非代码块描述，便于阅读）：
- server name：browser，command：npx，args：[-y, @agent-infra/mcp-server-browser]，用途：暴露浏览器相关工具的 MCP 服务端。
- server name：filesystem，command：npx，args：[-y, @agent-infra/mcp-server-filesystem, <workspace>]，用途：暴露本地文件系统相关工具，工作区用于相对路径解析。
- server name：commands，command：npx，args：[-y, @agent-infra/mcp-server-commands]，用途：暴露通用命令工具。
客户端不需要代码级配置，这里提供的是可参考的服务器启动信息，实际连接需要启动上述服务端并在客户端配置相应的 MCP 服务地址与端口等信息。

关键词多模态代理, 浏览器自动化, 本地工具, 资源管理, 桌面应用
分类ID 8

UI-TARS-desktop MCP 服务实现与集成

服务器信息