NavAgent-MCP 服务器

使用说明内容(Markdown格式)

  • 项目简介

    • NavAgent-MCP 是一个基于 Model Context Protocol 的本地后端服务器,旨在以标准化方式向 LLM 客户端提供网页上下文资源、可用工具以及可定制的提示模板,从而实现对网页的智能浏览、操作与信息提取。
  • 主要功能点

    • 资源与上下文托管:提供对当前网页的可读文本、结构化的页面信息等资源访问,便于 LLM 构建上下文。
    • 工具注册与执行:内置并暴露多种导航相关工具(如浏览、点击、输入、提取页面内容等),并允许页面自定义 WebMCP 工具(通过扩展页面实现 Tool 列表与执行)。
    • Prompt 模板与交互:支持基于页面状态的提示模版渲染与定制化交互模式,帮助 LLM 与页面进行更自然的对话式操作。
    • 本地通信与桥接:默认通过 stdio 与 MCP 客户端通信,另外通过本地 WebSocket 与 Chrome 扩展桥接实现对浏览器页面的上下文获取与控制。
    • 会话与端口管理:默认监听本地 61822 端口,可以通过 NAVAGENT_PORT 环境变量自定义端口;扩展端通过该端口与服务器建立连接并传输命令/结果。
  • 安装步骤

    1. 安装 Node.js(建议使用支持 ES Modules 的版本,本文档使用的示例基于 Node.js 版本的兼容性)。
    2. 将仓库克隆或直接在项目中安装 NavAgent MCP 组件。
    3. 在服务器端执行 NavAgent MCP 服务:通过命令 npx navagent-mcp 启动服务器。
    4. 在浏览器中安装并开启 NavAgent Chrome 扩展(Chrome 商店版本,或按仓库提供的自建扩展)。
    5. 如需更改端口:在环境变量 NAVAGENT_PORT 设置新端口(例如 61900),并在扩展端 options 中配置同一端口。
    6. 在 MCP 客户端配置中(不同客户端的配置略有差异,后面有示例),将服务器以本地进程方式启动并连接。
  • 服务器配置 (给 MCP 客户端的配置信息) 说明:MCP 客户端需要一个用于启动 NavAgent MCP 服务器的配置信息,包含服务器名称、启动命令及参数等,以建立与服务器的通信连接。以下为基于仓库信息的示例配置描述: { "server": { "name": "navagent", "command": "npx", "args": ["-y", "navagent-mcp"] } // 说明:上述配置用于让 MCP 客户端启动 NavAgent-MCP 服务器进程。服务器在本地运行,默认通过端口 61822 提供通信,若通过 NAVAGENT_PORT 环境变量修改端口,请确保客户端配置的端口一致。 }

  • 基本使用方法

    • 启动 MCP 服务器:在支持的运行环境中执行上述命令(npx navagent-mcp)。
    • 启动 MCP 客户端:按客户端的具体使用方式,确保其配置中指向本地 NavAgent MCP 服务器进程。
    • 连接与交互:打开 Chrome 扩展,确保扩展能够连接到本地 61822 端口(如有需要,统一修改 NAVAGENT_PORT 以匹配扩展设置)。
    • 使用示例:在 LLM 客户端向 NavAgent MCP 服务器发送请求后,服务器通过扩展桥接对当前网页进行扫描、区域识别、元素交互等操作,并将结果以 MCP 格式返回给客户端,以便继续对话与决策。
<footer>注:NavAgent 的实现包含了 12 种工具,覆盖页面浏览、区域.zone 操作、文本输入、内容读取与提取等能力,目标是在本地环境中为 LLM 客户端提供安全、可扩展的网页上下文服务。</footer>

服务器信息