项目简介

MCP浏览器工具套件(MCP Browser Kit)是一个基于Model Context Protocol (MCP) 的服务器实现,它允许LLM客户端通过标准化的MCP协议与浏览器进行交互。该工具套件包含一个MCP服务器和一个浏览器扩展,共同协作,使得LLM能够获取当前浏览器的标签页信息,读取网页上的可交互元素,并执行点击、文本输入、JavaScript代码执行等操作,从而实现浏览器自动化和网页内容获取等功能。

主要功能点

  • 获取标签页信息: 允许LLM获取当前浏览器打开的标签页列表,包括标题、URL和ID等信息,为后续操作提供上下文。
  • 读取网页元素: 能够识别网页上可交互的元素(如按钮、输入框、链接等),并以结构化的列表形式返回给LLM,方便LLM理解和操作网页内容。
  • 模拟用户操作: 支持模拟用户的点击操作和文本输入操作,LLM可以通过指定元素索引来控制网页上的元素,例如点击按钮、填写表单等。
  • 执行JavaScript代码: 允许LLM在网页上下文中执行自定义的JavaScript代码,从而实现更复杂和灵活的网页交互功能。

安装步骤

  1. 添加MCP服务器配置到MCP客户端: 在您的MCP客户端配置文件(通常是JSON格式)中,添加以下'mcpServers'配置,声明使用 MCP Browser Kit 服务器:

    {
        "mcpServers": {
            "mcp-browser-kit": {
                "command": "npx",
                "args": ["@mcp-browser-kit/server"]
            }
        }
    }
  2. 下载并安装浏览器扩展:

    • 前往 MCP Browser Kit Extension 发布页面 下载浏览器扩展压缩包 'extension.zip'。
    • 解压 'extension.zip' 到本地目录。
    • 根据您使用的浏览器类型,按照以下步骤加载扩展程序:
      • Brave 浏览器 (推荐):
        • 打开 'brave://extensions/'。
        • 开启 "开发者模式" (Developer mode)。
        • 点击 "加载已解压的扩展程序" (Load unpacked)。
        • 选择解压后的 'extension' 文件夹。
      • Firefox 浏览器 (推荐):
        • 打开 'about:debugging#/runtime/this-firefox'。
        • 点击 "临时加载附加组件" (Load Temporary Add-on)。
        • 选择解压后的 'extension' 文件夹中的 'manifest.json' 文件。
      • Chrome 浏览器 (不支持): Chrome Manifest V2 扩展支持已结束,请使用 Brave 或 Firefox 浏览器。
  3. 启用扩展并开始使用:

    • 在浏览器中启用已加载的 MCP Browser Kit 扩展程序。
    • 在您的MCP客户端中,即可通过 'use mcp-browser-kit, [指令]' 的形式调用 MCP Browser Kit 提供的工具,与浏览器进行交互。

服务器配置

MCP服务器配置信息已在 安装步骤 中提供。

  • server name: 'mcp-browser-kit' (服务器名称,用于在MCP客户端中引用)
  • command: 'npx' (启动命令,使用 npx 执行 npm 包)
  • args: '["@mcp-browser-kit/server"]' (命令参数,指定要执行的 npm 包为 '@mcp-browser-kit/server')

注意: 请确保您的环境中已安装 Node.js 和 npm,以便 'npx' 命令可以正常执行。 '@mcp-browser-kit/server' 包会在首次运行时自动下载。

基本使用方法

在MCP客户端中,您可以使用自然语言指令,并以 'use mcp-browser-kit,' 作为前缀来调用 MCP Browser Kit 提供的工具。例如:

use mcp-browser-kit, Star the last opening github repo on my browser

上述指令示例指示 LLM 使用 MCP Browser Kit 来操作浏览器,例如查找并点击浏览器中最近打开的 GitHub 仓库页面的 "Star" 按钮。 更具体的使用方法和支持的指令类型取决于您的LLM客户端和集成的 Prompt 设计。

核心思想: 通过 'use mcp-browser-kit,' 前缀,LLM可以将浏览器相关的操作请求委托给 MCP Browser Kit 服务器处理,利用其提供的工具与浏览器进行交互,并将结果返回给LLM,实现更强大的基于浏览器上下文的应用。

信息

分类

网页与API