项目简介
MCP浏览器工具套件(MCP Browser Kit)是一个基于Model Context Protocol (MCP) 的服务器实现,它允许LLM客户端通过标准化的MCP协议与浏览器进行交互。该工具套件包含一个MCP服务器和一个浏览器扩展,共同协作,使得LLM能够获取当前浏览器的标签页信息,读取网页上的可交互元素,并执行点击、文本输入、JavaScript代码执行等操作,从而实现浏览器自动化和网页内容获取等功能。
主要功能点
- 获取标签页信息: 允许LLM获取当前浏览器打开的标签页列表,包括标题、URL和ID等信息,为后续操作提供上下文。
- 读取网页元素: 能够识别网页上可交互的元素(如按钮、输入框、链接等),并以结构化的列表形式返回给LLM,方便LLM理解和操作网页内容。
- 模拟用户操作: 支持模拟用户的点击操作和文本输入操作,LLM可以通过指定元素索引来控制网页上的元素,例如点击按钮、填写表单等。
- 执行JavaScript代码: 允许LLM在网页上下文中执行自定义的JavaScript代码,从而实现更复杂和灵活的网页交互功能。
安装步骤
-
添加MCP服务器配置到MCP客户端: 在您的MCP客户端配置文件(通常是JSON格式)中,添加以下'mcpServers'配置,声明使用 MCP Browser Kit 服务器:
{ "mcpServers": { "mcp-browser-kit": { "command": "npx", "args": ["@mcp-browser-kit/server"] } } } -
下载并安装浏览器扩展:
- 前往 MCP Browser Kit Extension 发布页面 下载浏览器扩展压缩包 'extension.zip'。
- 解压 'extension.zip' 到本地目录。
- 根据您使用的浏览器类型,按照以下步骤加载扩展程序:
- Brave 浏览器 (推荐):
- 打开 'brave://extensions/'。
- 开启 "开发者模式" (Developer mode)。
- 点击 "加载已解压的扩展程序" (Load unpacked)。
- 选择解压后的 'extension' 文件夹。
- Firefox 浏览器 (推荐):
- 打开 'about:debugging#/runtime/this-firefox'。
- 点击 "临时加载附加组件" (Load Temporary Add-on)。
- 选择解压后的 'extension' 文件夹中的 'manifest.json' 文件。
- Chrome 浏览器 (不支持): Chrome Manifest V2 扩展支持已结束,请使用 Brave 或 Firefox 浏览器。
- Brave 浏览器 (推荐):
-
启用扩展并开始使用:
- 在浏览器中启用已加载的 MCP Browser Kit 扩展程序。
- 在您的MCP客户端中,即可通过 'use mcp-browser-kit, [指令]' 的形式调用 MCP Browser Kit 提供的工具,与浏览器进行交互。
服务器配置
MCP服务器配置信息已在 安装步骤 中提供。
- server name: 'mcp-browser-kit' (服务器名称,用于在MCP客户端中引用)
- command: 'npx' (启动命令,使用 npx 执行 npm 包)
- args: '["@mcp-browser-kit/server"]' (命令参数,指定要执行的 npm 包为 '@mcp-browser-kit/server')
注意: 请确保您的环境中已安装 Node.js 和 npm,以便 'npx' 命令可以正常执行。 '@mcp-browser-kit/server' 包会在首次运行时自动下载。
基本使用方法
在MCP客户端中,您可以使用自然语言指令,并以 'use mcp-browser-kit,' 作为前缀来调用 MCP Browser Kit 提供的工具。例如:
use mcp-browser-kit, Star the last opening github repo on my browser
上述指令示例指示 LLM 使用 MCP Browser Kit 来操作浏览器,例如查找并点击浏览器中最近打开的 GitHub 仓库页面的 "Star" 按钮。 更具体的使用方法和支持的指令类型取决于您的LLM客户端和集成的 Prompt 设计。
核心思想: 通过 'use mcp-browser-kit,' 前缀,LLM可以将浏览器相关的操作请求委托给 MCP Browser Kit 服务器处理,利用其提供的工具与浏览器进行交互,并将结果返回给LLM,实现更强大的基于浏览器上下文的应用。
信息
分类
网页与API