使用说明
项目简介
mcp-browser-use-tools 是一个基于 Model Context Protocol (MCP) 的服务器实现,它将 browser-use 库中的一部分浏览器自动化工具封装成 MCP 服务器。这意味着你可以使用符合 MCP 协议的 LLM 客户端,通过该服务器调用浏览器工具,实现网页浏览、信息提取等自动化任务。
注意: 该仓库仅提供了 browser-use 工具集的一个子集,并非完整的 browser-use Agent 封装。
主要功能点
-
工具 (Tools) 注册和执行: 暴露 browser-use 库中的一系列浏览器操作工具,例如:
- 'done': 标记任务完成
- 'search_google': 使用 Google 搜索
- 'go_to_url': 导航到指定 URL
- 'go_back': 浏览器后退
- 'wait': 等待指定时间
- 'click_element': 点击页面元素
- 'input_text': 在输入框中输入文本
- 'switch_tab': 切换标签页
- 'open_tab': 打开新标签页
- 'extract_content': 提取页面内容
- 'scroll_down': 向下滚动页面
- 'scroll_up': 向上滚动页面
- 'send_keys': 发送键盘按键
- 'scroll_to_text': 滚动到指定文本
- 'get_dropdown_options': 获取下拉菜单选项
- 'select_dropdown_option': 选择下拉菜单选项
-
资源 (Resources) 管理: 虽然仓库描述中没有明确提及资源管理,但作为 MCP 服务器,它隐含地管理着浏览器会话和页面状态等资源。
-
Prompt 模板 (Prompts): 仓库中未直接提供 Prompt 模板,但服务器提供的工具可以与 Prompt 模板结合使用,以实现定制化的 LLM 交互模式。
-
JSON-RPC 协议通信: 虽然仓库代码中没有直接体现 JSON-RPC 的实现细节,但根据 MCP 服务器的定义,可以推断该服务器使用 JSON-RPC 协议与客户端进行通信。
安装步骤
- 确保你的 Python 环境已配置好。
- 克隆该 GitHub 仓库到本地:
git clone https://github.com/phact/mcp-browser-use-tools cd mcp-browser-use-tools - 安装项目依赖(虽然仓库中没有 'requirements.txt' 文件,但根据代码推测可能需要安装 'mcp_server' 和 'browser-use' 相关的依赖,具体安装命令可能需要参考 'browser-use' 项目的安装说明):
# 示例命令,可能需要根据实际情况调整 pip install -e .
服务器配置
MCP 客户端需要配置以下信息以连接到 mcp-browser-use-tools 服务器。以下是一个 JSON 格式的配置示例:
{ "serverName": "mcp-browser-use-tools-server", "command": "python", "args": [ "-m", "mcp_server.mcp_server" // MCP 服务器的启动命令,指向 mcp_server.mcp_server 模块 // "--其他参数" // 如果 mcp_server.mcp_server 模块支持其他启动参数,可以在这里添加,例如指定端口等 ] }
配置参数说明:
- 'serverName': MCP 服务器的名称,可以自定义。
- 'command': 启动 MCP 服务器的命令,通常是 'python'。
- 'args': 启动命令的参数列表:
- '-m mcp_server.mcp_server': 指定 Python 模块 'mcp_server.mcp_server' 作为入口点来启动服务器。
- '"--其他参数"': [可选] 如果 'mcp_server.mcp_server' 模块接受额外的命令行参数进行配置(例如,端口号、日志级别等),可以在此列表中添加。请查阅 'mcp_server.mcp_server' 模块的文档或帮助信息以获取可用的参数。
注意: 由于仓库信息中没有提供 'mcp_server.mcp_server' 模块的具体内容和启动方式,上述配置为推测,实际配置可能需要参考更详细的文档或代码。
基本使用方法
- 启动 mcp-browser-use-tools 服务器(具体启动命令请参考服务器配置部分)。
- 配置你的 MCP 客户端,使其连接到运行中的 mcp-browser-use-tools 服务器。
- 在 MCP 客户端中,你可以注册和调用 mcp-browser-use-tools 服务器提供的浏览器操作工具,例如 'search_google'、'go_to_url' 等,以实现浏览器自动化任务。
- LLM 客户端可以通过 MCP 协议与服务器进行通信,发送请求并接收响应,从而驱动浏览器执行各种操作。
信息
分类
AI与计算