使用说明

项目简介

mcp-browser-use-tools 是一个基于 Model Context Protocol (MCP) 的服务器实现,它将 browser-use 库中的一部分浏览器自动化工具封装成 MCP 服务器。这意味着你可以使用符合 MCP 协议的 LLM 客户端,通过该服务器调用浏览器工具,实现网页浏览、信息提取等自动化任务。

注意: 该仓库仅提供了 browser-use 工具集的一个子集,并非完整的 browser-use Agent 封装。

主要功能点

  • 工具 (Tools) 注册和执行: 暴露 browser-use 库中的一系列浏览器操作工具,例如:

    • 'done': 标记任务完成
    • 'search_google': 使用 Google 搜索
    • 'go_to_url': 导航到指定 URL
    • 'go_back': 浏览器后退
    • 'wait': 等待指定时间
    • 'click_element': 点击页面元素
    • 'input_text': 在输入框中输入文本
    • 'switch_tab': 切换标签页
    • 'open_tab': 打开新标签页
    • 'extract_content': 提取页面内容
    • 'scroll_down': 向下滚动页面
    • 'scroll_up': 向上滚动页面
    • 'send_keys': 发送键盘按键
    • 'scroll_to_text': 滚动到指定文本
    • 'get_dropdown_options': 获取下拉菜单选项
    • 'select_dropdown_option': 选择下拉菜单选项
  • 资源 (Resources) 管理: 虽然仓库描述中没有明确提及资源管理,但作为 MCP 服务器,它隐含地管理着浏览器会话和页面状态等资源。

  • Prompt 模板 (Prompts): 仓库中未直接提供 Prompt 模板,但服务器提供的工具可以与 Prompt 模板结合使用,以实现定制化的 LLM 交互模式。

  • JSON-RPC 协议通信: 虽然仓库代码中没有直接体现 JSON-RPC 的实现细节,但根据 MCP 服务器的定义,可以推断该服务器使用 JSON-RPC 协议与客户端进行通信。

安装步骤

  1. 确保你的 Python 环境已配置好。
  2. 克隆该 GitHub 仓库到本地:
    git clone https://github.com/phact/mcp-browser-use-tools
    cd mcp-browser-use-tools
  3. 安装项目依赖(虽然仓库中没有 'requirements.txt' 文件,但根据代码推测可能需要安装 'mcp_server' 和 'browser-use' 相关的依赖,具体安装命令可能需要参考 'browser-use' 项目的安装说明):
    # 示例命令,可能需要根据实际情况调整
    pip install -e .

服务器配置

MCP 客户端需要配置以下信息以连接到 mcp-browser-use-tools 服务器。以下是一个 JSON 格式的配置示例:

{
  "serverName": "mcp-browser-use-tools-server",
  "command": "python",
  "args": [
    "-m",
    "mcp_server.mcp_server"  //  MCP 服务器的启动命令,指向 mcp_server.mcp_server 模块
    // "--其他参数"  // 如果 mcp_server.mcp_server 模块支持其他启动参数,可以在这里添加,例如指定端口等
  ]
}

配置参数说明:

  • 'serverName': MCP 服务器的名称,可以自定义。
  • 'command': 启动 MCP 服务器的命令,通常是 'python'。
  • 'args': 启动命令的参数列表:
    • '-m mcp_server.mcp_server': 指定 Python 模块 'mcp_server.mcp_server' 作为入口点来启动服务器。
    • '"--其他参数"': [可选] 如果 'mcp_server.mcp_server' 模块接受额外的命令行参数进行配置(例如,端口号、日志级别等),可以在此列表中添加。请查阅 'mcp_server.mcp_server' 模块的文档或帮助信息以获取可用的参数。

注意: 由于仓库信息中没有提供 'mcp_server.mcp_server' 模块的具体内容和启动方式,上述配置为推测,实际配置可能需要参考更详细的文档或代码。

基本使用方法

  1. 启动 mcp-browser-use-tools 服务器(具体启动命令请参考服务器配置部分)。
  2. 配置你的 MCP 客户端,使其连接到运行中的 mcp-browser-use-tools 服务器。
  3. 在 MCP 客户端中,你可以注册和调用 mcp-browser-use-tools 服务器提供的浏览器操作工具,例如 'search_google'、'go_to_url' 等,以实现浏览器自动化任务。
  4. LLM 客户端可以通过 MCP 协议与服务器进行通信,发送请求并接收响应,从而驱动浏览器执行各种操作。

信息

分类

AI与计算