使用说明

项目简介

mcp-browser-use 是一个 MCP (Model Context Protocol) 服务器,它基于 browser-use 库,旨在为大型语言模型 (LLM) 客户端提供浏览器自动化能力。通过此服务器,LLM 可以控制浏览器执行各种操作,例如网页浏览、信息搜索、表单填写、元素点击等,从而扩展 LLM 在网络环境中的应用场景。

主要功能点

  • 浏览器自动化工具集: 提供丰富的浏览器操作工具,包括:
    • 页面导航: 打开网页、后退、前进、刷新等。
    • 元素交互: 点击元素、输入文本、选择下拉框选项等。
    • 信息提取: 获取页面内容、检查页面元素、滚动页面等。
    • 标签页管理: 新建标签页、切换标签页。
    • 等待操作: 等待指定时间。
    • 完成任务: 通知客户端任务完成。
  • 基于 MCP 协议: 遵循 MCP 协议标准,易于与各种 MCP 客户端集成,例如 Claude、Cursor 等。
  • 无需 LLM API Key: 直接利用 MCP 客户端内置的 LLM,无需额外的 API 密钥,降低使用成本。

安装步骤

  1. 安装 Python 和 pip: 确保您的系统已安装 Python 和 pip 包管理器。
  2. 安装 mcp-browser-use: 使用 pip 命令安装 'mcp-browser-use' 包:
    pip install mcp-browser-use
    这个命令会自动安装 'mcp-browser-use' 及其依赖项,包括 'browser-use' 和 'playwright'。
  3. 安装 Playwright 浏览器驱动: 'browser-use' 依赖 Playwright 进行浏览器自动化。首次运行 'mcp-browser-use' 服务器时,如果检测到 Playwright 浏览器驱动未安装,会自动尝试安装 Chromium 浏览器。如果自动安装失败,请手动运行以下命令安装 Playwright 浏览器驱动:
    playwright install chromium

服务器配置

要将 'mcp-browser-use' 服务器配置到 MCP 客户端,您需要提供服务器的启动命令和相关参数。以下是一个典型的 JSON 格式配置示例,您可以将其添加到 MCP 客户端的服务器配置中。

{
  "server name": "browser-use",
  "command": "uvx",
  "args": [
    "mcp-browser-use"
  ],
  "transports": [
    "stdio"
  ],
  "description": "Browser automation tools via browser-use"
}

配置参数说明:

  • '"server name"': 服务器的名称,可以自定义,例如 "browser-use"。
  • '"command"': 启动服务器的命令。这里使用 'uvx' 命令,它是一个通用的 Python 虚拟环境执行器,可以确保在正确的虚拟环境中运行 'mcp-browser-use'。 请确保 'uvx' 命令在您的系统 PATH 环境变量中可用。如果不可用,请将 'command' 更改为 Python 解释器的完整路径,并将 'args' 更改为 '["-m", "mcp_browser_use.server"]'。
  • '"args"': 传递给命令的参数。这里 '"mcp-browser-use"' 是 'uvx' 命令的参数,用于指定要运行的 Python 包入口。
  • '"transports"': 服务器支持的传输协议。 'stdio' 表示使用标准输入输出进行通信,这是最常用的方式。
  • '"description"': 服务器的描述信息,用于在 MCP 客户端中显示。

注意: 某些 MCP 客户端可能需要提供 'command' 的完整路径,以避免启动服务器失败。您可以使用 'which uvx' (或 'where uvx' 在 Windows 上) 命令查找 'uvx' 的完整路径,并将其填入 '"command"' 字段。如果使用 Python 解释器直接运行,请使用 Python 解释器的完整路径。

基本使用方法

  1. 启动 MCP 服务器: 配置完成后,在 MCP 客户端中启动名为 "browser-use" 的服务器。
  2. 在 LLM 中使用工具: 在与 LLM 的对话中,您可以指示 LLM 使用 'browser-use' 服务器提供的工具来执行浏览器操作。例如,您可以指示 LLM "使用 'search_google' 工具搜索 '最新科技新闻'" 或 "使用 'click_element' 工具点击索引为 1 的元素"。
  3. 查看工具列表: 您可以使用 MCP 客户端提供的功能查看 'browser-use' 服务器提供的所有可用工具及其描述,以便更好地利用这些工具。
  4. 结合 Prompt 使用: 您可以设计合适的 Prompt 模板,引导 LLM 有效地使用浏览器自动化工具,完成更复杂的任务,例如信息收集、数据抓取、在线购物等。

通过 'mcp-browser-use' 服务器,您可以为 LLM 赋予强大的浏览器自动化能力,拓展 LLM 的应用边界,使其能够更好地与网络世界进行交互。

信息

分类

网页与API