使用说明
项目简介
mcp-browser-use 是一个 MCP (Model Context Protocol) 服务器,它基于 browser-use 库,旨在为大型语言模型 (LLM) 客户端提供浏览器自动化能力。通过此服务器,LLM 可以控制浏览器执行各种操作,例如网页浏览、信息搜索、表单填写、元素点击等,从而扩展 LLM 在网络环境中的应用场景。
主要功能点
- 浏览器自动化工具集: 提供丰富的浏览器操作工具,包括:
- 页面导航: 打开网页、后退、前进、刷新等。
- 元素交互: 点击元素、输入文本、选择下拉框选项等。
- 信息提取: 获取页面内容、检查页面元素、滚动页面等。
- 标签页管理: 新建标签页、切换标签页。
- 等待操作: 等待指定时间。
- 完成任务: 通知客户端任务完成。
- 基于 MCP 协议: 遵循 MCP 协议标准,易于与各种 MCP 客户端集成,例如 Claude、Cursor 等。
- 无需 LLM API Key: 直接利用 MCP 客户端内置的 LLM,无需额外的 API 密钥,降低使用成本。
安装步骤
- 安装 Python 和 pip: 确保您的系统已安装 Python 和 pip 包管理器。
- 安装 mcp-browser-use: 使用 pip 命令安装 'mcp-browser-use' 包:
这个命令会自动安装 'mcp-browser-use' 及其依赖项,包括 'browser-use' 和 'playwright'。pip install mcp-browser-use - 安装 Playwright 浏览器驱动: 'browser-use' 依赖 Playwright 进行浏览器自动化。首次运行 'mcp-browser-use' 服务器时,如果检测到 Playwright 浏览器驱动未安装,会自动尝试安装 Chromium 浏览器。如果自动安装失败,请手动运行以下命令安装 Playwright 浏览器驱动:
playwright install chromium
服务器配置
要将 'mcp-browser-use' 服务器配置到 MCP 客户端,您需要提供服务器的启动命令和相关参数。以下是一个典型的 JSON 格式配置示例,您可以将其添加到 MCP 客户端的服务器配置中。
{ "server name": "browser-use", "command": "uvx", "args": [ "mcp-browser-use" ], "transports": [ "stdio" ], "description": "Browser automation tools via browser-use" }
配置参数说明:
- '"server name"': 服务器的名称,可以自定义,例如 "browser-use"。
- '"command"': 启动服务器的命令。这里使用 'uvx' 命令,它是一个通用的 Python 虚拟环境执行器,可以确保在正确的虚拟环境中运行 'mcp-browser-use'。 请确保 'uvx' 命令在您的系统 PATH 环境变量中可用。如果不可用,请将 'command' 更改为 Python 解释器的完整路径,并将 'args' 更改为 '["-m", "mcp_browser_use.server"]'。
- '"args"': 传递给命令的参数。这里 '"mcp-browser-use"' 是 'uvx' 命令的参数,用于指定要运行的 Python 包入口。
- '"transports"': 服务器支持的传输协议。 'stdio' 表示使用标准输入输出进行通信,这是最常用的方式。
- '"description"': 服务器的描述信息,用于在 MCP 客户端中显示。
注意: 某些 MCP 客户端可能需要提供 'command' 的完整路径,以避免启动服务器失败。您可以使用 'which uvx' (或 'where uvx' 在 Windows 上) 命令查找 'uvx' 的完整路径,并将其填入 '"command"' 字段。如果使用 Python 解释器直接运行,请使用 Python 解释器的完整路径。
基本使用方法
- 启动 MCP 服务器: 配置完成后,在 MCP 客户端中启动名为 "browser-use" 的服务器。
- 在 LLM 中使用工具: 在与 LLM 的对话中,您可以指示 LLM 使用 'browser-use' 服务器提供的工具来执行浏览器操作。例如,您可以指示 LLM "使用 'search_google' 工具搜索 '最新科技新闻'" 或 "使用 'click_element' 工具点击索引为 1 的元素"。
- 查看工具列表: 您可以使用 MCP 客户端提供的功能查看 'browser-use' 服务器提供的所有可用工具及其描述,以便更好地利用这些工具。
- 结合 Prompt 使用: 您可以设计合适的 Prompt 模板,引导 LLM 有效地使用浏览器自动化工具,完成更复杂的任务,例如信息收集、数据抓取、在线购物等。
通过 'mcp-browser-use' 服务器,您可以为 LLM 赋予强大的浏览器自动化能力,拓展 LLM 的应用边界,使其能够更好地与网络世界进行交互。
信息
分类
网页与API