使用说明

项目简介

Bright Data MCP Server 是一个基于 Model Context Protocol (MCP) 标准构建的服务器,由 Bright Data 官方维护。它充当 LLM 客户端与 Bright Data 强大的网络数据访问能力之间的桥梁。该服务器允许 LLM 通过标准化的 MCP 协议,安全、高效地访问和利用来自公共网络的海量信息,并能控制远程浏览器执行复杂任务。

主要功能点

  • 网页数据抓取: 提供工具,允许 LLM 抓取指定网页的内容,并以 Markdown 或 HTML 格式返回,突破反爬虫和验证码限制。
  • 搜索引擎查询: 集成 Google, Bing, Yandex 等搜索引擎,使 LLM 能够获取最新的搜索结果。
  • 结构化数据访问: 快速访问亚马逊商品、领英人物/公司等预先结构化的数据集,提高数据获取效率和可靠性。
  • 浏览器自动化: 提供一系列浏览器控制工具(导航、点击、输入、截图等),允许 LLM 通过操作真实浏览器来完成更复杂的网页交互任务。
  • 会话统计: 提供工具查看当前会话中工具的调用次数,方便用户了解工具使用情况。

安装步骤

  1. 安装 Node.js: 确保你的系统已安装 Node.js 运行环境 (>=16.0.0)。你可以从 node.js 官网 下载并安装。安装 Node.js 会同时安装 'npm' (Node Package Manager),'npx' 命令也包含在 npm 中。
  2. 获取 Bright Data API 密钥: 访问 Bright Data 官网 并注册账号。新用户通常可以获得免费额度用于测试。登录后,在 用户设置页面 获取你的 API 密钥 (API token)。
  3. 创建 Web Unlocker 代理区域: 在 Bright Data 控制面板 (Control Panel) 的 区域 (Zones) 页面,创建一个名为 'mcp_unlocker' 的 Web Unlocker 类型的代理区域。这是默认配置,如果需要自定义区域名称,可以在服务器配置中通过环境变量 'WEB_UNLOCKER_ZONE' 覆盖。
  4. (可选) 创建 Scraping Browser 代理区域: 如果需要使用浏览器控制工具,同样在 区域 (Zones) 页面,创建一个 Scraping Browser 类型的代理区域。创建后,找到该区域的认证字符串 (auth string),格式为 'brd-customer-$CUSTOMER-zone-$ZONE:$PASSWORD'。这个字符串将用于配置 'BROWSER_AUTH' 环境变量。

服务器配置

MCP 客户端需要配置服务器的启动命令才能连接 Bright Data MCP Server。以下是 Claude Desktop 的配置示例,其他 MCP 客户端的配置方法类似,请参考各自客户端的文档进行配置。

在 Claude Desktop 的 'claude_desktop_config.json' 文件中,'mcpServers' 字段下添加 Bright Data MCP Server 的配置信息:

{
  "mcpServers": {
    "Bright Data": {
      "command": "npx",
      "args": ["@brightdata/mcp"],
      "env": {
        "API_TOKEN": "<在此处填入你的 Bright Data API 密钥>",
        "WEB_UNLOCKER_ZONE": "<(可选) 如果需要自定义 Web Unlocker 区域名称,在此处填写,否则使用默认 'mcp_unlocker'>",
        "BROWSER_AUTH": "<(可选) 如果要启用浏览器控制工具,在此处填入 Scraping Browser 区域的认证字符串>"
      }
    }
  }
}

配置参数说明:

  • server name: 'Bright Data' - 服务器名称,可以自定义,用于在 MCP 客户端中标识该服务器。
  • command: 'npx' - 用于执行 Node.js 包的命令。'npx' 会自动查找并执行 '@brightdata/mcp' 包。
  • args: '["@brightdata/mcp"]' - 传递给 'npx' 命令的参数,指定要执行的包名为 '@brightdata/mcp'。 这会自动运行仓库的 'server.js' 文件。
  • env: 环境变量配置,用于传递 API 密钥和区域信息给 MCP 服务器。
    • 'API_TOKEN': 必填,你的 Bright Data API 密钥,用于服务器进行身份验证和访问 Bright Data 服务。
    • 'WEB_UNLOCKER_ZONE': 可选,Web Unlocker 代理区域名称。 默认为 'mcp_unlocker'。 如果你在 Bright Data 控制面板创建了不同名称的 Web Unlocker 区域,请在此处指定。
    • 'BROWSER_AUTH': 可选,Scraping Browser 代理区域的认证字符串。 只有配置此环境变量后,浏览器控制工具才会启用。 如果不需要浏览器自动化功能,可以忽略此配置。

注意:

  • 确保将 '<在此处填入你的 Bright Data API 密钥>' 替换为你实际的 API 密钥。
  • 可选的环境变量可以根据你的需求进行配置。

基本使用方法

配置完成后,在 MCP 客户端中选择 "Bright Data" 服务器。客户端会通过标准 MCP 协议与 Bright Data MCP Server 通信。你可以向 LLM 提出问题,例如:

  • "Google some movies that are releasing soon in London" (使用 'search_engine' 工具)
  • "What's tesla's market cap?" (可能使用 'search_engine' 或 'scrape_as_markdown' 工具)
  • "What's the wikipedia article of the day?" (可能使用 'scrape_as_markdown' 工具)
  • "What's the 7d weather forecast in New York?" (可能使用 'search_engine' 或 'scrape_as_markdown' 工具)
  • "Of the 3 highest paid tech CEOs, how long has their career been?" (可能结合多个工具,如 'search_engine' 和 'scrape_as_markdown',甚至 'scraping_browser_navigate' 等浏览器工具)

LLM 会根据你的问题自动选择合适的工具,并调用 Bright Data MCP Server 获取信息,最终将答案返回给你。

提示:

  • 部分工具(特别是网页抓取工具)可能需要较长的执行时间,请在 MCP 客户端中适当调整请求超时时间 (建议设置为 180s 或更高)。
  • 浏览器控制工具需要正确配置 'BROWSER_AUTH' 环境变量才能使用。

信息

分类

网页与API