使用说明
项目简介
Bright Data MCP Server 是一个基于 Model Context Protocol (MCP) 标准构建的服务器,由 Bright Data 官方维护。它充当 LLM 客户端与 Bright Data 强大的网络数据访问能力之间的桥梁。该服务器允许 LLM 通过标准化的 MCP 协议,安全、高效地访问和利用来自公共网络的海量信息,并能控制远程浏览器执行复杂任务。
主要功能点
- 网页数据抓取: 提供工具,允许 LLM 抓取指定网页的内容,并以 Markdown 或 HTML 格式返回,突破反爬虫和验证码限制。
- 搜索引擎查询: 集成 Google, Bing, Yandex 等搜索引擎,使 LLM 能够获取最新的搜索结果。
- 结构化数据访问: 快速访问亚马逊商品、领英人物/公司等预先结构化的数据集,提高数据获取效率和可靠性。
- 浏览器自动化: 提供一系列浏览器控制工具(导航、点击、输入、截图等),允许 LLM 通过操作真实浏览器来完成更复杂的网页交互任务。
- 会话统计: 提供工具查看当前会话中工具的调用次数,方便用户了解工具使用情况。
安装步骤
- 安装 Node.js: 确保你的系统已安装 Node.js 运行环境 (>=16.0.0)。你可以从 node.js 官网 下载并安装。安装 Node.js 会同时安装 'npm' (Node Package Manager),'npx' 命令也包含在 npm 中。
- 获取 Bright Data API 密钥: 访问 Bright Data 官网 并注册账号。新用户通常可以获得免费额度用于测试。登录后,在 用户设置页面 获取你的 API 密钥 (API token)。
- 创建 Web Unlocker 代理区域: 在 Bright Data 控制面板 (Control Panel) 的 区域 (Zones) 页面,创建一个名为 'mcp_unlocker' 的 Web Unlocker 类型的代理区域。这是默认配置,如果需要自定义区域名称,可以在服务器配置中通过环境变量 'WEB_UNLOCKER_ZONE' 覆盖。
- (可选) 创建 Scraping Browser 代理区域: 如果需要使用浏览器控制工具,同样在 区域 (Zones) 页面,创建一个 Scraping Browser 类型的代理区域。创建后,找到该区域的认证字符串 (auth string),格式为 'brd-customer-$CUSTOMER-zone-$ZONE:$PASSWORD'。这个字符串将用于配置 'BROWSER_AUTH' 环境变量。
服务器配置
MCP 客户端需要配置服务器的启动命令才能连接 Bright Data MCP Server。以下是 Claude Desktop 的配置示例,其他 MCP 客户端的配置方法类似,请参考各自客户端的文档进行配置。
在 Claude Desktop 的 'claude_desktop_config.json' 文件中,'mcpServers' 字段下添加 Bright Data MCP Server 的配置信息:
{ "mcpServers": { "Bright Data": { "command": "npx", "args": ["@brightdata/mcp"], "env": { "API_TOKEN": "<在此处填入你的 Bright Data API 密钥>", "WEB_UNLOCKER_ZONE": "<(可选) 如果需要自定义 Web Unlocker 区域名称,在此处填写,否则使用默认 'mcp_unlocker'>", "BROWSER_AUTH": "<(可选) 如果要启用浏览器控制工具,在此处填入 Scraping Browser 区域的认证字符串>" } } } }
配置参数说明:
- server name: 'Bright Data' - 服务器名称,可以自定义,用于在 MCP 客户端中标识该服务器。
- command: 'npx' - 用于执行 Node.js 包的命令。'npx' 会自动查找并执行 '@brightdata/mcp' 包。
- args: '["@brightdata/mcp"]' - 传递给 'npx' 命令的参数,指定要执行的包名为 '@brightdata/mcp'。 这会自动运行仓库的 'server.js' 文件。
- env: 环境变量配置,用于传递 API 密钥和区域信息给 MCP 服务器。
- 'API_TOKEN': 必填,你的 Bright Data API 密钥,用于服务器进行身份验证和访问 Bright Data 服务。
- 'WEB_UNLOCKER_ZONE': 可选,Web Unlocker 代理区域名称。 默认为 'mcp_unlocker'。 如果你在 Bright Data 控制面板创建了不同名称的 Web Unlocker 区域,请在此处指定。
- 'BROWSER_AUTH': 可选,Scraping Browser 代理区域的认证字符串。 只有配置此环境变量后,浏览器控制工具才会启用。 如果不需要浏览器自动化功能,可以忽略此配置。
注意:
- 确保将 '<在此处填入你的 Bright Data API 密钥>' 替换为你实际的 API 密钥。
- 可选的环境变量可以根据你的需求进行配置。
基本使用方法
配置完成后,在 MCP 客户端中选择 "Bright Data" 服务器。客户端会通过标准 MCP 协议与 Bright Data MCP Server 通信。你可以向 LLM 提出问题,例如:
- "Google some movies that are releasing soon in London" (使用 'search_engine' 工具)
- "What's tesla's market cap?" (可能使用 'search_engine' 或 'scrape_as_markdown' 工具)
- "What's the wikipedia article of the day?" (可能使用 'scrape_as_markdown' 工具)
- "What's the 7d weather forecast in New York?" (可能使用 'search_engine' 或 'scrape_as_markdown' 工具)
- "Of the 3 highest paid tech CEOs, how long has their career been?" (可能结合多个工具,如 'search_engine' 和 'scrape_as_markdown',甚至 'scraping_browser_navigate' 等浏览器工具)
LLM 会根据你的问题自动选择合适的工具,并调用 Bright Data MCP Server 获取信息,最终将答案返回给你。
提示:
- 部分工具(特别是网页抓取工具)可能需要较长的执行时间,请在 MCP 客户端中适当调整请求超时时间 (建议设置为 180s 或更高)。
- 浏览器控制工具需要正确配置 'BROWSER_AUTH' 环境变量才能使用。
信息
分类
网页与API