FireCrawl MCP Server 使用说明
项目简介
FireCrawl MCP Server 是一个基于 Model Context Protocol (MCP) 构建的服务器,它扩展了 LLM 应用的能力,使其能够通过 FireCrawl 服务进行网页抓取和信息提取。该服务器提供了一系列工具,允许 LLM 客户端执行网页内容抓取、批量抓取、网页搜索、网站爬取和数据智能提取等任务,从而获取丰富的网络上下文信息。
主要功能点
- 网页抓取 (Scrape): 从指定 URL 抓取网页内容,支持多种格式如 Markdown、HTML 和纯文本,并可配置只抓取主要内容。
- 批量抓取 (Batch Scrape): 高效地批量抓取多个 URL 的内容,支持异步处理和状态查询。
- 网页搜索 (Search): 执行网页搜索并返回搜索结果,可以选择抓取搜索结果页面的内容。
- 网站爬取 (Crawl): 异步爬取整个网站,可设置爬取深度和页面数量限制。
- 数据智能提取 (Extract): 利用 LLM 从网页中提取结构化数据,支持自定义 Prompt 和 Schema。
- 深度研究 (Deep Research): 通过多轮爬取、搜索和AI分析,对指定查询进行深入研究。
- URL发现 (Map): 从指定 URL 开始发现网站的链接,支持 Sitemap 和 HTML 链接解析。
- 灵活配置: 支持通过环境变量配置 FireCrawl API 密钥、API URL、重试策略和信用额度监控等。
- 详细日志: 提供全面的日志记录,包括操作状态、性能指标、信用额度使用情况和错误信息。
安装步骤
- 安装 Node.js 和 npm: 确保你的系统已安装 Node.js 和 npm。
- 安装 FireCrawl MCP Server:
- 使用 npm 全局安装 'firecrawl-mcp':
npm install -g firecrawl-mcp - 或者使用 npx 直接运行 (无需全局安装):
npx -y firecrawl-mcp
- 使用 npm 全局安装 'firecrawl-mcp':
- 配置 FireCrawl API 密钥:
- 获取 FireCrawl API 密钥 (如果使用 FireCrawl 云服务)。
- 设置环境变量 'FIRECRAWL_API_KEY' 为你的 API 密钥。例如:
或者,对于 npx 运行:export FIRECRAWL_API_KEY=fc-YOUR_API_KEYenv FIRECRAWL_API_KEY=fc-YOUR_API_KEY npx -y firecrawl-mcp
- (可选)配置自托管 FireCrawl 实例:
- 如果使用自托管的 FireCrawl 实例,设置环境变量 'FIRECRAWL_API_URL' 为你的实例 URL。例如:
export FIRECRAWL_API_URL=https://firecrawl.your-domain.com
- 如果使用自托管的 FireCrawl 实例,设置环境变量 'FIRECRAWL_API_URL' 为你的实例 URL。例如:
服务器配置
要将 FireCrawl MCP Server 集成到 MCP 客户端(例如 Cursor 或 Claude Desktop),你需要提供以下服务器配置信息。这些信息通常配置在 MCP 客户端的设置中,用于指定如何启动和连接到 MCP 服务器。
以下是通用的 JSON 配置格式,你需要根据你的 MCP 客户端的要求进行配置:
{ "serverName": "firecrawl-mcp", // MCP 服务器名称,可以自定义 "command": "npx", // 启动 MCP 服务器的命令,这里使用 npx "args": ["-y", "firecrawl-mcp"], // 命令参数,-y 参数用于 npx 自动确认安装 "env": { // 环境变量配置 "FIRECRAWL_API_KEY": "YOUR_API_KEY_HERE" // 你的 FireCrawl API 密钥 (必填,如果使用云服务) // "FIRECRAWL_API_URL": "YOUR_API_URL_HERE" // (可选)自托管 FireCrawl 实例的 URL // 其他可选配置环境变量,例如重试和信用额度监控相关的环境变量 } }
配置参数说明:
- '"serverName"': 为你的 MCP 服务器指定一个易于识别的名称。
- '"command"': 指定用于启动服务器的可执行命令。这里 '"npx"' 用于运行本地安装或临时下载的 npm 包。
- '"args"': 一个字符串数组,包含传递给 '"command"' 的参数。'["-y", "firecrawl-mcp"]' 表示运行 'firecrawl-mcp' 包,'-y' 参数在使用 'npx' 时自动确认安装,无需手动输入 'yes'。
- '"env"': 一个 JSON 对象,用于设置 MCP 服务器运行所需的环境变量。
- '"FIRECRAWL_API_KEY"': 必需 (当使用 FireCrawl 云 API 时)。替换 '"YOUR_API_KEY_HERE"' 为你的实际 FireCrawl API 密钥。
- '"FIRECRAWL_API_URL"': 可选 (当使用自托管 FireCrawl 实例时)。设置为你的自托管 FireCrawl 实例的 API URL。
- 其他环境变量: 你可以根据需要添加其他可选的环境变量,例如 'FIRECRAWL_RETRY_MAX_ATTEMPTS'、'FIRECRAWL_CREDIT_WARNING_THRESHOLD' 等,以自定义服务器的行为。
基本使用方法
- 启动 MCP 服务器: 根据你的安装方式,在终端中运行 'firecrawl-mcp' 或使用 npx 命令。确保已设置必要的环境变量(如 'FIRECRAWL_API_KEY')。
- 在 MCP 客户端中配置服务器: 将上面提供的 JSON 配置信息添加到你的 MCP 客户端(如 Cursor 或 Claude Desktop)的 MCP 服务器设置中。
- 在 LLM 中调用工具: 在 LLM 客户端中,你可以通过工具名称(例如 'firecrawl_scrape', 'firecrawl_search' 等)来调用 FireCrawl MCP Server 提供的功能。查阅工具列表和参数说明,以便正确使用。 例如,你可以指示 LLM "使用 'firecrawl_scrape' 工具抓取 [URL]".
注意:
- 确保 'FIRECRAWL_API_KEY' 已正确配置,特别是当使用 FireCrawl 云服务时。
- 可以根据需要配置可选的环境变量来自定义服务器行为。
- 详细的工具参数和使用示例请参考仓库的 README 文档。
信息
分类
网页与API