FireCrawl MCP Server 使用说明

项目简介

FireCrawl MCP Server 是一个基于 Model Context Protocol (MCP) 构建的服务器,它扩展了 LLM 应用的能力,使其能够通过 FireCrawl 服务进行网页抓取和信息提取。该服务器提供了一系列工具,允许 LLM 客户端执行网页内容抓取、批量抓取、网页搜索、网站爬取和数据智能提取等任务,从而获取丰富的网络上下文信息。

主要功能点

  • 网页抓取 (Scrape): 从指定 URL 抓取网页内容,支持多种格式如 Markdown、HTML 和纯文本,并可配置只抓取主要内容。
  • 批量抓取 (Batch Scrape): 高效地批量抓取多个 URL 的内容,支持异步处理和状态查询。
  • 网页搜索 (Search): 执行网页搜索并返回搜索结果,可以选择抓取搜索结果页面的内容。
  • 网站爬取 (Crawl): 异步爬取整个网站,可设置爬取深度和页面数量限制。
  • 数据智能提取 (Extract): 利用 LLM 从网页中提取结构化数据,支持自定义 Prompt 和 Schema。
  • 深度研究 (Deep Research): 通过多轮爬取、搜索和AI分析,对指定查询进行深入研究。
  • URL发现 (Map): 从指定 URL 开始发现网站的链接,支持 Sitemap 和 HTML 链接解析。
  • 灵活配置: 支持通过环境变量配置 FireCrawl API 密钥、API URL、重试策略和信用额度监控等。
  • 详细日志: 提供全面的日志记录,包括操作状态、性能指标、信用额度使用情况和错误信息。

安装步骤

  1. 安装 Node.js 和 npm: 确保你的系统已安装 Node.js 和 npm。
  2. 安装 FireCrawl MCP Server:
    • 使用 npm 全局安装 'firecrawl-mcp':
      npm install -g firecrawl-mcp
    • 或者使用 npx 直接运行 (无需全局安装):
      npx -y firecrawl-mcp
  3. 配置 FireCrawl API 密钥:
    • 获取 FireCrawl API 密钥 (如果使用 FireCrawl 云服务)。
    • 设置环境变量 'FIRECRAWL_API_KEY' 为你的 API 密钥。例如:
      export FIRECRAWL_API_KEY=fc-YOUR_API_KEY
      或者,对于 npx 运行:
      env FIRECRAWL_API_KEY=fc-YOUR_API_KEY npx -y firecrawl-mcp
  4. (可选)配置自托管 FireCrawl 实例:
    • 如果使用自托管的 FireCrawl 实例,设置环境变量 'FIRECRAWL_API_URL' 为你的实例 URL。例如:
      export FIRECRAWL_API_URL=https://firecrawl.your-domain.com

服务器配置

要将 FireCrawl MCP Server 集成到 MCP 客户端(例如 Cursor 或 Claude Desktop),你需要提供以下服务器配置信息。这些信息通常配置在 MCP 客户端的设置中,用于指定如何启动和连接到 MCP 服务器。

以下是通用的 JSON 配置格式,你需要根据你的 MCP 客户端的要求进行配置:

{
  "serverName": "firecrawl-mcp",  // MCP 服务器名称,可以自定义
  "command": "npx",             // 启动 MCP 服务器的命令,这里使用 npx
  "args": ["-y", "firecrawl-mcp"], // 命令参数,-y 参数用于 npx 自动确认安装
  "env": {                       // 环境变量配置
    "FIRECRAWL_API_KEY": "YOUR_API_KEY_HERE" // 你的 FireCrawl API 密钥 (必填,如果使用云服务)
    // "FIRECRAWL_API_URL": "YOUR_API_URL_HERE" // (可选)自托管 FireCrawl 实例的 URL
    // 其他可选配置环境变量,例如重试和信用额度监控相关的环境变量
  }
}

配置参数说明:

  • '"serverName"': 为你的 MCP 服务器指定一个易于识别的名称。
  • '"command"': 指定用于启动服务器的可执行命令。这里 '"npx"' 用于运行本地安装或临时下载的 npm 包。
  • '"args"': 一个字符串数组,包含传递给 '"command"' 的参数。'["-y", "firecrawl-mcp"]' 表示运行 'firecrawl-mcp' 包,'-y' 参数在使用 'npx' 时自动确认安装,无需手动输入 'yes'。
  • '"env"': 一个 JSON 对象,用于设置 MCP 服务器运行所需的环境变量。
    • '"FIRECRAWL_API_KEY"': 必需 (当使用 FireCrawl 云 API 时)。替换 '"YOUR_API_KEY_HERE"' 为你的实际 FireCrawl API 密钥。
    • '"FIRECRAWL_API_URL"': 可选 (当使用自托管 FireCrawl 实例时)。设置为你的自托管 FireCrawl 实例的 API URL。
    • 其他环境变量: 你可以根据需要添加其他可选的环境变量,例如 'FIRECRAWL_RETRY_MAX_ATTEMPTS'、'FIRECRAWL_CREDIT_WARNING_THRESHOLD' 等,以自定义服务器的行为。

基本使用方法

  1. 启动 MCP 服务器: 根据你的安装方式,在终端中运行 'firecrawl-mcp' 或使用 npx 命令。确保已设置必要的环境变量(如 'FIRECRAWL_API_KEY')。
  2. 在 MCP 客户端中配置服务器: 将上面提供的 JSON 配置信息添加到你的 MCP 客户端(如 Cursor 或 Claude Desktop)的 MCP 服务器设置中。
  3. 在 LLM 中调用工具: 在 LLM 客户端中,你可以通过工具名称(例如 'firecrawl_scrape', 'firecrawl_search' 等)来调用 FireCrawl MCP Server 提供的功能。查阅工具列表和参数说明,以便正确使用。 例如,你可以指示 LLM "使用 'firecrawl_scrape' 工具抓取 [URL]".

注意:

  • 确保 'FIRECRAWL_API_KEY' 已正确配置,特别是当使用 FireCrawl 云服务时。
  • 可以根据需要配置可选的环境变量来自定义服务器行为。
  • 详细的工具参数和使用示例请参考仓库的 README 文档。

信息

分类

网页与API