使用说明

项目简介

Firecrawl MCP Server 是一个基于 Model Context Protocol (MCP) 的服务器实现,它集成了 Firecrawl 网页抓取服务,为 LLM 客户端提供强大的网络数据获取能力。通过标准化的 MCP 协议,LLM 应用可以安全、便捷地调用 Firecrawl 提供的各种网页数据处理工具。

主要功能点

  • 网页内容抓取 (scrape):从指定 URL 抓取网页内容,支持多种格式如 Markdown, HTML 等,并可进行主内容提取、标签过滤等高级设置。
  • 批量网页抓取 (batch scrape):高效地批量抓取多个 URL 的内容,内置速率限制和并行处理,适用于大规模数据采集任务。
  • 网页数据提取 (extract):利用 LLM 的自然语言处理能力,从网页中提取结构化信息,支持自定义 Prompt 和 Schema,可用于产品信息、新闻内容等结构化数据挖掘。
  • 网络搜索 (search):执行网络搜索并获取搜索结果,可以选择抓取搜索结果页面的内容,为 LLM 提供最新的网络信息。
  • 异步爬虫 (crawl):启动异步网页爬虫任务,支持设置爬取深度、URL 过滤规则等,可用于网站信息监控和内容索引。
  • 任务状态查询:查询批量抓取和爬虫任务的状态,方便用户跟踪任务进度和结果。

安装步骤

  1. 前提条件:确保已安装 Node.js 和 npm (Node.js 包管理器)。
  2. 全局安装 'firecrawl-mcp' npm 包:
    npm install -g firecrawl-mcp

服务器配置

在 MCP 客户端(如 Cursor, Windsurf, Claude Desktop)中配置 Firecrawl MCP Server,需要提供以下信息。以下为 JSON 格式的配置示例,您需要将此配置添加到 MCP 客户端的服务器列表中。

{
  "server name": "firecrawl-mcp",  // MCP 服务器的名称,可以自定义
  "type": "command",             // 服务器类型,固定为 "command"
  "command": "npx",              // 启动命令,使用 npx 运行 npm 包
  "args": ["-y", "firecrawl-mcp"], // 命令参数,"-y" 自动确认安装,"firecrawl-mcp" 为要执行的包名
  "env": {
    "FIRECRAWL_API_KEY": "YOUR_API_KEY_HERE"  // 您的 FireCrawl API 密钥 (**必需**)
    // "FIRECRAWL_API_URL": "YOUR_API_URL_HERE" // (可选) 如果使用自托管 FireCrawl 实例,请配置此项
  }
}

配置参数说明:

  • 'server name': 为 MCP 服务器自定义名称,例如 'firecrawl-mcp' 或 'web-scraper'。
  • 'type': 必须设置为 'command',表示通过命令行启动服务器。
  • 'command': 设置为 'npx',用于运行 npm 包。
  • 'args': 设置为 '["-y", "firecrawl-mcp"]','-y' 参数用于在使用 'npx' 运行时自动确认安装 'firecrawl-mcp' 包(如果尚未安装)。'firecrawl-mcp' 是要运行的 npm 包名称,即 Firecrawl MCP Server 的入口。
  • 'env': 环境变量配置,用于传递 Firecrawl API 密钥等敏感信息。
    • 'FIRECRAWL_API_KEY': 必需。您需要拥有 Firecrawl 服务的 API 密钥才能使用此 MCP 服务器。请将 'YOUR_API_KEY_HERE' 替换为您实际的 API 密钥。如果您还没有 API 密钥,请访问 Firecrawl 官网 了解如何获取。
    • 'FIRECRAWL_API_URL': 可选。如果您使用的是自托管的 Firecrawl 实例,而不是默认的云服务,请设置此环境变量为您的 Firecrawl 实例的 API URL。如果留空,则默认使用 Firecrawl 云服务,此时 'FIRECRAWL_API_KEY' 为必需。

注意:

  • 请务必将 'YOUR_API_KEY_HERE' 替换为您的 真实 Firecrawl API 密钥
  • 如果您使用的是自托管 Firecrawl 实例,请配置 'FIRECRAWL_API_URL' 环境变量。

基本使用方法

  1. 启动 MCP 客户端:打开并运行您选择的 MCP 客户端,例如 Cursor, Windsurf 或 Claude Desktop。
  2. 配置 MCP 服务器:在 MCP 客户端的设置中,找到 MCP 服务器配置选项(通常在 "Features" 或 "扩展" 菜单下),点击 "添加新的 MCP 服务器" 或类似按钮。然后,将上面提供的 JSON 配置信息粘贴或填写到相应的配置项中。
  3. 刷新服务器列表:添加配置后,刷新 MCP 服务器列表,确保 Firecrawl MCP Server 已成功添加到列表中。
  4. 在 LLM 中使用:在 LLM 对话中,您可以自然地描述您的网页抓取、数据提取或网络搜索需求。MCP 客户端 (如 Composer Agent in Cursor) 会自动识别并调用 Firecrawl MCP Server 提供的工具来满足您的需求。您也可以通过特定的指令或操作(取决于您的 MCP 客户端)显式调用 Firecrawl 工具。

示例使用场景:

  • Cursor 编辑器: 使用 'Command+L' (Mac) 或 'Ctrl+L' (Windows/Linux) 打开 Composer,选择 "Agent",然后在输入框中输入类似 "scrape the content of https://example.com and summarize it" 的指令。Cursor Agent 会自动使用 Firecrawl MCP Server 抓取网页内容并提供给 LLM 进行后续处理。
  • Windsurf 或 Claude Desktop: 按照各自客户端的文档,配置 Firecrawl MCP Server 后,即可在对话中使用网络数据相关的指令,客户端会自动调用 Firecrawl MCP Server 完成任务。

通过 Firecrawl MCP Server,您可以轻松地将强大的网页数据处理能力集成到您的 LLM 应用中,提升 LLM 在处理网络信息方面的能力。

信息

分类

网页与API