项目简介
Firecrawl 上下文服务是一个基于 Model Context Protocol (MCP) 构建的后端服务,旨在为大型语言模型(LLM)客户端提供标准化的上下文信息和功能。它通过集成 Firecrawl,赋予 LLM 强大的网页数据获取能力,包括网页抓取、网站映射、全站爬行、网页搜索和结构化数据提取等。通过标准化的 JSON-RPC 协议通信,Firecrawl MCP 服务可以安全、可扩展地为 LLM 应用提供丰富的网络上下文。
主要功能点
- 网页抓取 (Scrape):从单个或多个指定网页中高效提取内容,支持多种格式输出(Markdown、HTML等),并可配置是否只提取主要内容。
- 网站映射 (Map):扫描指定网站以发现其所有可访问的URL,帮助LLM了解网站结构。
- 网络搜索 (Search):执行网络搜索,并可选择从搜索结果页中抓取内容,为LLM提供最相关的网络信息。
- 全站爬行 (Crawl):启动网站爬虫任务,从一个网站的多个相关页面提取内容,支持深度和页面数量限制,适用于需要全面覆盖特定网站内容的场景。
- 数据提取 (Extract):利用LLM能力从网页中提取结构化数据,通过自定义提示词和JSON Schema定义所需数据的格式。
- 任务状态查询:提供查询批量抓取和爬虫任务状态的功能。
- 会话管理与认证:支持基于API密钥的客户端认证和会话管理。
- 多种传输协议:支持 StdIO、HTTP Stream 等多种传输方式,方便与各种 MCP 客户端集成。
- 健壮性:内置自动重试、速率限制处理、信用额度监控和错误处理机制。
安装步骤
本服务器推荐使用 'npx' 快速启动,无需手动安装。
-
获取 Firecrawl API 密钥: 访问 https://www.firecrawl.dev/app/api-keys 创建账户并获取您的 Firecrawl API 密钥。
-
通过 npx 运行: 在命令行中执行以下命令来启动服务器,并将 'YOUR_API_KEY' 替换为您的实际 Firecrawl API 密钥:
env FIRECRAWL_API_KEY=fc-YOUR_API_KEY npx -y firecrawl-mcp如果您想以 HTTP Stream 模式启动(例如用于云服务或本地 SSE 模式),可以添加 'HTTP_STREAMABLE_SERVER=true' 环境变量:
env HTTP_STREAMABLE_SERVER=true FIRECRAWL_API_KEY=fc-YOUR_API_KEY npx -y firecrawl-mcp默认情况下,服务器将在 'http://localhost:3000/mcp' 地址提供服务。
服务器配置(面向 MCP 客户端)
MCP 客户端(如 Cursor、VS Code、Claude Desktop 等)需要配置本 Firecrawl MCP 服务器的启动方式和参数,以便与其建立连接并调用其提供的工具。
通常,您需要在 MCP 客户端的设置界面或配置文件中添加一个 MCP 服务器配置项,例如:
- 服务器名称:您可以指定一个易于识别的名称,如 "firecrawl-mcp"。
- 启动命令 (Command):指定用于启动本服务器的命令,例如 'npx'。
- 启动参数 (Args):指定传递给启动命令的参数,例如 '-y firecrawl-mcp'。
- 环境变量 (Env):配置服务器运行时所需的特定环境变量,最关键的是 'FIRECRAWL_API_KEY',用于认证 Firecrawl 服务。您可能还需要配置 'FIRECRAWL_API_URL'(用于自托管实例)、重试策略和信用额度监控阈值等。
请务必将 'FIRECRAWL_API_KEY' 替换为您的 Firecrawl API 密钥。具体的配置格式和步骤,请参考您所使用的 MCP 客户端的官方文档。
基本使用方法
一旦 Firecrawl MCP 服务器在您的 MCP 客户端中配置并运行,LLM 客户端(通常是智能体或助手)就可以根据其需求自动或通过您的指示调用服务器提供的工具。
例如:
- 当您向 LLM 提出“获取某个网页的内容”时,LLM 可能会调用 'firecrawl_scrape' 工具。
- 当您要求 LLM“查找关于某个主题的最新信息”时,LLM 可能会调用 'firecrawl_search' 工具。
- 当您需要 LLM“从一组产品页面中提取产品名称和价格”时,LLM 可能会调用 'firecrawl_extract' 工具。
您可以通过向 LLM 明确描述您的网页抓取、搜索或内容提取需求,引导它使用 Firecrawl MCP 服务器提供的相应工具。
信息
分类
网页与API