使用说明
项目简介
FireCrawl MCP服务器是一个基于 Model Context Protocol (MCP) 的后端服务,它集成了 FireCrawl 强大的网页抓取能力,为大型语言模型 (LLM) 客户端提供结构化的网页内容抓取工具。通过此服务器,LLM 应用可以方便地获取网页信息,用于知识检索、信息整合等多种用途。
主要功能点
- 高级网页抓取: 利用 FireCrawl 提供的能力,能够处理 JavaScript 动态渲染的网页,抓取包括 HTML, Markdown, 纯文本,甚至网页截图等多种格式的内容。
- 灵活的抓取配置: 支持自定义抓取选项,例如只抓取主要内容区域、包含或排除特定的 HTML 标签、设置等待时间等,满足不同的抓取需求。
- 批量处理: 支持批量抓取多个 URL,并提供状态查询接口,方便高效地处理大规模网页抓取任务。
- URL 发现: 提供网站地图 (sitemap) 和 HTML 链接抓取工具,帮助 LLM 应用发现目标网站的结构和内容。
- 开箱即用: 作为一个 MCP 服务器,可以与任何兼容 MCP 协议的 LLM 客户端(例如 Claude Desktop)无缝集成。
安装步骤
- 确保已安装 Node.js 和 npm。
- 打开终端,运行以下命令安装 'mcp-server-firecrawl':
npm install mcp-server-firecrawl
服务器配置
要将 FireCrawl MCP 服务器添加到 MCP 客户端(例如 Claude Desktop),您需要配置客户端的配置文件。以下是一个 'claude_desktop_config.json' 的配置示例,展示了如何配置 FireCrawl MCP 服务器:
{ "mcpServers": { "mcp-server-firecrawl": { "command": "npx", // 启动命令,通常使用 npx 来运行本地安装的 npm 包 "args": ["-y", "mcp-server-firecrawl"], // 启动参数,-y 表示自动确认安装,mcp-server-firecrawl 是要执行的包名 "env": { "FIRE_CRAWL_API_KEY": "YOUR_API_KEY_HERE" // 环境变量,用于配置 FireCrawl API 密钥,请替换为您的实际密钥 } } } }
配置参数说明:
- 'server name': 'mcp-server-firecrawl' (服务器名称,可以自定义)
- 'command': 'npx' (Node.js 包执行器,用于运行 npm 包)
- 'args': '["-y", "mcp-server-firecrawl"]' (传递给 'npx' 的参数,'-y' 允许自动安装包,'mcp-server-firecrawl' 是要运行的 npm 包名称)
- 'env': '{"FIRE_CRAWL_API_KEY": "YOUR_API_KEY_HERE"}' (环境变量配置,务必替换 'YOUR_API_KEY_HERE' 为您在 FireCrawl 官网 申请的 API 密钥)
获取 FireCrawl API Key:
- 访问 FireCrawl 官网 注册账号。
- 登录后在控制面板 (dashboard) 中生成您的 API Key。
- 将 API Key 填入 'claude_desktop_config.json' 配置文件中的 'YOUR_API_KEY_HERE' 位置。
基本使用方法
配置完成后,MCP 客户端将能够发现并调用 FireCrawl MCP 服务器提供的工具。您可以通过客户端界面或指令,使用以下工具进行网页抓取和相关操作:
- 'fire_crawl_scrape': 抓取单个网页内容。
- 'fire_crawl_batch_scrape': 批量抓取多个网页内容。
- 'fire_crawl_map': 发现网站的 URL 链接。
- 'fire_crawl_crawl': 异步爬取网站内容。
- 'fire_crawl_check_batch_status': 查询批量抓取任务的状态。
- 'fire_crawl_check_crawl_status': 查询网站爬取任务的状态。
具体工具的使用参数和方法,请参考工具的描述信息或输入参数的 schema 定义。您可以在 MCP 客户端中查看这些信息。
注意: 免费的 FireCrawl API Key 有速率限制(每分钟3次请求),超出限制后会有冷却时间。如有更高需求,请考虑升级到付费计划。
信息
分类
网页与API