使用说明

项目简介

MCP Smart Crawler 是一个实现了 Model Context Protocol (MCP) 的服务器，专注于抓取和解析小红书（小红书/Xiaohongshu）的帖子内容。它利用 Playwright 浏览器自动化工具，能够从分享链接中提取帖子元数据（如标题、描述、图片）并下载视频和图片资源。此服务器旨在为大型语言模型（LLM）提供结构化的小红书帖子信息，以便LLM能够理解和处理小红书的内容。

主要功能点

小红书内容抓取：通过分享链接，自动访问并抓取小红书帖子页面。
元数据提取：提取帖子的标题、描述和图片链接等关键信息。
多媒体资源下载：支持下载帖子中的视频和图片资源到本地指定目录。
MCP协议支持：遵循 MCP 协议标准，可以与任何兼容 MCP 协议的客户端配合使用。
可配置下载目录：允许用户自定义设置下载资源的保存路径。

安装步骤

安装 Node.js 和 npm：确保您的系统已安装 Node.js 和 npm (Node 包管理器)。您可以从 Node.js 官网下载并安装。

克隆仓库：使用 Git 克隆 'mcp-smart-crawler' 仓库到本地。

git clone https://github.com/loo-y/mcp-smart-crawler.git
cd mcp-smart-crawler

安装依赖：在仓库根目录下运行以下命令安装项目依赖。
```
npm install
```

服务器配置

要将 'mcp-smart-crawler' 服务器配置到您的 MCP 客户端，您需要在客户端的 MCP 服务器设置中添加以下 JSON 配置。请根据您的实际需求调整 'command' 和 'args' 字段。

{
  "mcpServers": {
    "mcp-smart-crawler": {
      "command": "npx",
      "args": [
        "-y",
        "mcp-smart-crawler",
        "--download-folder",  // (可选) 指定下载文件夹路径
        "c:\\downloads"      // (可选) 下载文件夹的具体路径，例如：c:\downloads，不指定则默认保存在服务器脚本所在目录下的 downloads 文件夹
      ]
    }
  }
}

配置参数说明:

'server name': 'mcp-smart-crawler' - 服务器名称，客户端用此名称来标识和调用。
'command': 'npx' - 用于启动服务器的命令，这里使用 'npx' 来运行本地安装的 npm 包。
'args': 启动参数数组，包括：
- '-y': 'npx' 的参数，表示自动确认执行 npm 包。
- 'mcp-smart-crawler': 要执行的 npm 包名称，对应 'package.json' 中的 'name' 字段和 'bin' 配置。
- '--download-folder': 可选参数，用于指定下载文件保存的文件夹。
- 'c:\downloads': '--download-folder' 参数的值，即具体的下载文件夹路径。您可以根据需要修改为您本地的路径。

基本使用方法

配置完成后，您的 MCP 客户端应该能够连接到 'mcp-smart-crawler' 服务器。您可以通过客户端向服务器发送指令，例如，让 LLM 客户端分析小红书帖子链接。

示例对话:

在 MCP 客户端中，您可以发送类似以下的指令给 LLM：

帮我查看这条小红书的内容和图片，并告诉我图片里面是什么
59 XXX发布了一篇小红书笔记，快来看吧！ 😆 OfTOBst2PsxctaX 😆 http://xhslink.com/a/xxaabbcczz，复制本条信息，打开【小红书】App查看精彩内容！

服务器接收到包含小红书分享链接的指令后，会自动抓取链接内容，提取信息，并将结果返回给客户端，客户端再呈现给 LLM。

注意:

首次运行服务器时，会自动检查并安装 Playwright Chromium 浏览器，请确保网络连接正常。
下载文件夹路径请使用绝对路径，或者不指定使用默认路径。
本服务器主要用于演示和学习 MCP 服务器的开发，可能需要根据实际使用场景进行调整和优化。

小红书内容抓取MCP服务器