使用说明

项目简介

MCP Smart Crawler 是一个实现了 Model Context Protocol (MCP) 的服务器,专注于抓取和解析小红书(小红书/Xiaohongshu)的帖子内容。它利用 Playwright 浏览器自动化工具,能够从分享链接中提取帖子元数据(如标题、描述、图片)并下载视频和图片资源。此服务器旨在为大型语言模型(LLM)提供结构化的小红书帖子信息,以便LLM能够理解和处理小红书的内容。

主要功能点

  • 小红书内容抓取:通过分享链接,自动访问并抓取小红书帖子页面。
  • 元数据提取:提取帖子的标题、描述和图片链接等关键信息。
  • 多媒体资源下载:支持下载帖子中的视频和图片资源到本地指定目录。
  • MCP协议支持:遵循 MCP 协议标准,可以与任何兼容 MCP 协议的客户端配合使用。
  • 可配置下载目录:允许用户自定义设置下载资源的保存路径。

安装步骤

  1. 安装 Node.js 和 npm:确保您的系统已安装 Node.js 和 npm (Node 包管理器)。您可以从 Node.js 官网 下载并安装。
  2. 克隆仓库:使用 Git 克隆 'mcp-smart-crawler' 仓库到本地。
    git clone https://github.com/loo-y/mcp-smart-crawler.git
    cd mcp-smart-crawler
  3. 安装依赖:在仓库根目录下运行以下命令安装项目依赖。
    npm install

服务器配置

要将 'mcp-smart-crawler' 服务器配置到您的 MCP 客户端,您需要在客户端的 MCP 服务器设置中添加以下 JSON 配置。请根据您的实际需求调整 'command' 和 'args' 字段。

{
  "mcpServers": {
    "mcp-smart-crawler": {
      "command": "npx",
      "args": [
        "-y",
        "mcp-smart-crawler",
        "--download-folder",  // (可选) 指定下载文件夹路径
        "c:\\downloads"      // (可选) 下载文件夹的具体路径,例如:c:\downloads,不指定则默认保存在服务器脚本所在目录下的 downloads 文件夹
      ]
    }
  }
}

配置参数说明:

  • 'server name': 'mcp-smart-crawler' - 服务器名称,客户端用此名称来标识和调用。
  • 'command': 'npx' - 用于启动服务器的命令,这里使用 'npx' 来运行本地安装的 npm 包。
  • 'args': 启动参数数组,包括:
    • '-y': 'npx' 的参数,表示自动确认执行 npm 包。
    • 'mcp-smart-crawler': 要执行的 npm 包名称,对应 'package.json' 中的 'name' 字段和 'bin' 配置。
    • '--download-folder': 可选参数,用于指定下载文件保存的文件夹。
    • 'c:\downloads': '--download-folder' 参数的值,即具体的下载文件夹路径。您可以根据需要修改为您本地的路径。

基本使用方法

配置完成后,您的 MCP 客户端应该能够连接到 'mcp-smart-crawler' 服务器。您可以通过客户端向服务器发送指令,例如,让 LLM 客户端分析小红书帖子链接。

示例对话:

在 MCP 客户端中,您可以发送类似以下的指令给 LLM:

帮我查看这条小红书的内容和图片,并告诉我图片里面是什么
59 XXX发布了一篇小红书笔记,快来看吧! 😆 OfTOBst2PsxctaX 😆 http://xhslink.com/a/xxaabbcczz,复制本条信息,打开【小红书】App查看精彩内容!

服务器接收到包含小红书分享链接的指令后,会自动抓取链接内容,提取信息,并将结果返回给客户端,客户端再呈现给 LLM。

注意:

  • 首次运行服务器时,会自动检查并安装 Playwright Chromium 浏览器,请确保网络连接正常。
  • 下载文件夹路径请使用绝对路径,或者不指定使用默认路径。
  • 本服务器主要用于演示和学习 MCP 服务器的开发,可能需要根据实际使用场景进行调整和优化。

信息

分类

网页与API