使用说明

项目简介

本项目是一个基于 Model Context Protocol (MCP) 构建的服务器,旨在为 Cursor AI 代码编辑器提供增强的网页抓取能力。通过集成 Camoufox 隐身浏览器和 Scrapy 爬虫框架,该 MCP 服务器提供了一系列工具,帮助用户在 Cursor AI 中更高效地分析网页结构、生成 XPath 表达式以及创建定制化的网络爬虫。

主要功能点

  • 网页内容抓取: 使用 Camoufox 隐身浏览器安全可靠地抓取网页 HTML 内容,绕过一定的反爬虫机制。
  • XPath 表达式生成: 辅助用户在 Cursor AI 中快速生成用于网页元素定位的 XPath 表达式,简化数据提取过程。
  • Scraper 代码生成: 根据用户需求和预设模板,自动生成可运行的 Scrapy 或 Camoufox 爬虫代码框架,加速爬虫开发。
  • CSS 清理: 去除 HTML 中的 CSS 样式代码,简化 HTML 结构,方便后续分析和 XPath 定位。

安装步骤

  1. 克隆仓库
    git clone https://github.com/TheWebScrapingClub/AI-Cursor-Scraping-Assistant.git
    cd AI-Cursor-Scraping-Assistant
  2. 安装依赖
    pip install mcp camoufox scrapy
  3. 获取 Camoufox 浏览器 (如果需要使用 Camoufox 功能)
    python -m camoufox fetch

服务器配置

MCP 客户端(如 Cursor AI)需要配置以下信息以连接到本 MCP 服务器。配置信息为 JSON 格式,请复制以下代码到 MCP 客户端的服务器配置中。

{
  "serverName": "Scrapy XPath Generator",  // MCP 服务器名称,可自定义
  "command": "python",                   // 启动 MCP 服务器的命令
  "args": ["MCPfiles/xpath_server.py"],   // 启动命令的参数,指向服务器脚本
  "transport": "stdio"                    // 使用 stdio 作为传输协议
}

配置参数说明:

  • 'serverName': 服务器在 MCP 客户端中显示的名称,可以自定义。
  • 'command': 运行服务器端代码的命令,这里使用 'python'。
  • 'args': 传递给 'command' 的参数,指定 MCP 服务器脚本的路径 'MCPfiles/xpath_server.py'。请确保路径正确。
  • 'transport': MCP 使用的传输协议,本项目使用 'stdio' (标准输入输出)。

注意:

  • 请确保你的 Python 环境已安装,并且 'python' 命令可以正确执行。
  • 如果 'xpath_server.py' 中 'CAMOUFOX_FILE_PATH' 变量配置了 Camoufox 模板文件的路径,请根据你的实际情况更新该路径。

基本使用方法

  1. 启动 MCP 服务器: 在终端中,进入 'AI-Cursor-Scraping-Assistant/MCPfiles' 目录,运行命令 'python xpath_server.py' 启动 MCP 服务器。

  2. 配置 Cursor AI: 打开 Cursor AI,在设置或 MCP 面板中配置上述服务器信息,连接到 MCP 服务器。

  3. 在 Cursor AI 中使用: 在 Cursor AI 中,你可以通过自然语言指令,例如:

    • 让 Cursor AI 使用 'fetch_page_content' 工具抓取指定网页的内容并保存。
    • 使用 'generate_xpaths' 工具,根据提供的网页 HTML 和字段模板,生成 XPath 表达式。
    • 使用 'write_camoufox_scraper' 工具,根据模板和 URL,生成 Camoufox 爬虫代码。
    • 使用 'strip_css' 工具,清理 HTML 文件中的 CSS 样式。

    具体的使用方式可以参考仓库 'README.md' 文件中 “Usage” 和 “Advanced Usage” 部分的说明,结合 Cursor AI 的提示进行操作。

信息

分类

网页与API