使用说明

项目简介

本项目是一个基于 Model Context Protocol (MCP) 构建的服务器，旨在为 Cursor AI 代码编辑器提供增强的网页抓取能力。通过集成 Camoufox 隐身浏览器和 Scrapy 爬虫框架，该 MCP 服务器提供了一系列工具，帮助用户在 Cursor AI 中更高效地分析网页结构、生成 XPath 表达式以及创建定制化的网络爬虫。

主要功能点

网页内容抓取: 使用 Camoufox 隐身浏览器安全可靠地抓取网页 HTML 内容，绕过一定的反爬虫机制。
XPath 表达式生成: 辅助用户在 Cursor AI 中快速生成用于网页元素定位的 XPath 表达式，简化数据提取过程。
Scraper 代码生成: 根据用户需求和预设模板，自动生成可运行的 Scrapy 或 Camoufox 爬虫代码框架，加速爬虫开发。
CSS 清理: 去除 HTML 中的 CSS 样式代码，简化 HTML 结构，方便后续分析和 XPath 定位。

安装步骤

克隆仓库

git clone https://github.com/TheWebScrapingClub/AI-Cursor-Scraping-Assistant.git
cd AI-Cursor-Scraping-Assistant

安装依赖

pip install mcp camoufox scrapy

获取 Camoufox 浏览器 (如果需要使用 Camoufox 功能)

python -m camoufox fetch

服务器配置

MCP 客户端（如 Cursor AI）需要配置以下信息以连接到本 MCP 服务器。配置信息为 JSON 格式，请复制以下代码到 MCP 客户端的服务器配置中。

{
  "serverName": "Scrapy XPath Generator",  // MCP 服务器名称，可自定义
  "command": "python",                   // 启动 MCP 服务器的命令
  "args": ["MCPfiles/xpath_server.py"],   // 启动命令的参数，指向服务器脚本
  "transport": "stdio"                    // 使用 stdio 作为传输协议
}

配置参数说明:

'serverName': 服务器在 MCP 客户端中显示的名称，可以自定义。
'command': 运行服务器端代码的命令，这里使用 'python'。
'args': 传递给 'command' 的参数，指定 MCP 服务器脚本的路径 'MCPfiles/xpath_server.py'。请确保路径正确。
'transport': MCP 使用的传输协议，本项目使用 'stdio' (标准输入输出)。

注意:

请确保你的 Python 环境已安装，并且 'python' 命令可以正确执行。
如果 'xpath_server.py' 中 'CAMOUFOX_FILE_PATH' 变量配置了 Camoufox 模板文件的路径，请根据你的实际情况更新该路径。

基本使用方法

启动 MCP 服务器: 在终端中，进入 'AI-Cursor-Scraping-Assistant/MCPfiles' 目录，运行命令 'python xpath_server.py' 启动 MCP 服务器。
配置 Cursor AI: 打开 Cursor AI，在设置或 MCP 面板中配置上述服务器信息，连接到 MCP 服务器。
在 Cursor AI 中使用: 在 Cursor AI 中，你可以通过自然语言指令，例如：
- 让 Cursor AI 使用 'fetch_page_content' 工具抓取指定网页的内容并保存。
- 使用 'generate_xpaths' 工具，根据提供的网页 HTML 和字段模板，生成 XPath 表达式。
- 使用 'write_camoufox_scraper' 工具，根据模板和 URL，生成 Camoufox 爬虫代码。
- 使用 'strip_css' 工具，清理 HTML 文件中的 CSS 样式。
具体的使用方式可以参考仓库 'README.md' 文件中 “Usage” 和 “Advanced Usage” 部分的说明，结合 Cursor AI 的提示进行操作。

关键词