使用说明
项目简介
本项目是一个基于 Model Context Protocol (MCP) 构建的服务器,旨在为 Cursor AI 代码编辑器提供增强的网页抓取能力。通过集成 Camoufox 隐身浏览器和 Scrapy 爬虫框架,该 MCP 服务器提供了一系列工具,帮助用户在 Cursor AI 中更高效地分析网页结构、生成 XPath 表达式以及创建定制化的网络爬虫。
主要功能点
- 网页内容抓取: 使用 Camoufox 隐身浏览器安全可靠地抓取网页 HTML 内容,绕过一定的反爬虫机制。
- XPath 表达式生成: 辅助用户在 Cursor AI 中快速生成用于网页元素定位的 XPath 表达式,简化数据提取过程。
- Scraper 代码生成: 根据用户需求和预设模板,自动生成可运行的 Scrapy 或 Camoufox 爬虫代码框架,加速爬虫开发。
- CSS 清理: 去除 HTML 中的 CSS 样式代码,简化 HTML 结构,方便后续分析和 XPath 定位。
安装步骤
- 克隆仓库
git clone https://github.com/TheWebScrapingClub/AI-Cursor-Scraping-Assistant.git cd AI-Cursor-Scraping-Assistant - 安装依赖
pip install mcp camoufox scrapy - 获取 Camoufox 浏览器 (如果需要使用 Camoufox 功能)
python -m camoufox fetch
服务器配置
MCP 客户端(如 Cursor AI)需要配置以下信息以连接到本 MCP 服务器。配置信息为 JSON 格式,请复制以下代码到 MCP 客户端的服务器配置中。
{ "serverName": "Scrapy XPath Generator", // MCP 服务器名称,可自定义 "command": "python", // 启动 MCP 服务器的命令 "args": ["MCPfiles/xpath_server.py"], // 启动命令的参数,指向服务器脚本 "transport": "stdio" // 使用 stdio 作为传输协议 }
配置参数说明:
- 'serverName': 服务器在 MCP 客户端中显示的名称,可以自定义。
- 'command': 运行服务器端代码的命令,这里使用 'python'。
- 'args': 传递给 'command' 的参数,指定 MCP 服务器脚本的路径 'MCPfiles/xpath_server.py'。请确保路径正确。
- 'transport': MCP 使用的传输协议,本项目使用 'stdio' (标准输入输出)。
注意:
- 请确保你的 Python 环境已安装,并且 'python' 命令可以正确执行。
- 如果 'xpath_server.py' 中 'CAMOUFOX_FILE_PATH' 变量配置了 Camoufox 模板文件的路径,请根据你的实际情况更新该路径。
基本使用方法
-
启动 MCP 服务器: 在终端中,进入 'AI-Cursor-Scraping-Assistant/MCPfiles' 目录,运行命令 'python xpath_server.py' 启动 MCP 服务器。
-
配置 Cursor AI: 打开 Cursor AI,在设置或 MCP 面板中配置上述服务器信息,连接到 MCP 服务器。
-
在 Cursor AI 中使用: 在 Cursor AI 中,你可以通过自然语言指令,例如:
- 让 Cursor AI 使用 'fetch_page_content' 工具抓取指定网页的内容并保存。
- 使用 'generate_xpaths' 工具,根据提供的网页 HTML 和字段模板,生成 XPath 表达式。
- 使用 'write_camoufox_scraper' 工具,根据模板和 URL,生成 Camoufox 爬虫代码。
- 使用 'strip_css' 工具,清理 HTML 文件中的 CSS 样式。
具体的使用方式可以参考仓库 'README.md' 文件中 “Usage” 和 “Advanced Usage” 部分的说明,结合 Cursor AI 的提示进行操作。
信息
分类
网页与API