Doc Scraper MCP Server
项目简介
Doc Scraper MCP Server 是一个基于 Model Context Protocol (MCP) 构建的服务器应用,旨在为大型语言模型 (LLM) 提供文档抓取功能。该服务器可以从指定的 Web URL 抓取文档内容,并将其转换为 Markdown 格式,方便 LLM 理解和利用这些信息。
主要功能点
- 网页文档抓取: 从任何可访问的 Web URL 抓取网页内容。
- HTML to Markdown 转换: 使用 jina.ai 的服务将 HTML 文档转换为 Markdown 格式,便于 LLM 处理。
- 文档保存: 将转换后的 Markdown 文档保存到指定的文件路径。
- MCP 协议集成: 遵循 Model Context Protocol 协议,可以作为 MCP 服务器与 MCP 客户端进行通信,提供工具注册和调用等功能。
安装步骤
-
克隆仓库:
git clone https://github.com/askjohngeorge/mcp-doc-scraper.git cd mcp-doc-scraper -
创建并激活虚拟环境:
python -m venv venv source venv/bin/activate # Linux/macOS # venv\Scripts\activate # Windows -
安装依赖:
pip install -e .
服务器配置
MCP 客户端需要配置以下信息以连接到 Doc Scraper MCP 服务器:
{ "serverName": "doc-scraper", // 服务器名称,与 server.py 中 Server() 构造函数参数一致 "command": "python", // 启动服务器的命令 "args": ["-m", "mcp_doc_scraper"] // 启动服务器的命令参数,运行 mcp_doc_scraper 模块 }
基本使用方法
-
启动服务器: 在克隆的仓库目录下,运行以下命令启动 Doc Scraper MCP 服务器:
python -m mcp_doc_scraper -
通过 MCP 客户端调用工具: 使用 MCP 客户端连接到服务器后,可以调用名为 'scrape_docs' 的工具,该工具接受以下参数:
- 'url': 要抓取文档的 Web URL。
- 'output_path': 保存 Markdown 文件的路径。
例如,使用 MCP 客户端发送工具调用请求,指定 URL 和输出路径,服务器会将抓取的文档保存到指定位置。
信息
分类
网页与API