Doc Scraper MCP Server

项目简介

Doc Scraper MCP Server 是一个基于 Model Context Protocol (MCP) 构建的服务器应用，旨在为大型语言模型 (LLM) 提供文档抓取功能。该服务器可以从指定的 Web URL 抓取文档内容，并将其转换为 Markdown 格式，方便 LLM 理解和利用这些信息。

主要功能点

网页文档抓取: 从任何可访问的 Web URL 抓取网页内容。
HTML to Markdown 转换: 使用 jina.ai 的服务将 HTML 文档转换为 Markdown 格式，便于 LLM 处理。
文档保存: 将转换后的 Markdown 文档保存到指定的文件路径。
MCP 协议集成: 遵循 Model Context Protocol 协议，可以作为 MCP 服务器与 MCP 客户端进行通信，提供工具注册和调用等功能。

安装步骤

克隆仓库:

git clone https://github.com/askjohngeorge/mcp-doc-scraper.git
cd mcp-doc-scraper

创建并激活虚拟环境:

python -m venv venv
source venv/bin/activate   # Linux/macOS
# venv\Scripts\activate  # Windows

安装依赖:
```
pip install -e .
```

服务器配置

MCP 客户端需要配置以下信息以连接到 Doc Scraper MCP 服务器：

{
  "serverName": "doc-scraper",  // 服务器名称，与 server.py 中 Server() 构造函数参数一致
  "command": "python",          // 启动服务器的命令
  "args": ["-m", "mcp_doc_scraper"] // 启动服务器的命令参数，运行 mcp_doc_scraper 模块
}

基本使用方法

启动服务器: 在克隆的仓库目录下，运行以下命令启动 Doc Scraper MCP 服务器：
```
python -m mcp_doc_scraper
```
通过 MCP 客户端调用工具: 使用 MCP 客户端连接到服务器后，可以调用名为 'scrape_docs' 的工具，该工具接受以下参数：
- 'url': 要抓取文档的 Web URL。
- 'output_path': 保存 Markdown 文件的路径。
例如，使用 MCP 客户端发送工具调用请求，指定 URL 和输出路径，服务器会将抓取的文档保存到指定位置。

关键词