Doc Scraper MCP Server

项目简介

Doc Scraper MCP Server 是一个基于 Model Context Protocol (MCP) 构建的服务器应用,旨在为大型语言模型 (LLM) 提供文档抓取功能。该服务器可以从指定的 Web URL 抓取文档内容,并将其转换为 Markdown 格式,方便 LLM 理解和利用这些信息。

主要功能点

  • 网页文档抓取: 从任何可访问的 Web URL 抓取网页内容。
  • HTML to Markdown 转换: 使用 jina.ai 的服务将 HTML 文档转换为 Markdown 格式,便于 LLM 处理。
  • 文档保存: 将转换后的 Markdown 文档保存到指定的文件路径。
  • MCP 协议集成: 遵循 Model Context Protocol 协议,可以作为 MCP 服务器与 MCP 客户端进行通信,提供工具注册和调用等功能。

安装步骤

  1. 克隆仓库:

    git clone https://github.com/askjohngeorge/mcp-doc-scraper.git
    cd mcp-doc-scraper
  2. 创建并激活虚拟环境:

    python -m venv venv
    source venv/bin/activate   # Linux/macOS
    # venv\Scripts\activate  # Windows
  3. 安装依赖:

    pip install -e .

服务器配置

MCP 客户端需要配置以下信息以连接到 Doc Scraper MCP 服务器:

{
  "serverName": "doc-scraper",  // 服务器名称,与 server.py 中 Server() 构造函数参数一致
  "command": "python",          // 启动服务器的命令
  "args": ["-m", "mcp_doc_scraper"] // 启动服务器的命令参数,运行 mcp_doc_scraper 模块
}

基本使用方法

  1. 启动服务器: 在克隆的仓库目录下,运行以下命令启动 Doc Scraper MCP 服务器:

    python -m mcp_doc_scraper
  2. 通过 MCP 客户端调用工具: 使用 MCP 客户端连接到服务器后,可以调用名为 'scrape_docs' 的工具,该工具接受以下参数:

    • 'url': 要抓取文档的 Web URL。
    • 'output_path': 保存 Markdown 文件的路径。

    例如,使用 MCP 客户端发送工具调用请求,指定 URL 和输出路径,服务器会将抓取的文档保存到指定位置。

信息

分类

网页与API