Skrape MCP Server 使用说明

项目简介

Skrape MCP Server 是一个基于 Model Context Protocol (MCP) 构建的服务器,旨在帮助 LLM (大型语言模型) 应用更有效地处理和理解网页内容。它通过调用 skrape.ai 的 API,将任意网页转换为结构清晰、内容 очищенного 的 Markdown 格式,去除了广告、导航等干扰信息,使 LLM 可以专注于核心内容。

主要功能点

  • 网页转 Markdown: 将任何 URL 的网页内容抓取并转换为 Markdown 格式。
  • 内容 очищенного: 自动移除网页中的广告、导航菜单等噪声内容,提取核心信息。
  • 结构化输出: 生成结构良好的 Markdown,易于 LLM 解析和理解。
  • JavaScript 渲染: 支持渲染 JavaScript 动态生成的内容,确保抓取完整网页信息。
  • LLM 优化: 输出格式 специально optimized для LLM 模型的处理,提高内容利用率。
  • 提供 'get_markdown' 工具: LLM 客户端可以通过调用 'get_markdown' 工具,并提供网页 URL,获取网页的 Markdown 内容。

安装步骤

  1. 获取 skrape.ai API 密钥: 访问 skrape.ai 注册并获取 API 密钥。
  2. 安装依赖: 确保已安装 Node.js 和 npm,然后克隆仓库或下载代码,在项目根目录下运行 'npm install' 安装项目依赖。
    npm install
  3. 构建服务器: 运行 'npm run build' 命令编译 TypeScript 代码,生成可执行的 JavaScript 文件。
    npm run build

服务器配置

MCP 客户端(例如 Claude Desktop)需要配置 MCP 服务器的启动信息才能连接和使用 Skrape MCP Server。以下是配置示例,请根据你的实际情况进行调整。

在 MCP 客户端的配置文件中(例如 Claude Desktop 的 'claude_desktop_config.json'),添加如下 'mcpServers' 配置:

{
  "mcpServers": {
    "skrape": { // 服务器名称,在客户端中用于引用和调用
      "command": "node", // 启动服务器的命令,这里使用 Node.js 运行 JavaScript 文件
      "args": ["path/to/skrape-mcp/build/index.js"], // 命令参数,指向编译后的服务器入口文件 'index.js',需要替换为实际路径
      "env": {
        "SKRAPE_API_KEY": "YOUR_API_KEY" // 环境变量,用于传递 skrape.ai API 密钥,需要替换为你的实际密钥
      },
    }
  }
}

配置参数说明:

  • 'server name': 'skrape' - 服务器的名称,客户端通过此名称来识别和调用。
  • 'command': 'node' - 启动服务器的命令,这里使用 Node.js 运行时环境来执行 JavaScript 代码。
  • 'args': '["path/to/skrape-mcp/build/index.js"]' - 命令的参数,指向 Skrape MCP Server 编译后生成的入口文件 'index.js' 的路径。你需要将 'path/to/skrape-mcp' 替换为 Skrape MCP Server 在你本地文件系统中的实际路径。
  • 'env': '{ "SKRAPE_API_KEY": "YOUR_API_KEY" }' - 环境变量配置。'SKRAPE_API_KEY' 是 Skrape MCP Server 运行时需要的 skrape.ai API 密钥,你需要将 'YOUR_API_KEY' 替换为你从 skrape.ai 获取的实际 API 密钥。

注意: 请根据你的 Skrape MCP Server 部署位置和 skrape.ai API 密钥,正确配置 'args' 中的文件路径和 'env' 中的 'SKRAPE_API_KEY'。

基本使用方法

配置完成后,在支持 MCP 协议的 LLM 客户端中,你可以指示 LLM 使用 'skrape' 服务器的 'get_markdown' 工具来处理网页。例如,在 Claude 中,你可以这样提问:

Convert this webpage to markdown: https://example.com

Claude 将会使用 MCP 工具,请求如下:

<use_mcp_tool>
  <server_name>skrape</server_name>
  <tool_name>get_markdown</tool_name>
  <arguments>
    {
      "url": "https://example.com",
      "options": {
        "renderJs": true
      }
    }
  </arguments>
</use_mcp_tool>

服务器会将 'https://example.com' 的网页内容转换为 Markdown 格式,并返回给 LLM 客户端。LLM 就可以利用 очищенного 后的 Markdown 内容进行后续处理。

你还可以使用更多选项,例如获取 JSON 格式的响应或禁用 JavaScript 渲染,具体参数请参考仓库 README 文档。

信息

分类

网页与API