使用说明

项目简介

该项目是一个实现了 Model Context Protocol (MCP) 的服务器,专注于网页内容解析。它利用 Mozilla Readability 算法,能够从网页中智能提取文章的主体内容,去除广告、导航等干扰元素,并将其转换为清晰的 Markdown 格式。服务器提供了一个名为 'parse' 的工具,允许 MCP 客户端通过 URL 获取网页的结构化内容,包括文章标题、正文、摘要、作者信息和网站名称,优化了 LLM 对网页信息的处理效率。

主要功能点

  • 智能网页内容提取: 使用 Mozilla Readability 算法,精准抓取文章核心内容。
  • Markdown 格式转换: 将提取的 HTML 内容转换为易于 LLM 理解和处理的 Markdown 格式。
  • 元数据返回: 提供文章标题、摘要、作者署名和网站名称等关键元数据。
  • 简化 Token 消耗: 去除冗余 HTML 和 CSS,减少 LLM 处理 Token 数量,降低成本。
  • 标准 MCP 协议: 遵循 MCP 协议,易于集成到各种 MCP 客户端应用中。

安装步骤

  1. 安装 Node.js 和 npm: 确保你的系统已安装 Node.js 和 npm (Node 包管理器)。
  2. 安装 server-moz-readability 包: 打开终端,执行以下命令安装该 MCP 服务器:
    npm install server-moz-readability

服务器配置

要将此 MCP 服务器与 MCP 客户端(例如 Claude Desktop)配合使用,你需要在客户端的配置文件中添加服务器配置信息。以下是一个配置示例,你需要将这段 JSON 配置添加到你的 MCP 客户端配置文件中。注意:你只需要配置 'command' 和 'args' 字段,用于指定服务器的启动命令。'server name' 可以自定义。

{
  "mcpServers": {
    "readability": { // 服务器名称,可以自定义,例如 "readability-parser"
      "command": "npx", // 启动服务器的命令,这里使用 npx 执行安装在 node_modules 中的包
      "args": ["-y", "server-moz-readability"] // 命令参数,-y 表示自动确认执行,server-moz-readability 是要执行的包名
    }
  }
}

配置说明:

  • '"readability"': 这是你为该服务器自定义的名称,在客户端中用于标识和调用此服务器。
  • '"command": "npx"': 指定了启动服务器的命令为 'npx'。'npx' 是 npm 包管理器自带的工具,用于执行本地安装的 npm 包。
  • '"args": ["-y", "server-moz-readability"]': 指定了 'npx' 命令的参数。
    • '"-y"': 是 'npx' 的参数,表示自动确认执行,避免在执行过程中出现需要用户确认的提示。
    • '"server-moz-readability"': 是要执行的 npm 包的名称,即我们安装的 'server-moz-readability' 包,npx 会自动查找并执行该包的入口文件。

基本使用方法

配置完成后,MCP 客户端可以通过 MCP 协议与此服务器建立连接,并调用名为 'parse' 的工具。'parse' 工具接受一个 'url' 参数,即要解析的网页地址。服务器将返回解析后的 Markdown 内容以及相关元数据。

例如,客户端可以发送如下 JSON-RPC 请求来调用 'parse' 工具:

{
  "jsonrpc": "2.0",
  "method": "callTool",
  "params": {
    "name": "parse",
    "arguments": {
      "url": "https://example.com/article" // 将 https://example.com/article 替换为你要解析的网页 URL
    }
  },
  "id": 1
}

服务器将返回包含解析结果的 JSON-RPC 响应,其中 'content' 字段包含了 Markdown 格式的内容和元数据。

信息

分类

网页与API