使用说明

项目简介

'server-moz-readability' 是一个基于 Model Context Protocol (MCP) 构建的服务器,它使用 Mozilla Readability 算法从网页中提取主要内容,去除广告、导航等干扰元素,并将提取的内容转换为结构化的 Markdown 格式。该服务器旨在为大型语言模型 (LLM) 提供更干净、更优化的网页内容,提高 LLM 处理网页信息的效率和准确性。

主要功能点

  • 网页内容提取: 使用 Mozilla Readability 算法,精准提取网页文章的主体内容,排除广告、导航、页脚等干扰信息。
  • Markdown 转换: 将提取的 HTML 内容转换为清晰、易于 LLM 理解的 Markdown 格式。
  • 元数据提取: 返回文章的标题、摘要、作者署名和网站名称等元数据。
  • 工具化调用: 通过 MCP 协议提供 'parse' 工具,允许 LLM 客户端请求解析指定 URL 的网页内容。

安装步骤

  1. 安装 Node.js 和 npm: 确保你的系统已安装 Node.js 和 npm (Node 包管理器)。
  2. 安装 'server-moz-readability' 包: 打开终端或命令提示符,运行以下命令安装该 MCP 服务器:
    npm install server-moz-readability

服务器配置

为了让 MCP 客户端(例如 Claude Desktop)连接到 'server-moz-readability' 服务器,需要在客户端的配置文件中添加服务器的配置信息。以 'claude_desktop_config.json' 为例,配置信息如下:

{
  "mcpServers": {
    "readability": {
      "command": "npx",
      "args": ["-y", "server-moz-readability"]
    }
  }
}

配置参数说明:

  • '"readability"': 服务器名称,可以自定义,用于在客户端中引用该服务器。
  • '"command": "npx"': 启动服务器的命令。'npx' 是 npm 包执行器,用于运行本地安装的 npm 包的可执行文件。
  • '"args": ["-y", "server-moz-readability"]': 传递给 'npx' 命令的参数。
    • '"-y"': 'npx' 的参数,此处可能用于自动确认一些操作(根据 'npx' 的具体行为而定,此处为示例配置,请参考实际 'server-moz-readability' 的文档)。
    • '"server-moz-readability"': 要执行的 npm 包的可执行文件名,通常与包名相同。

注意: 具体的 'command' 和 'args' 可能需要根据 MCP 客户端的具体要求和 'server-moz-readability' 包的实际启动方式进行调整。请参考 MCP 客户端的文档和 'server-moz-readability' 的 README 文件以获取最准确的配置信息。

基本使用方法

配置完成后,MCP 客户端可以通过调用 'readability.parse' 工具来解析网页内容。

工具名称: 'parse'

工具描述: 提取网页内容并转换为 Markdown 格式。

工具参数:

{
  "url": {
    "type": "string",
    "description": "要解析的网页 URL",
    "required": true
  }
}

工具返回值:

工具调用成功后,将返回一个 JSON 对象,包含以下字段:

{
  "title": "文章标题",
  "content": "Markdown 格式的文章正文...",
  "metadata": {
    "excerpt": "文章摘要",
    "byline": "作者信息",
    "siteName": "网站名称"
  }
}

客户端可以解析返回的 JSON 字符串,提取所需的网页内容和元数据,用于后续的 LLM 应用。

信息

分类

网页与API