使用说明
项目简介
'server-moz-readability' 是一个基于 Model Context Protocol (MCP) 构建的服务器,它使用 Mozilla Readability 算法从网页中提取主要内容,去除广告、导航等干扰元素,并将提取的内容转换为结构化的 Markdown 格式。该服务器旨在为大型语言模型 (LLM) 提供更干净、更优化的网页内容,提高 LLM 处理网页信息的效率和准确性。
主要功能点
- 网页内容提取: 使用 Mozilla Readability 算法,精准提取网页文章的主体内容,排除广告、导航、页脚等干扰信息。
- Markdown 转换: 将提取的 HTML 内容转换为清晰、易于 LLM 理解的 Markdown 格式。
- 元数据提取: 返回文章的标题、摘要、作者署名和网站名称等元数据。
- 工具化调用: 通过 MCP 协议提供 'parse' 工具,允许 LLM 客户端请求解析指定 URL 的网页内容。
安装步骤
- 安装 Node.js 和 npm: 确保你的系统已安装 Node.js 和 npm (Node 包管理器)。
- 安装 'server-moz-readability' 包: 打开终端或命令提示符,运行以下命令安装该 MCP 服务器:
npm install server-moz-readability
服务器配置
为了让 MCP 客户端(例如 Claude Desktop)连接到 'server-moz-readability' 服务器,需要在客户端的配置文件中添加服务器的配置信息。以 'claude_desktop_config.json' 为例,配置信息如下:
{ "mcpServers": { "readability": { "command": "npx", "args": ["-y", "server-moz-readability"] } } }
配置参数说明:
- '"readability"': 服务器名称,可以自定义,用于在客户端中引用该服务器。
- '"command": "npx"': 启动服务器的命令。'npx' 是 npm 包执行器,用于运行本地安装的 npm 包的可执行文件。
- '"args": ["-y", "server-moz-readability"]': 传递给 'npx' 命令的参数。
- '"-y"': 'npx' 的参数,此处可能用于自动确认一些操作(根据 'npx' 的具体行为而定,此处为示例配置,请参考实际 'server-moz-readability' 的文档)。
- '"server-moz-readability"': 要执行的 npm 包的可执行文件名,通常与包名相同。
注意: 具体的 'command' 和 'args' 可能需要根据 MCP 客户端的具体要求和 'server-moz-readability' 包的实际启动方式进行调整。请参考 MCP 客户端的文档和 'server-moz-readability' 的 README 文件以获取最准确的配置信息。
基本使用方法
配置完成后,MCP 客户端可以通过调用 'readability.parse' 工具来解析网页内容。
工具名称: 'parse'
工具描述: 提取网页内容并转换为 Markdown 格式。
工具参数:
{ "url": { "type": "string", "description": "要解析的网页 URL", "required": true } }
工具返回值:
工具调用成功后,将返回一个 JSON 对象,包含以下字段:
{ "title": "文章标题", "content": "Markdown 格式的文章正文...", "metadata": { "excerpt": "文章摘要", "byline": "作者信息", "siteName": "网站名称" } }
客户端可以解析返回的 JSON 字符串,提取所需的网页内容和元数据,用于后续的 LLM 应用。
信息
分类
网页与API