使用说明

项目简介

Obsidian Web Scraper MCP服务器是一个实现了Model Context Protocol (MCP) 的后端服务,它扩展了 Obsidian Web Scraper 工具的功能,使其能够作为MCP服务器运行。通过集成到支持MCP协议的LLM客户端,用户可以使用自然语言指令调用服务器提供的网页抓取工具,方便快捷地收集和整理网络信息到Obsidian知识库中。

主要功能点

  • URL查找工具 (find_urls): 根据给定的URL,自动发现并列出该网站下的所有子链接,方便用户批量抓取网站内容。
  • 单页抓取工具 (scrape_url): 抓取单个网页的内容,提取文章主体,并将其转换为Markdown格式,保留文章的核心信息。
  • 整站抓取工具 (scrape_site): 自动爬取整个网站或指定深度的网站内容,并将每个页面转换为Markdown文件保存到本地,实现网站内容的批量收集和存档。

安装步骤

  1. 安装 Node.js 和 npm: 确保你的电脑上已经安装了 Node.js 和 npm (Node 包管理器)。
  2. 全局安装 obsidian-web-scraper: 打开终端或命令提示符,运行以下命令进行全局安装:
    npm install -g obsidian-web-scraper
    或者你也可以选择本地安装,在你的项目目录下运行 'npm install obsidian-web-scraper'。

服务器配置

为了让MCP客户端能够连接到 Obsidian Web Scraper MCP 服务器,你需要提供以下配置信息。这些信息通常配置在MCP客户端的服务器设置中。

{
  "serverName": "obsidian-scraper-mcp",
  "command": "npx",
  "args": [
    "obsidian-web-scraper-mcp"
  ],
  "transport": "stdio"
}

参数注释:

  • 'serverName': 服务器的名称,可以自定义,用于在MCP客户端中标识该服务器。例如 '"obsidian-scraper-mcp"'。
  • 'command': 启动服务器进程的命令。这里使用 'npx',它可以方便地运行本地或全局安装的 npm 包的可执行文件。
  • 'args': 传递给启动命令的参数,以启动 Obsidian Web Scraper MCP 服务器。'"obsidian-web-scraper-mcp"' 是该服务器的启动脚本名称。
  • 'transport': 指定MCP客户端与服务器通信的传输协议。这里使用 '"stdio"',表示通过标准输入输出流进行通信。

基本使用方法

  1. 启动 MCP 服务器: 在安装 obsidian-web-scraper 的环境中,MCP客户端会自动根据上述配置启动 'obsidian-web-scraper-mcp' 服务器进程。

  2. 在 MCP 客户端中使用工具: 在支持MCP协议的LLM客户端中,你可以通过自然语言指令来调用服务器提供的工具。例如:

    具体的指令格式和使用方式取决于你所使用的MCP客户端。客户端会将你的自然语言指令转换为对 MCP 服务器的工具调用请求,服务器执行相应的抓取任务后,会将结果返回给客户端。

  3. 查看抓取结果: 抓取的内容将根据工具的不同以 JSON 格式返回给 MCP 客户端,或者保存到你指定的本地目录中(例如使用 'scrape_site' 工具时)。你可以根据需要进一步处理这些抓取到的 Markdown 内容,例如导入到 Obsidian 知识库中。

信息

分类

网页与API