使用说明

项目简介

Obsidian Web Scraper MCP服务器是一个实现了Model Context Protocol (MCP) 的后端服务，它扩展了 Obsidian Web Scraper 工具的功能，使其能够作为MCP服务器运行。通过集成到支持MCP协议的LLM客户端，用户可以使用自然语言指令调用服务器提供的网页抓取工具，方便快捷地收集和整理网络信息到Obsidian知识库中。

主要功能点

URL查找工具 (find_urls): 根据给定的URL，自动发现并列出该网站下的所有子链接，方便用户批量抓取网站内容。
单页抓取工具 (scrape_url): 抓取单个网页的内容，提取文章主体，并将其转换为Markdown格式，保留文章的核心信息。
整站抓取工具 (scrape_site): 自动爬取整个网站或指定深度的网站内容，并将每个页面转换为Markdown文件保存到本地，实现网站内容的批量收集和存档。

安装步骤

安装 Node.js 和 npm: 确保你的电脑上已经安装了 Node.js 和 npm (Node 包管理器)。
全局安装 obsidian-web-scraper: 打开终端或命令提示符，运行以下命令进行全局安装：
```
npm install -g obsidian-web-scraper
```
或者你也可以选择本地安装，在你的项目目录下运行 'npm install obsidian-web-scraper'。

服务器配置

为了让MCP客户端能够连接到 Obsidian Web Scraper MCP 服务器，你需要提供以下配置信息。这些信息通常配置在MCP客户端的服务器设置中。

{
  "serverName": "obsidian-scraper-mcp",
  "command": "npx",
  "args": [
    "obsidian-web-scraper-mcp"
  ],
  "transport": "stdio"
}

参数注释:

'serverName': 服务器的名称，可以自定义，用于在MCP客户端中标识该服务器。例如 '"obsidian-scraper-mcp"'。
'command': 启动服务器进程的命令。这里使用 'npx'，它可以方便地运行本地或全局安装的 npm 包的可执行文件。
'args': 传递给启动命令的参数，以启动 Obsidian Web Scraper MCP 服务器。'"obsidian-web-scraper-mcp"' 是该服务器的启动脚本名称。
'transport': 指定MCP客户端与服务器通信的传输协议。这里使用 '"stdio"'，表示通过标准输入输出流进行通信。

基本使用方法

启动 MCP 服务器: 在安装 obsidian-web-scraper 的环境中，MCP客户端会自动根据上述配置启动 'obsidian-web-scraper-mcp' 服务器进程。
在 MCP 客户端中使用工具: 在支持MCP协议的LLM客户端中，你可以通过自然语言指令来调用服务器提供的工具。例如：
- "使用 find_urls 工具查找 https://example.com/docs 的子链接"
- "调用 scrape_url 工具抓取 https://example.com/example-page 页面"
- "运行 scrape_site 工具抓取整个 https://example.com/blog 网站并保存到 output 目录"
具体的指令格式和使用方式取决于你所使用的MCP客户端。客户端会将你的自然语言指令转换为对 MCP 服务器的工具调用请求，服务器执行相应的抓取任务后，会将结果返回给客户端。
查看抓取结果: 抓取的内容将根据工具的不同以 JSON 格式返回给 MCP 客户端，或者保存到你指定的本地目录中（例如使用 'scrape_site' 工具时）。你可以根据需要进一步处理这些抓取到的 Markdown 内容，例如导入到 Obsidian 知识库中。

Obsidian Web Scraper MCP服务器