使用说明
项目简介
Obsidian Web Scraper MCP服务器是一个实现了Model Context Protocol (MCP) 的后端服务,它扩展了 Obsidian Web Scraper 工具的功能,使其能够作为MCP服务器运行。通过集成到支持MCP协议的LLM客户端,用户可以使用自然语言指令调用服务器提供的网页抓取工具,方便快捷地收集和整理网络信息到Obsidian知识库中。
主要功能点
- URL查找工具 (find_urls): 根据给定的URL,自动发现并列出该网站下的所有子链接,方便用户批量抓取网站内容。
- 单页抓取工具 (scrape_url): 抓取单个网页的内容,提取文章主体,并将其转换为Markdown格式,保留文章的核心信息。
- 整站抓取工具 (scrape_site): 自动爬取整个网站或指定深度的网站内容,并将每个页面转换为Markdown文件保存到本地,实现网站内容的批量收集和存档。
安装步骤
- 安装 Node.js 和 npm: 确保你的电脑上已经安装了 Node.js 和 npm (Node 包管理器)。
- 全局安装 obsidian-web-scraper: 打开终端或命令提示符,运行以下命令进行全局安装:
或者你也可以选择本地安装,在你的项目目录下运行 'npm install obsidian-web-scraper'。npm install -g obsidian-web-scraper
服务器配置
为了让MCP客户端能够连接到 Obsidian Web Scraper MCP 服务器,你需要提供以下配置信息。这些信息通常配置在MCP客户端的服务器设置中。
{ "serverName": "obsidian-scraper-mcp", "command": "npx", "args": [ "obsidian-web-scraper-mcp" ], "transport": "stdio" }
参数注释:
- 'serverName': 服务器的名称,可以自定义,用于在MCP客户端中标识该服务器。例如 '"obsidian-scraper-mcp"'。
- 'command': 启动服务器进程的命令。这里使用 'npx',它可以方便地运行本地或全局安装的 npm 包的可执行文件。
- 'args': 传递给启动命令的参数,以启动 Obsidian Web Scraper MCP 服务器。'"obsidian-web-scraper-mcp"' 是该服务器的启动脚本名称。
- 'transport': 指定MCP客户端与服务器通信的传输协议。这里使用 '"stdio"',表示通过标准输入输出流进行通信。
基本使用方法
-
启动 MCP 服务器: 在安装 obsidian-web-scraper 的环境中,MCP客户端会自动根据上述配置启动 'obsidian-web-scraper-mcp' 服务器进程。
-
在 MCP 客户端中使用工具: 在支持MCP协议的LLM客户端中,你可以通过自然语言指令来调用服务器提供的工具。例如:
- "使用 find_urls 工具查找 https://example.com/docs 的子链接"
- "调用 scrape_url 工具抓取 https://example.com/example-page 页面"
- "运行 scrape_site 工具抓取整个 https://example.com/blog 网站并保存到 output 目录"
具体的指令格式和使用方式取决于你所使用的MCP客户端。客户端会将你的自然语言指令转换为对 MCP 服务器的工具调用请求,服务器执行相应的抓取任务后,会将结果返回给客户端。
-
查看抓取结果: 抓取的内容将根据工具的不同以 JSON 格式返回给 MCP 客户端,或者保存到你指定的本地目录中(例如使用 'scrape_site' 工具时)。你可以根据需要进一步处理这些抓取到的 Markdown 内容,例如导入到 Obsidian 知识库中。
信息
分类
网页与API