项目简介
Webscan MCP服务器是一个基于 Model Context Protocol (MCP) 构建的应用后端,专注于网页内容扫描和分析。它提供了一系列工具,使LLM客户端能够方便地获取和处理网页信息,例如将网页转换为Markdown格式、提取网页中的链接、爬取整个网站、检查链接有效性、查找特定URL模式以及生成网站地图。
主要功能点
- 网页抓取 (Page Fetching): 将网页内容转换为Markdown格式,方便LLM进行文本分析和理解。
- 链接提取 (Link Extraction): 从网页中提取所有链接及其文本,用于链接分析和站点地图构建。
- 网站爬取 (Site Crawling): 递归地爬取网站,发现并收集网站内容链接。
- 链接检查 (Link Checking): 检测网页中的无效链接,确保链接的有效性。
- URL模式匹配 (Pattern Matching): 根据正则表达式查找符合特定模式的URL。
- 站点地图生成 (Sitemap Generation): 为网站生成XML站点地图,用于搜索引擎优化。
安装步骤
-
克隆仓库
打开终端,执行以下命令克隆 Webscan MCP 服务器仓库到本地:
git clone https://github.com/bsmi021/mcp-server-webscan cd mcp-server-webscan -
安装依赖
在仓库目录下,运行以下命令安装项目依赖:
npm install -
构建项目
运行以下命令构建项目,生成可执行的JavaScript代码:
npm run build
服务器配置
要将 Webscan MCP 服务器与 MCP 客户端(如 Claude Desktop)连接,您需要在客户端中配置服务器信息。以下是一个配置示例,您需要根据实际情况修改 'path/to/mcp-server-webscan' 为您本地仓库的路径:
{ "mcpServers": { "webscan": { "command": "node", "args": ["path/to/mcp-server-webscan/dist/index.js"], "env": { "NODE_ENV": "development" } } } }
配置参数说明:
- '"webscan"': 服务器名称,您可以自定义,用于在客户端中标识该服务器。
- '"command": "node"': 启动服务器的命令,这里使用 Node.js 运行时环境。
- '"args": ["path/to/mcp-server-webscan/dist/index.js"]': 启动命令的参数,指向编译后的服务器入口文件 'dist/index.js'。请务必将 'path/to/mcp-server-webscan' 替换为您实际的仓库路径。
- '"env": { "NODE_ENV": "development" }': 设置环境变量,'NODE_ENV: development' 通常用于开发环境。
基本使用方法
-
启动服务器
在仓库目录下,运行以下命令启动 Webscan MCP 服务器:
npm start服务器默认使用 'stdio' 传输协议,与 MCP 客户端进行通信。
-
在 MCP 客户端中使用工具
启动客户端(如 Claude Desktop),并在对话中使用以下格式调用 Webscan 服务器提供的工具。例如,要使用 'fetch_page' 工具抓取网页内容并转换为 Markdown,您可以这样提问:
请抓取 https://example.com 的内容并转换为 Markdown。客户端会将该请求发送到 Webscan 服务器,服务器执行 'fetch_page' 工具,并将结果返回给客户端。您可以使用其他工具,如 'extract_links'、'crawl_site' 等,根据工具的参数要求提供相应的 URL 和其他参数。
具体工具及其参数,请参考仓库 'README.md' 文件中 "Available Tools" 部分的描述。
信息
分类
网页与API