项目简介

Webscan MCP服务器是一个基于 Model Context Protocol (MCP) 构建的应用后端，专注于网页内容扫描和分析。它提供了一系列工具，使LLM客户端能够方便地获取和处理网页信息，例如将网页转换为Markdown格式、提取网页中的链接、爬取整个网站、检查链接有效性、查找特定URL模式以及生成网站地图。

主要功能点

网页抓取 (Page Fetching): 将网页内容转换为Markdown格式，方便LLM进行文本分析和理解。
链接提取 (Link Extraction): 从网页中提取所有链接及其文本，用于链接分析和站点地图构建。
网站爬取 (Site Crawling): 递归地爬取网站，发现并收集网站内容链接。
链接检查 (Link Checking): 检测网页中的无效链接，确保链接的有效性。
URL模式匹配 (Pattern Matching): 根据正则表达式查找符合特定模式的URL。
站点地图生成 (Sitemap Generation): 为网站生成XML站点地图，用于搜索引擎优化。

安装步骤

克隆仓库

打开终端，执行以下命令克隆 Webscan MCP 服务器仓库到本地：

git clone https://github.com/bsmi021/mcp-server-webscan
cd mcp-server-webscan

安装依赖

在仓库目录下，运行以下命令安装项目依赖：
```
npm install
```
构建项目

运行以下命令构建项目，生成可执行的JavaScript代码：
```
npm run build
```

服务器配置

要将 Webscan MCP 服务器与 MCP 客户端（如 Claude Desktop）连接，您需要在客户端中配置服务器信息。以下是一个配置示例，您需要根据实际情况修改 'path/to/mcp-server-webscan' 为您本地仓库的路径：

{
  "mcpServers": {
    "webscan": {
      "command": "node",
      "args": ["path/to/mcp-server-webscan/dist/index.js"],
      "env": {
        "NODE_ENV": "development"
      }
    }
  }
}

配置参数说明：

'"webscan"': 服务器名称，您可以自定义，用于在客户端中标识该服务器。
'"command": "node"': 启动服务器的命令，这里使用 Node.js 运行时环境。
'"args": ["path/to/mcp-server-webscan/dist/index.js"]': 启动命令的参数，指向编译后的服务器入口文件 'dist/index.js'。请务必将 'path/to/mcp-server-webscan' 替换为您实际的仓库路径。
'"env": { "NODE_ENV": "development" }': 设置环境变量，'NODE_ENV: development' 通常用于开发环境。

基本使用方法

启动服务器

在仓库目录下，运行以下命令启动 Webscan MCP 服务器：
```
npm start
```
服务器默认使用 'stdio' 传输协议，与 MCP 客户端进行通信。
在 MCP 客户端中使用工具

启动客户端（如 Claude Desktop），并在对话中使用以下格式调用 Webscan 服务器提供的工具。例如，要使用 'fetch_page' 工具抓取网页内容并转换为 Markdown，您可以这样提问：
```
请抓取 https://example.com 的内容并转换为 Markdown。
```
客户端会将该请求发送到 Webscan 服务器，服务器执行 'fetch_page' 工具，并将结果返回给客户端。您可以使用其他工具，如 'extract_links'、'crawl_site' 等，根据工具的参数要求提供相应的 URL 和其他参数。

具体工具及其参数，请参考仓库 'README.md' 文件中 "Available Tools" 部分的描述。

关键词

项目简介

主要功能点

安装步骤

服务器配置

基本使用方法

信息