项目简介

Webscan MCP服务器是一个基于 Model Context Protocol (MCP) 构建的应用后端,专注于网页内容扫描和分析。它提供了一系列工具,使LLM客户端能够方便地获取和处理网页信息,例如将网页转换为Markdown格式、提取网页中的链接、爬取整个网站、检查链接有效性、查找特定URL模式以及生成网站地图。

主要功能点

  • 网页抓取 (Page Fetching): 将网页内容转换为Markdown格式,方便LLM进行文本分析和理解。
  • 链接提取 (Link Extraction): 从网页中提取所有链接及其文本,用于链接分析和站点地图构建。
  • 网站爬取 (Site Crawling): 递归地爬取网站,发现并收集网站内容链接。
  • 链接检查 (Link Checking): 检测网页中的无效链接,确保链接的有效性。
  • URL模式匹配 (Pattern Matching): 根据正则表达式查找符合特定模式的URL。
  • 站点地图生成 (Sitemap Generation): 为网站生成XML站点地图,用于搜索引擎优化。

安装步骤

  1. 克隆仓库

    打开终端,执行以下命令克隆 Webscan MCP 服务器仓库到本地:

    git clone https://github.com/bsmi021/mcp-server-webscan
    cd mcp-server-webscan
  2. 安装依赖

    在仓库目录下,运行以下命令安装项目依赖:

    npm install
  3. 构建项目

    运行以下命令构建项目,生成可执行的JavaScript代码:

    npm run build

服务器配置

要将 Webscan MCP 服务器与 MCP 客户端(如 Claude Desktop)连接,您需要在客户端中配置服务器信息。以下是一个配置示例,您需要根据实际情况修改 'path/to/mcp-server-webscan' 为您本地仓库的路径:

{
  "mcpServers": {
    "webscan": {
      "command": "node",
      "args": ["path/to/mcp-server-webscan/dist/index.js"],
      "env": {
        "NODE_ENV": "development"
      }
    }
  }
}

配置参数说明:

  • '"webscan"': 服务器名称,您可以自定义,用于在客户端中标识该服务器。
  • '"command": "node"': 启动服务器的命令,这里使用 Node.js 运行时环境。
  • '"args": ["path/to/mcp-server-webscan/dist/index.js"]': 启动命令的参数,指向编译后的服务器入口文件 'dist/index.js'。请务必将 'path/to/mcp-server-webscan' 替换为您实际的仓库路径。
  • '"env": { "NODE_ENV": "development" }': 设置环境变量,'NODE_ENV: development' 通常用于开发环境。

基本使用方法

  1. 启动服务器

    在仓库目录下,运行以下命令启动 Webscan MCP 服务器:

    npm start

    服务器默认使用 'stdio' 传输协议,与 MCP 客户端进行通信。

  2. 在 MCP 客户端中使用工具

    启动客户端(如 Claude Desktop),并在对话中使用以下格式调用 Webscan 服务器提供的工具。例如,要使用 'fetch_page' 工具抓取网页内容并转换为 Markdown,您可以这样提问:

    请抓取 https://example.com 的内容并转换为 Markdown。

    客户端会将该请求发送到 Webscan 服务器,服务器执行 'fetch_page' 工具,并将结果返回给客户端。您可以使用其他工具,如 'extract_links'、'crawl_site' 等,根据工具的参数要求提供相应的 URL 和其他参数。

    具体工具及其参数,请参考仓库 'README.md' 文件中 "Available Tools" 部分的描述。

信息

分类

网页与API