使用说明

项目简介

UseScraper MCP Server 是一个实现了 Model Context Protocol (MCP) 的服务器,它扩展了大型语言模型 (LLM) 的能力,使其能够访问和利用网络上的信息。该服务器通过提供 'scrape' 工具,允许LLM客户端抓取指定URL的网页内容,并以多种格式(文本、HTML、Markdown)返回,从而为LLM提供实时的网络数据作为上下文信息。

主要功能点

  • 网页抓取工具 (scrape): 提供核心的网页抓取功能,允许用户指定URL并获取网页内容。
    • 支持多种输出格式:抓取的内容可以以文本 (text)、HTML 或 Markdown 格式返回,默认为 Markdown,方便 LLM 进行理解和处理。
    • 可选高级代理:支持使用高级代理来绕过反爬虫机制,提高抓取成功率(默认不启用)。
    • 支持结构化数据提取:允许通过 'extract_object' 参数指定需要从网页中提取的特定数据结构。

安装步骤

  1. 克隆仓库: 打开终端,执行以下命令克隆 UseScraper MCP Server 仓库到本地:

    git clone https://github.com/tanevanwifferen/usescraper-mcp-server.git
    cd usescraper-mcp-server
  2. 安装依赖: 在仓库目录下,执行以下命令安装项目依赖:

    npm install
  3. 构建服务器: 执行以下命令构建服务器代码:

    npm run build

服务器配置

要将 UseScraper MCP Server 与 MCP 客户端(例如 Claude Desktop)配合使用,您需要配置客户端以连接到此服务器。以下是在 'claude_desktop_config.json' 文件中添加服务器配置的示例:

配置文件路径:

  • macOS: '~/Library/Application Support/Claude/claude_desktop_config.json'
  • Windows: '%APPDATA%/Claude/claude_desktop_config.json'

配置内容 (json 格式):

{
  "mcpServers": {
    "usescraper-server": {
      "command": "node",
      "args": ["/path/to/usescraper-mcp-server/build/index.js"],
      "env": {
        "USESCRAPER_API_KEY": "YOUR_USESCRAPER_API_KEY"
      }
    }
  }
}

配置参数说明:

  • '"usescraper-server"': 服务器的名称,客户端使用此名称来识别和调用该服务器。
  • '"command": "node"': 启动服务器的命令,这里使用 Node.js 运行时环境。
  • '"args": ["/path/to/usescraper-mcp-server/build/index.js"]': 启动命令的参数,指向服务器构建后的入口文件 'index.js'。 请将 '/path/to/usescraper-mcp-server' 替换为 UseScraper MCP Server 在您本地文件系统中的实际路径。
  • '"env": { "USESCRAPER_API_KEY": "YOUR_USESCRAPER_API_KEY" }': 设置服务器运行所需的环境变量。 请将 '"YOUR_USESCRAPER_API_KEY"' 替换为您的 UseScraper API 密钥。 您需要在 UseScraper 官网注册并获取 API 密钥。

请注意: MCP 客户端通常只读取 'command' 和 'args' 来启动 MCP 服务器,并使用 '"usescraper-server"' 这个名称来标识服务器。 用户无需理解 'index.js' 代码,只需根据实际安装路径配置 'args' 和 API 密钥即可。

基本使用方法

配置完成后,MCP 客户端可以通过 MCP 协议调用 'usescraper-server' 提供的 'scrape' 工具。以下是一个调用 'scrape' 工具的 JSON 请求示例:

{
  "jsonrpc": "2.0",
  "method": "call_tool",
  "params": {
    "name": "scrape",
    "arguments": {
      "url": "https://www.example.com",
      "format": "markdown"
    }
  },
  "id": "1"
}

请求参数说明:

  • '"method": "call_tool"': 指定请求的方法为调用工具。
  • '"params": { "name": "scrape", ... }': 指定要调用的工具名称为 'scrape'。
  • '"arguments": { "url": "https://www.example.com", "format": "markdown" }': 提供 'scrape' 工具所需的参数。
    • '"url"': 要抓取的网页 URL,例如 '"https://www.example.com"'。
    • '"format"': 期望的输出格式,例如 '"markdown"'。 可选值为 '"text"', '"html"', '"markdown"'。

服务器将处理该请求,抓取指定网页的内容,并以 JSON-RPC 响应的形式返回抓取结果给 MCP 客户端。

信息

分类

网页与API