使用说明

项目简介

UseScraper MCP Server 是一个实现了 Model Context Protocol (MCP) 的服务器，它扩展了大型语言模型 (LLM) 的能力，使其能够访问和利用网络上的信息。该服务器通过提供 'scrape' 工具，允许LLM客户端抓取指定URL的网页内容，并以多种格式（文本、HTML、Markdown）返回，从而为LLM提供实时的网络数据作为上下文信息。

主要功能点

网页抓取工具 (scrape): 提供核心的网页抓取功能，允许用户指定URL并获取网页内容。
- 支持多种输出格式：抓取的内容可以以文本 (text)、HTML 或 Markdown 格式返回，默认为 Markdown，方便 LLM 进行理解和处理。
- 可选高级代理：支持使用高级代理来绕过反爬虫机制，提高抓取成功率（默认不启用）。
- 支持结构化数据提取：允许通过 'extract_object' 参数指定需要从网页中提取的特定数据结构。

安装步骤

克隆仓库: 打开终端，执行以下命令克隆 UseScraper MCP Server 仓库到本地：

git clone https://github.com/tanevanwifferen/usescraper-mcp-server.git
cd usescraper-mcp-server

安装依赖: 在仓库目录下，执行以下命令安装项目依赖：
```
npm install
```
构建服务器: 执行以下命令构建服务器代码：
```
npm run build
```

服务器配置

要将 UseScraper MCP Server 与 MCP 客户端（例如 Claude Desktop）配合使用，您需要配置客户端以连接到此服务器。以下是在 'claude_desktop_config.json' 文件中添加服务器配置的示例：

配置文件路径：

macOS: '~/Library/Application Support/Claude/claude_desktop_config.json'
Windows: '%APPDATA%/Claude/claude_desktop_config.json'

配置内容 (json 格式):

{
  "mcpServers": {
    "usescraper-server": {
      "command": "node",
      "args": ["/path/to/usescraper-mcp-server/build/index.js"],
      "env": {
        "USESCRAPER_API_KEY": "YOUR_USESCRAPER_API_KEY"
      }
    }
  }
}

配置参数说明:

'"usescraper-server"': 服务器的名称，客户端使用此名称来识别和调用该服务器。
'"command": "node"': 启动服务器的命令，这里使用 Node.js 运行时环境。
'"args": ["/path/to/usescraper-mcp-server/build/index.js"]': 启动命令的参数，指向服务器构建后的入口文件 'index.js'。 请将 '/path/to/usescraper-mcp-server' 替换为 UseScraper MCP Server 在您本地文件系统中的实际路径。
'"env": { "USESCRAPER_API_KEY": "YOUR_USESCRAPER_API_KEY" }': 设置服务器运行所需的环境变量。 请将 '"YOUR_USESCRAPER_API_KEY"' 替换为您的 UseScraper API 密钥。 您需要在 UseScraper 官网注册并获取 API 密钥。

请注意: MCP 客户端通常只读取 'command' 和 'args' 来启动 MCP 服务器，并使用 '"usescraper-server"' 这个名称来标识服务器。用户无需理解 'index.js' 代码，只需根据实际安装路径配置 'args' 和 API 密钥即可。

基本使用方法

配置完成后，MCP 客户端可以通过 MCP 协议调用 'usescraper-server' 提供的 'scrape' 工具。以下是一个调用 'scrape' 工具的 JSON 请求示例：

{
  "jsonrpc": "2.0",
  "method": "call_tool",
  "params": {
    "name": "scrape",
    "arguments": {
      "url": "https://www.example.com",
      "format": "markdown"
    }
  },
  "id": "1"
}

请求参数说明:

'"method": "call_tool"': 指定请求的方法为调用工具。
'"params": { "name": "scrape", ... }': 指定要调用的工具名称为 'scrape'。
'"arguments": { "url": "https://www.example.com", "format": "markdown" }': 提供 'scrape' 工具所需的参数。
- '"url"': 要抓取的网页 URL，例如 '"https://www.example.com"'。
- '"format"': 期望的输出格式，例如 '"markdown"'。可选值为 '"text"', '"html"', '"markdown"'。

服务器将处理该请求，抓取指定网页的内容，并以 JSON-RPC 响应的形式返回抓取结果给 MCP 客户端。

关键词