使用说明

项目简介

RAG Web Browser 是一个基于 Apify 平台的 Actor,旨在为大型语言模型(LLM)应用提供网页浏览能力,类似于 ChatGPT 的网页浏览功能。它可以根据用户提供的搜索关键词或 URL,抓取网页内容,并提取为文本、Markdown 或 HTML 格式,为 LLM 应用提供最新的网络信息。该工具支持 OpenAPI 和 MCP 协议,方便集成到各种 LLM 应用和平台中。

主要功能点

  • 网页浏览与内容抓取:根据关键词或 URL 自动进行网页搜索和内容抓取。
  • 动态网页支持:使用 headless 浏览器处理 JavaScript 渲染的动态网页。
  • 多种输出格式:支持 Markdown、纯文本和 HTML 等多种内容输出格式。
  • 反爬虫绕过:自动绕过常见的反爬虫保护机制。
  • OpenAPI 和 MCP 支持:方便集成到 LLM 应用,特别是 Claude Desktop 等 MCP 客户端。
  • Standby 模式:支持 Standby 模式,以 HTTP 服务器形式运行,响应速度更快,适合生产环境。

安装步骤

本项目以 Apify Actor 的形式部署和运行,无需本地安装。使用前需要:

  1. 拥有 Apify 账号。
  2. 获取 Apify API Token。

如需本地开发和测试,请参考仓库 README.md 的 "👷🏼 Development" 部分进行本地环境搭建。

服务器配置

对于 MCP 客户端,配置连接 RAG Web Browser MCP 服务器,需要以下信息:

{
  "serverName": "rag-web-browser",
  "command": "https://rag-web-browser.apify.actor/sse",
  "args": {
    "token": "<APIFY_API_TOKEN>"
  },
  "notes": "请将 <APIFY_API_TOKEN> 替换为您的 Apify API Token。如果本地运行,command 可以设置为 'http://localhost:3000/sse'"
}

配置参数说明:

  • serverName: 服务器名称,可以自定义,用于在 MCP 客户端中标识该服务器。
  • command: MCP 服务器的 SSE 连接端点 URL。对于部署在 Apify 平台的 RAG Web Browser Actor,使用 'https://rag-web-browser.apify.actor/sse'。本地开发测试时,如果使用 'apify run -p' 启动,则使用 'http://localhost:3000/sse'。
  • args: 连接服务器所需的参数,以 JSON 格式表示。
    • token: Apify API Token,用于身份验证。请务必替换为您的实际 API Token

基本使用方法

配置完成后,在 MCP 客户端中,可以使用 'rag-web-browser' 工具,通过 'tools/call' 方法调用,并传入以下参数:

{
  "jsonrpc": "2.0",
  "id": 1,
  "method": "tools/call",
  "params": {
    "arguments": {
      "query": "最新的AI技术发展",
      "maxResults": 3
    },
    "name": "rag-web-browser"
  }
}

参数说明:

  • arguments: 工具的参数,以 JSON 格式表示。
    • query: 搜索关键词或 URL。例如 '"最新的AI技术发展"' 或 '"https://openai.com/"'。
    • maxResults: 指定抓取的最大搜索结果数量(仅当 query 为关键词时有效)。
    • outputFormats: 指定输出格式,例如 '"markdown"'、'"text"' 或 '"html"',可以逗号分隔指定多个格式。其他可选参数请参考仓库 README 或 Apify Actor 页面。
  • name: 工具名称,固定为 '"rag-web-browser"'。

MCP 服务器会将网页搜索和内容提取的结果以 JSON-RPC 响应的形式返回给客户端。

信息

分类

网页与API