使用说明

项目简介

RAG Web Browser 是一个基于 Apify 平台的 Actor，旨在为大型语言模型（LLM）应用提供网页浏览能力，类似于 ChatGPT 的网页浏览功能。它可以根据用户提供的搜索关键词或 URL，抓取网页内容，并提取为文本、Markdown 或 HTML 格式，为 LLM 应用提供最新的网络信息。该工具支持 OpenAPI 和 MCP 协议，方便集成到各种 LLM 应用和平台中。

主要功能点

网页浏览与内容抓取：根据关键词或 URL 自动进行网页搜索和内容抓取。
动态网页支持：使用 headless 浏览器处理 JavaScript 渲染的动态网页。
多种输出格式：支持 Markdown、纯文本和 HTML 等多种内容输出格式。
反爬虫绕过：自动绕过常见的反爬虫保护机制。
OpenAPI 和 MCP 支持：方便集成到 LLM 应用，特别是 Claude Desktop 等 MCP 客户端。
Standby 模式：支持 Standby 模式，以 HTTP 服务器形式运行，响应速度更快，适合生产环境。

安装步骤

本项目以 Apify Actor 的形式部署和运行，无需本地安装。使用前需要：

拥有 Apify 账号。
获取 Apify API Token。

如需本地开发和测试，请参考仓库 README.md 的 "👷🏼 Development" 部分进行本地环境搭建。

服务器配置

对于 MCP 客户端，配置连接 RAG Web Browser MCP 服务器，需要以下信息：

{
  "serverName": "rag-web-browser",
  "command": "https://rag-web-browser.apify.actor/sse",
  "args": {
    "token": "<APIFY_API_TOKEN>"
  },
  "notes": "请将 <APIFY_API_TOKEN> 替换为您的 Apify API Token。如果本地运行，command 可以设置为 'http://localhost:3000/sse'"
}

配置参数说明：

serverName: 服务器名称，可以自定义，用于在 MCP 客户端中标识该服务器。
command: MCP 服务器的 SSE 连接端点 URL。对于部署在 Apify 平台的 RAG Web Browser Actor，使用 'https://rag-web-browser.apify.actor/sse'。本地开发测试时，如果使用 'apify run -p' 启动，则使用 'http://localhost:3000/sse'。
args: 连接服务器所需的参数，以 JSON 格式表示。
- token: Apify API Token，用于身份验证。请务必替换为您的实际 API Token。

基本使用方法

配置完成后，在 MCP 客户端中，可以使用 'rag-web-browser' 工具，通过 'tools/call' 方法调用，并传入以下参数：

{
  "jsonrpc": "2.0",
  "id": 1,
  "method": "tools/call",
  "params": {
    "arguments": {
      "query": "最新的AI技术发展",
      "maxResults": 3
    },
    "name": "rag-web-browser"
  }
}

参数说明：

arguments: 工具的参数，以 JSON 格式表示。
- query: 搜索关键词或 URL。例如 '"最新的AI技术发展"' 或 '"https://openai.com/"'。
- maxResults: 指定抓取的最大搜索结果数量（仅当 query 为关键词时有效）。
- outputFormats: 指定输出格式，例如 '"markdown"'、'"text"' 或 '"html"'，可以逗号分隔指定多个格式。其他可选参数请参考仓库 README 或 Apify Actor 页面。
name: 工具名称，固定为 '"rag-web-browser"'。

MCP 服务器会将网页搜索和内容提取的结果以 JSON-RPC 响应的形式返回给客户端。