使用说明
项目简介
RAG Web Browser 是一个基于 Apify 平台的 Actor,旨在为大型语言模型(LLM)应用提供网页浏览能力,类似于 ChatGPT 的网页浏览功能。它可以根据用户提供的搜索关键词或 URL,抓取网页内容,并提取为文本、Markdown 或 HTML 格式,为 LLM 应用提供最新的网络信息。该工具支持 OpenAPI 和 MCP 协议,方便集成到各种 LLM 应用和平台中。
主要功能点
- 网页浏览与内容抓取:根据关键词或 URL 自动进行网页搜索和内容抓取。
- 动态网页支持:使用 headless 浏览器处理 JavaScript 渲染的动态网页。
- 多种输出格式:支持 Markdown、纯文本和 HTML 等多种内容输出格式。
- 反爬虫绕过:自动绕过常见的反爬虫保护机制。
- OpenAPI 和 MCP 支持:方便集成到 LLM 应用,特别是 Claude Desktop 等 MCP 客户端。
- Standby 模式:支持 Standby 模式,以 HTTP 服务器形式运行,响应速度更快,适合生产环境。
安装步骤
本项目以 Apify Actor 的形式部署和运行,无需本地安装。使用前需要:
- 拥有 Apify 账号。
- 获取 Apify API Token。
如需本地开发和测试,请参考仓库 README.md 的 "👷🏼 Development" 部分进行本地环境搭建。
服务器配置
对于 MCP 客户端,配置连接 RAG Web Browser MCP 服务器,需要以下信息:
{ "serverName": "rag-web-browser", "command": "https://rag-web-browser.apify.actor/sse", "args": { "token": "<APIFY_API_TOKEN>" }, "notes": "请将 <APIFY_API_TOKEN> 替换为您的 Apify API Token。如果本地运行,command 可以设置为 'http://localhost:3000/sse'" }
配置参数说明:
- serverName: 服务器名称,可以自定义,用于在 MCP 客户端中标识该服务器。
- command: MCP 服务器的 SSE 连接端点 URL。对于部署在 Apify 平台的 RAG Web Browser Actor,使用 'https://rag-web-browser.apify.actor/sse'。本地开发测试时,如果使用 'apify run -p' 启动,则使用 'http://localhost:3000/sse'。
- args: 连接服务器所需的参数,以 JSON 格式表示。
- token: Apify API Token,用于身份验证。请务必替换为您的实际 API Token。
基本使用方法
配置完成后,在 MCP 客户端中,可以使用 'rag-web-browser' 工具,通过 'tools/call' 方法调用,并传入以下参数:
{ "jsonrpc": "2.0", "id": 1, "method": "tools/call", "params": { "arguments": { "query": "最新的AI技术发展", "maxResults": 3 }, "name": "rag-web-browser" } }
参数说明:
- arguments: 工具的参数,以 JSON 格式表示。
- query: 搜索关键词或 URL。例如 '"最新的AI技术发展"' 或 '"https://openai.com/"'。
- maxResults: 指定抓取的最大搜索结果数量(仅当 query 为关键词时有效)。
- outputFormats: 指定输出格式,例如 '"markdown"'、'"text"' 或 '"html"',可以逗号分隔指定多个格式。其他可选参数请参考仓库 README 或 Apify Actor 页面。
- name: 工具名称,固定为 '"rag-web-browser"'。
MCP 服务器会将网页搜索和内容提取的结果以 JSON-RPC 响应的形式返回给客户端。
信息
分类
网页与API