使用说明

项目简介

RAG Retriever 是一个知识检索工具,它能够从网页、本地文档、图片、GitHub 仓库和 Confluence 空间中提取信息,并将其索引到向量数据库中,从而实现语义搜索。同时,RAG Retriever 实现了 Anthropic 的模型上下文协议 (MCP) 服务器,允许 AI 助手(如 Cursor 和 Claude Desktop)直接利用 RAG Retriever 的检索能力,获取更丰富的上下文信息。

主要功能点

  • 统一知识库: 集中管理来自各种来源的知识,包括网页、本地文件、Confluence、GitHub等。
  • 语义搜索: 支持对索引内容进行语义搜索,快速找到相关信息。
  • 多种内容源: 支持处理文本、PDF、图片、网页、GitHub 仓库和 Confluence 空间等多种内容类型。
  • MCP 服务器: 实现了 Model Context Protocol 服务器,可以与支持 MCP 协议的 AI 客户端集成。
  • 工具注册与执行: 通过 MCP 协议提供 'web_search'(网页搜索)、'vector_search'(向量数据库搜索)、'crawl_and_index_url'(抓取并索引网页)等工具,供 LLM 调用。
  • 多种服务器模式: 支持 Stdio, SSE 等多种服务器模式,满足不同集成需求。
  • 知识管理 Web UI: 提供 Web 用户界面,方便用户管理知识库和进行搜索。

安装步骤

  1. 安装 RAG Retriever: 打开终端并执行以下命令,使用 'pipx' 或 'uv' 进行安装 (推荐使用 'pipx' 以隔离环境):

    # 使用 pipx (推荐)
    pipx install rag-retriever
    
    # 或使用 uv (更快安装)
    uv pip install --system rag-retriever

    安装过程中会自动安装 Chromium 浏览器。

  2. 初始化配置: 安装完成后,运行初始化命令创建配置文件:

    rag-retriever --init

    这将在 '~/.config/rag-retriever/config.yaml' (Unix/Mac) 或 '%APPDATA%\rag-retriever\config.yaml' (Windows) 创建配置文件。

  3. 配置 OpenAI API 密钥: 编辑配置文件 'config.yaml',在 'api' 部分添加你的 OpenAI API 密钥:

    api:
      openai_api_key: "sk-your-api-key-here"

服务器配置 (MCP 客户端)

要将 RAG Retriever 作为 MCP 服务器与 MCP 客户端(例如 Cursor 或 Claude Desktop)连接,您需要配置客户端的 MCP Server 设置。以下是配置信息示例 (JSON 格式):

针对 Stdio 模式 (例如 Cursor, Claude Desktop,默认模式)

{
  "serverName": "rag-retriever",
  "serverType": "stdio",
  "command": "/Users/<你的用户名>/.local/bin/mcp-rag-retriever"  // 替换为 'which mcp-rag-retriever' 命令的输出
}

参数说明:

  • 'serverName': 服务器名称,可以自定义,例如 "rag-retriever"。
  • 'serverType': 服务器类型,选择 "stdio" (标准输入输出模式)。
  • 'command': 关键配置。MCP 服务器的启动命令。请将 '/Users/<你的用户名>/.local/bin/mcp-rag-retriever' 替换为在终端中运行 'which mcp-rag-retriever' 命令后输出的 完整路径。 这是 'mcp-rag-retriever' 可执行文件的实际位置。

注意:

  • 请务必将 'command' 字段的值替换为您实际的 'mcp-rag-retriever' 命令路径。您可以使用 'which mcp-rag-retriever' 命令在终端中查找该路径。
  • 某�� MCP 客户端可能需要您手动添加服务器配置,请参考您使用的 MCP 客户端的文档进行配置。

基本使用方法

配置完成后,在您的 MCP 客户端中,您可以使用 RAG Retriever 提供的工具,例如:

  • 网页搜索 (web_search): 让 AI 助手进行网页搜索,获取最新信息。
  • 向量检索 (vector_search): 让 AI 助手在您已索引的知识库中进行语义搜索,查找相关文档片段。
  • 网页抓取和索引 (crawl_and_index_url): 让 AI 助手抓取指定网页的内容,并将其添加到知识库中。

具体如何调用这些工具,请参考您使用的 MCP 客户端的文档。通常,您可以通过特定的指令或界面操作来触发这些工具。

示例 (在 Cursor 中使用):

在 Cursor 中,您可以尝试使用 '@rag-retriever web_search "最新的Python版本"' 来调用 'web_search' 工具进行网页搜索。

信息

分类

网页与API