项目简介
OARC-Crawlers 是一个 Python 框架,专注于从各类在线源(如 YouTube, GitHub, ArXiv, DuckDuckGo 和通用网站)获取、处理和存储数据。它提供模块化、异步的爬虫组件和统一的数据存储(使用 Apache Parquet)。作为 MCP 服务器实现,OARC-Crawlers 通过标准化的协议将这些数据获取和处理能力作为“工具”暴露给 LLM 客户端或 AI Agent,为 LLM 提供丰富的外部上下文信息和功能扩展。
主要功能点
- YouTube 工具: 支持下载视频、播放列表,提取字幕、聊天记录和视频信息。
- GitHub 工具: 支持克隆仓库、分析代码、获取仓库摘要和查找相似代码片段。
- ArXiv 工具: 支持下载论文源文件、提取 LaTeX 内容、关键词、参考文献、数学公式,以及构建引用网络。
- Web 爬取工具: 支持从通用网页、文档站点和 PyPI 页面提取文本内容。
- DuckDuckGo 搜索工具: 支持进行文本、图片和新闻搜索。
- 数据存储: 将获取的数据统一存储为易于分析的 Apache Parquet 格式。
安装步骤
- 安装 Python: 确保您的系统安装了 Python 3.10 或 3.11 版本。
- 通过 pip 安装: 打开终端或命令行,运行以下命令安装 OARC-Crawlers 及其依赖:
pip install oarc-crawlers
服务器配置
MCP 客户端(如 VS Code Copilot Chat)通常需要配置如何启动 MCP 服务器进程。对于 OARC-Crawlers MCP 服务器,典型的启动命令如下:
Command: oarc-crawlers Arguments: mcp run
您可以根据需要添加参数来定制服务器行为,例如:
- '--port <端口号>': 指定服务器监听的端口(默认为 3000)。
- '--transport <协议>': 指定传输协议(如 'ws' 代表 WebSocket,'sse' 代表 Server-Sent Events,默认为 'ws')。
- '--data-dir <目录路径>': 指定数据存储目录。
在 MCP 客户端的配置中,您需要提供 'command' 和 'args' 列表。例如,如果客户端配置界面允许输入这些信息:
- 服务器名称 (Server Name): OARC-Crawlers
- 命令 (Command): 'oarc-crawlers'
- 参数 (Arguments): 'mcp', 'run', '--port', '3001', '--transport', 'ws', '--data-dir', '/path/to/your/data' (根据您的需求调整参数)
基本使用方法
OARC-Crawlers 的 MCP 服务器主要供 LLM 客户端或 AI Agent 使用。您通常不需要直接通过命令行运行服务器命令与 LLM 交互。一旦服务器启动并被 LLM 客户端发现和连接,LLM 就可以通过 MCP 协议调用 OARC-Crawlers 提供的各种“工具”(如下载 YouTube 视频、搜索 ArXiv 论文等),从而获取外部信息或执行操作。
对于支持 MCP 的客户端(例如某些版本的 VS Code Copilot Chat),您可能需要使用以下命令将 OARC-Crawlers 注册为一个可用的 MCP 服务器:
oarc-crawlers mcp install --name "OARC Crawlers 工具"
执行此命令后,您的 LLM 客户端应该能够检测并连接到 OARC-Crawlers 服务器,从而获得其提供的能力。
信息
分类
网页与API