项目简介

OARC-Crawlers 是一个 Python 框架，专注于从各类在线源（如 YouTube, GitHub, ArXiv, DuckDuckGo 和通用网站）获取、处理和存储数据。它提供模块化、异步的爬虫组件和统一的数据存储（使用 Apache Parquet）。作为 MCP 服务器实现，OARC-Crawlers 通过标准化的协议将这些数据获取和处理能力作为“工具”暴露给 LLM 客户端或 AI Agent，为 LLM 提供丰富的外部上下文信息和功能扩展。

主要功能点

YouTube 工具: 支持下载视频、播放列表，提取字幕、聊天记录和视频信息。
GitHub 工具: 支持克隆仓库、分析代码、获取仓库摘要和查找相似代码片段。
ArXiv 工具: 支持下载论文源文件、提取 LaTeX 内容、关键词、参考文献、数学公式，以及构建引用网络。
Web 爬取工具: 支持从通用网页、文档站点和 PyPI 页面提取文本内容。
DuckDuckGo 搜索工具: 支持进行文本、图片和新闻搜索。
数据存储: 将获取的数据统一存储为易于分析的 Apache Parquet 格式。

安装步骤

安装 Python: 确保您的系统安装了 Python 3.10 或 3.11 版本。
通过 pip 安装: 打开终端或命令行，运行以下命令安装 OARC-Crawlers 及其依赖：
```
pip install oarc-crawlers
```

服务器配置

MCP 客户端（如 VS Code Copilot Chat）通常需要配置如何启动 MCP 服务器进程。对于 OARC-Crawlers MCP 服务器，典型的启动命令如下：

Command: oarc-crawlers
Arguments: mcp run

您可以根据需要添加参数来定制服务器行为，例如：

'--port <端口号>': 指定服务器监听的端口（默认为 3000）。
'--transport <协议>': 指定传输协议（如 'ws' 代表 WebSocket，'sse' 代表 Server-Sent Events，默认为 'ws'）。
'--data-dir <目录路径>': 指定数据存储目录。

在 MCP 客户端的配置中，您需要提供 'command' 和 'args' 列表。例如，如果客户端配置界面允许输入这些信息：

服务器名称 (Server Name): OARC-Crawlers
命令 (Command): 'oarc-crawlers'
参数 (Arguments): 'mcp', 'run', '--port', '3001', '--transport', 'ws', '--data-dir', '/path/to/your/data' (根据您的需求调整参数)

基本使用方法

OARC-Crawlers 的 MCP 服务器主要供 LLM 客户端或 AI Agent 使用。您通常不需要直接通过命令行运行服务器命令与 LLM 交互。一旦服务器启动并被 LLM 客户端发现和连接，LLM 就可以通过 MCP 协议调用 OARC-Crawlers 提供的各种“工具”（如下载 YouTube 视频、搜索 ArXiv 论文等），从而获取外部信息或执行操作。

对于支持 MCP 的客户端（例如某些版本的 VS Code Copilot Chat），您可能需要使用以下命令将 OARC-Crawlers 注册为一个可用的 MCP 服务器：

oarc-crawlers mcp install --name "OARC Crawlers 工具"

执行此命令后，您的 LLM 客户端应该能够检测并连接到 OARC-Crawlers 服务器，从而获得其提供的能力。

关键词

项目简介

主要功能点

安装步骤

服务器配置

基本使用方法

信息