Webscraper MCP服务器

项目简介

Webscraper MCP服务器是一个基于Model Context Protocol (MCP) 构建的后端服务，旨在为 Claude Desktop 等 LLM 客户端提供便捷的网络数据抓取能力。通过该服务器，LLM 可以安全、可扩展地访问网络资源，从而增强其处理用户请求时上下文信息的丰富度和功能性。

主要功能点

网页内容抓取: 提供工具，允许 LLM 客户端通过 URL 获取网页的文本内容，支持处理用户提供的链接，扩展 LLM 的知识来源。
YouTube 字幕抓取: 专门工具用于提取 YouTube 视频的字幕，使 LLM 能够理解和分析视频内容，提升处理多媒体信息的能力。
PDF 文档转 Markdown: 支持将 PDF 文件链接转换为 Markdown 文本，方便 LLM 处理和理解 PDF 文档内容。
工具注册与执行: 预置 'get_pdf', 'get_webpage_content', 'get_youtube_transcript' 等工具，可通过 MCP 协议被 LLM 客户端发现和调用。
JSON-RPC 协议通信: 使用标准的 JSON-RPC 协议与客户端进行通信，确保兼容性和易用性。

安装步骤

环境准备: 确保已安装 Python 环境 (建议 Python 3.8 或更高版本)。
安装依赖: 仓库中包含 'get-pip.py' 脚本，用于安装 'pip' 包管理器。运行以下命令安装 'pip' (如果尚未安装):
```
python get-pip.py
```
安装 Python 库: 根据项目依赖，可能需要安装一些 Python 库，但从提供的仓库信息来看，依赖不明确，可能需要根据实际运行情况安装缺失的库，例如 'requests', 'youtube-transcript-api', 'pdfminer.six'。可以使用 pip 安装：
```
pip install requests youtube-transcript-api pdfminer.six
```
服务器代码: 仓库信息仅包含 'README.md' 和 'get-pip.py'，核心服务器代码可能需要从仓库的完整版本下载或自行开发。假设服务器代码文件名为 'webscraper_server.py'。

服务器配置

MCP 服务器需要配置启动命令和参数，以便 MCP 客户端能够连接。以下是一个可能的 JSON 配置示例，请根据实际情况修改：

{
  "serverName": "Webscraper MCP Server",
  "command": "python",
  "args": [
    "webscraper_server.py"
  ],
  "transport": "stdio",
  "capabilities": [
    "tools",
    "resources",
    "prompts"
  ]
}

参数注释:

'serverName': 服务器名称，用于客户端识别。
'command': 启动服务器的命令，这里假设使用 'python' 解释器。
'args': 启动命令的参数，这里假设服务器主程序文件名为 'webscraper_server.py'。
'transport': 通信协议，'stdio' 表示标准输入输出。
'capabilities': 服务器声明支持的 MCP 功能，包括 'tools' (工具), 'resources' (资源), 'prompts' (Prompt 模板)。

基本使用方法

启动服务器: 在包含 'webscraper_server.py' 的目录下，使用命令行运行服务器启动命令 (例如 'python webscraper_server.py')。
配置 MCP 客户端: 在支持 MCP 协议的 LLM 客户端（如 Claude Desktop）中，配置上述 JSON 格式的服务器信息。
客户端请求: LLM 客户端可以通过 JSON-RPC 协议向服务器发送请求，例如：
- 调用 'get_webpage_content' 工具并传入网页 URL，获取网页内容。
- 调用 'get_youtube_transcript' 工具并传入 YouTube 链接，获取字幕。
- 调用 'get_pdf' 工具并传入 PDF 文件链接，将 PDF 转换为 Markdown 文本。
服务器响应: 服务器接收请求后，执行相应的工具，并将结果以 JSON-RPC 响应格式返回给客户端。

注意: 由于仓库信息不完整，以上使用说明基于对 README.md 的理解和 MCP 协议的推测，实际使用步骤和配置可能需要参考仓库的完整代码和文档进行调整。

webscraper-mcp-server