Webscraper MCP服务器
项目简介
Webscraper MCP服务器是一个基于Model Context Protocol (MCP) 构建的后端服务,旨在为 Claude Desktop 等 LLM 客户端提供便捷的网络数据抓取能力。通过该服务器,LLM 可以安全、可扩展地访问网络资源,从而增强其处理用户请求时上下文信息的丰富度和功能性。
主要功能点
- 网页内容抓取: 提供工具,允许 LLM 客户端通过 URL 获取网页的文本内容,支持处理用户提供的链接,扩展 LLM 的知识来源。
- YouTube 字幕抓取: 专门工具用于提取 YouTube 视频的字幕,使 LLM 能够理解和分析视频内容,提升处理多媒体信息的能力。
- PDF 文档转 Markdown: 支持将 PDF 文件链接转换为 Markdown 文本,方便 LLM 处理和理解 PDF 文档内容。
- 工具注册与执行: 预置 'get_pdf', 'get_webpage_content', 'get_youtube_transcript' 等工具,可通过 MCP 协议被 LLM 客户端发现和调用。
- JSON-RPC 协议通信: 使用标准的 JSON-RPC 协议与客户端进行通信,确保兼容性和易用性。
安装步骤
- 环境准备: 确保已安装 Python 环境 (建议 Python 3.8 或更高版本)。
- 安装依赖: 仓库中包含 'get-pip.py' 脚本,用于安装 'pip' 包管理器。运行以下命令安装 'pip' (如果尚未安装):
python get-pip.py - 安装 Python 库: 根据项目依赖,可能需要安装一些 Python 库,但从提供的仓库信息来看,依赖不明确,可能需要根据实际运行情况安装缺失的库,例如 'requests', 'youtube-transcript-api', 'pdfminer.six'。可以使用 pip 安装:
pip install requests youtube-transcript-api pdfminer.six - 服务器代码: 仓库信息仅包含 'README.md' 和 'get-pip.py',核心服务器代码可能需要从仓库的完整版本下载或自行开发。假设服务器代码文件名为 'webscraper_server.py'。
服务器配置
MCP 服务器需要配置启动命令和参数,以便 MCP 客户端能够连接。以下是一个可能的 JSON 配置示例,请根据实际情况修改:
{ "serverName": "Webscraper MCP Server", "command": "python", "args": [ "webscraper_server.py" ], "transport": "stdio", "capabilities": [ "tools", "resources", "prompts" ] }
参数注释:
- 'serverName': 服务器名称,用于客户端识别。
- 'command': 启动服务器的命令,这里假设使用 'python' 解释器。
- 'args': 启动命令的参数,这里假设服务器主程序文件名为 'webscraper_server.py'。
- 'transport': 通信协议,'stdio' 表示标准输入输出。
- 'capabilities': 服务器声明支持的 MCP 功能,包括 'tools' (工具), 'resources' (资源), 'prompts' (Prompt 模板)。
基本使用方法
- 启动服务器: 在包含 'webscraper_server.py' 的目录下,使用命令行运行服务器启动命令 (例如 'python webscraper_server.py')。
- 配置 MCP 客户端: 在支持 MCP 协议的 LLM 客户端(如 Claude Desktop)中,配置上述 JSON 格式的服务器信息。
- 客户端请求: LLM 客户端可以通过 JSON-RPC 协议向服务器发送请求,例如:
- 调用 'get_webpage_content' 工具并传入网页 URL,获取网页内容。
- 调用 'get_youtube_transcript' 工具并传入 YouTube 链接,获取字幕。
- 调用 'get_pdf' 工具并传入 PDF 文件链接,将 PDF 转换为 Markdown 文本。
- 服务器响应: 服务器接收请求后,执行相应的工具,并将结果以 JSON-RPC 响应格式返回给客户端。
注意: 由于仓库信息不完整,以上使用说明基于对 README.md 的理解和 MCP 协议的推测,实际使用步骤和配置可能需要参考仓库的完整代码和文档进行调整。
信息
分类
网页与API