使用说明

项目简介

'mcp-server-fetch-python' 是一个基于 Model Context Protocol (MCP) 的服务器实现,专注于从 Web 页面和媒体文件中提取信息。它提供了一系列工具,可以将网页内容转换为多种格式,例如纯文本、完全渲染的 HTML 和 Markdown。此外,该服务器还具备从媒体文件(如图片和视频)中提取内容的能力,并利用 AI 技术进行内容分析,尤其适用于需要从网页或媒体资源中获取结构化或非结构化数据的场景。

主要功能点

  • 多样的内容提取工具: 提供四种工具,包括:
    • 'get-raw-text': 快速提取网页的原始文本内容,适用于结构化数据或纯文本页面。
    • 'get-rendered-html': 使用无头浏览器获取完全渲染的 HTML 内容,适用于 JavaScript 动态加载内容的网页。
    • 'get-markdown': 将网页内容转换为格式良好的 Markdown,保持文档结构清晰易读。
    • 'get-markdown-from-media': 利用 AI 技术从媒体文件(图片、视频)中提取内容,并转换为 Markdown 格式,需要配置 OpenAI API 密钥。
  • 支持 JavaScript 渲染: 'get-rendered-html' 工具能够处理现代 Web 应用和单页应用 (SPA) 中依赖 JavaScript 渲染的内容。
  • AI 驱动的媒体内容提取: 'get-markdown-from-media' 工具使用计算机视觉和 OCR 技术分析媒体文件,并提取文本内容,为处理视觉内容提供了强大的能力。
  • 易于集成到 MCP 客户端: 通过标准的 MCP 协议与客户端通信,可以方便地集成到任何支持 MCP 协议的 LLM 应用中,例如 Claude Desktop。

安装步骤

  1. 克隆仓库 在本地克隆 'mcp-server-fetch-python' 仓库:
    git clone https://github.com/tatn/mcp-server-fetch-python.git
    cd mcp-server-fetch-python
  2. 安装依赖和构建 使用 'uv' 工具安装项目依赖并构建:
    uv sync
    uv build

服务器配置

要将 'mcp-server-fetch-python' 服务器配置到 MCP 客户端(例如 Claude Desktop),您需要在客户端的配置文件中添加 MCP 服务器的配置信息。以下是一个配置示例,通常需要添加到客户端的配置文件(例如 Claude Desktop 的 'claude_desktop_config.json'):

"mcpServers": {
  "mcp-server-fetch-python": {
    "command": "uvx",  // 启动服务器的命令,这里使用 uvx
    "args": [
      "mcp-server-fetch-python" // 运行 mcp-server-fetch-python 服务
    ],
    "env": { // (可选) 环境变量配置
        "OPENAI_API_KEY": "sk-****", // (可选) 如果使用 get-markdown-from-media 工具,需要设置 OpenAI API Key
        "PYTHONIOENCODING": "utf-8", // (可选) 解决字符编码问题,设置为 "utf-8"
        "MODEL_NAME": "gpt-4o"        // (可选) 指定模型名称,默认为 "gpt-4o"
    }
  }
}

配置参数说明

  • 'command': 指定启动 MCP 服务器的命令。'uvx' 是一个用于运行 Python 应用的工具,这里用于执行 'mcp-server-fetch-python'。
  • 'args': 传递给启动命令的参数,指定要运行的 MCP 服务器入口点。
  • 'env': (可选) 环境变量配置,用于配置服务器运行所需的环境变量。
    • 'OPENAI_API_KEY': 必需 (如果使用 'get-markdown-from-media' 工具)。用于 AI 驱动的媒体内容提取,请替换 'sk-****' 为您实际的 OpenAI API 密钥。
    • 'PYTHONIOENCODING': (可选) 用于设置 Python 的字符编码,如果遇到字符编码问题,可以设置为 '"utf-8"'。
    • 'MODEL_NAME': (可选) 指定用于 'get-markdown-from-media' 工具的 OpenAI 模型名称,默认为 '"gpt-4o"'。

基本使用方法

完成配置后,MCP 客户端应该能够检测并连接到 'mcp-server-fetch-python' 服务器。您可以通过客户端界面或指令,调用服务器提供的工具,例如:

  1. 在 MCP 客户端中选择或指定使用 'mcp-server-fetch-python' 服务器。
  2. 调用 'get-markdown' 工具,并提供目标网页的 URL 作为参数。
  3. 服务器将返回该网页的 Markdown 格式内容。

其他工具(如 'get-raw-text', 'get-rendered-html', 'get-markdown-from-media')的使用方法类似,根据工具的描述和参数要求进行调用即可。具体工具的详细信息,请参考仓库的 'README.md' 文件或工具的描述信息。

信息

分类

网页与API