使用说明

项目简介

MCP Fetch Server 是一个简单的 Model Context Protocol (MCP) 服务器,专注于提供网页抓取功能。它允许语言模型 (LLM) 通过标准的 MCP 协议访问和获取互联网上的网页内容,从而扩展 LLM 的知识来源和信息处理能力。

主要功能点

  • 网页抓取: 能够根据提供的 URL 从互联网上抓取网页内容。
  • Markdown 转换: 自动将抓取的 HTML 网页内容转换为 Markdown 格式,方便 LLM 理解和处理文本信息。
  • robots.txt 协议: 默认遵循网站的 robots.txt 协议,尊重网站的抓取规则(可通过参数配置忽略)。
  • 可配置 User-Agent: 允许用户自定义 User-Agent 字符串,以便在抓取网页时模拟不同的客户端身份。

安装步骤

  1. 环境准备: 确保您的系统已安装 Python 环境。
  2. 下载仓库: 克隆 AutoGenTest 仓库到本地:
    git clone https://github.com/943003797/AutoGenTest.git
  3. 进入目录: 导航到仓库根目录:
    cd AutoGenTest
  4. 创建虚拟环境 (推荐):
    python -m venv venv
  5. 激活虚拟环境:
    • Linux/macOS:
      source venv/bin/activate
    • Windows:
      .\venv\Scripts\activate
  6. 安装依赖: 安装项目所需的 Python 依赖包:
    pip install -U "autogen-agentchat" "autogen-ext[openai]" "autogen-ext[mcp]" "mcp-server-fetch" "autogen-ext[http-tool]"

服务器配置

MCP 客户端需要配置以下 JSON 信息以连接到 MCP Fetch Server。这个配置告诉客户端如何启动和连接到服务器。

{
  "serverName": "mcp-fetch",
  "command": "python",
  "args": ["mcp/mcp_server_fetch.py"]
  // "serverName": MCP 服务器的名称,客户端用以识别。
  // "command": 启动服务器的命令,这里使用 python 解释器。
  // "args": 命令参数,指定要运行的 MCP 服务器脚本 mcp_server_fetch.py。
  //
  // 可选参数:
  // "--user-agent <user_agent_string>":  自定义 User-Agent 字符串,例如 "--user-agent MyCustomAgent"。
  // "--ignore-robots-txt":  忽略 robots.txt 限制,允许抓取 robots.txt 禁止的页面。添加此参数只需将 "--ignore-robots-txt" 放入 args 数组即可。
}

基本使用方法

  1. 启动服务器: MCP Fetch Server 脚本 'mcp/mcp_server_fetch.py' 作为一个独立的 MCP 服务器运行,无需手动启动,MCP 客户端会根据配置自动启动。
  2. 客户端配置: 在您的 MCP 客户端应用中,配置上述 JSON 信息,以便客户端能够连接到 MCP Fetch Server。
  3. 调用功能: 客户端可以通过 MCP 协议向 MCP Fetch Server 发送请求,使用 "fetch" 工具或 "fetch" prompt,并提供目标网页的 URL 作为参数,即可获取网页内容。服务器会将抓取的内容以 MCP 响应的形式返回给客户端。

注意: 此 MCP Fetch Server 旨在提供基本的网页抓取功能,可能需要根据实际应用场景进行扩展和优化。

信息

分类

网页与API