使用说明
项目简介
MCP Fetch Server 是一个简单的 Model Context Protocol (MCP) 服务器,专注于提供网页抓取功能。它允许语言模型 (LLM) 通过标准的 MCP 协议访问和获取互联网上的网页内容,从而扩展 LLM 的知识来源和信息处理能力。
主要功能点
- 网页抓取: 能够根据提供的 URL 从互联网上抓取网页内容。
- Markdown 转换: 自动将抓取的 HTML 网页内容转换为 Markdown 格式,方便 LLM 理解和处理文本信息。
- robots.txt 协议: 默认遵循网站的 robots.txt 协议,尊重网站的抓取规则(可通过参数配置忽略)。
- 可配置 User-Agent: 允许用户自定义 User-Agent 字符串,以便在抓取网页时模拟不同的客户端身份。
安装步骤
- 环境准备: 确保您的系统已安装 Python 环境。
- 下载仓库: 克隆 AutoGenTest 仓库到本地:
git clone https://github.com/943003797/AutoGenTest.git - 进入目录: 导航到仓库根目录:
cd AutoGenTest - 创建虚拟环境 (推荐):
python -m venv venv - 激活虚拟环境:
- Linux/macOS:
source venv/bin/activate - Windows:
.\venv\Scripts\activate
- Linux/macOS:
- 安装依赖: 安装项目所需的 Python 依赖包:
pip install -U "autogen-agentchat" "autogen-ext[openai]" "autogen-ext[mcp]" "mcp-server-fetch" "autogen-ext[http-tool]"
服务器配置
MCP 客户端需要配置以下 JSON 信息以连接到 MCP Fetch Server。这个配置告诉客户端如何启动和连接到服务器。
{ "serverName": "mcp-fetch", "command": "python", "args": ["mcp/mcp_server_fetch.py"] // "serverName": MCP 服务器的名称,客户端用以识别。 // "command": 启动服务器的命令,这里使用 python 解释器。 // "args": 命令参数,指定要运行的 MCP 服务器脚本 mcp_server_fetch.py。 // // 可选参数: // "--user-agent <user_agent_string>": 自定义 User-Agent 字符串,例如 "--user-agent MyCustomAgent"。 // "--ignore-robots-txt": 忽略 robots.txt 限制,允许抓取 robots.txt 禁止的页面。添加此参数只需将 "--ignore-robots-txt" 放入 args 数组即可。 }
基本使用方法
- 启动服务器: MCP Fetch Server 脚本 'mcp/mcp_server_fetch.py' 作为一个独立的 MCP 服务器运行,无需手动启动,MCP 客户端会根据配置自动启动。
- 客户端配置: 在您的 MCP 客户端应用中,配置上述 JSON 信息,以便客户端能够连接到 MCP Fetch Server。
- 调用功能: 客户端可以通过 MCP 协议向 MCP Fetch Server 发送请求,使用 "fetch" 工具或 "fetch" prompt,并提供目标网页的 URL 作为参数,即可获取网页内容。服务器会将抓取的内容以 MCP 响应的形式返回给客户端。
注意: 此 MCP Fetch Server 旨在提供基本的网页抓取功能,可能需要根据实际应用场景进行扩展和优化。
信息
分类
网页与API