项目简介

GetGather是一个基于Model Context Protocol (MCP) 构建的容器化数据采集服务,它允许MCP客户端通过浏览器自动化与各类网站进行交互,执行登录、导航、表单填写等操作,并从网页中提取结构化信息。

主要功能

  • 浏览器自动化:通过无头浏览器自动执行网页操作
  • 数据蒸馏:使用预定义的模式从网页中提取结构化数据
  • 多网站支持:预置了Amazon、BBC、Goodreads、NYTimes、Wayfair等多个热门网站的数据采集模板
  • 会话管理:支持浏览器会话的创建、管理和持久化
  • 代理配置:支持通过代理服务器进行网络访问
  • 容器化部署:提供完整的Docker支持,可快速部署到各种云平台

安装步骤

使用Docker运行

docker run -p 23456:23456 ghcr.io/mcp-getgather/mcp-getgather

服务器配置

MCP客户端需要配置以下信息来连接GetGather服务器:

对于VS Code、Cursor等支持远程MCP服务器的客户端:

{
  "mcpServers": {
    "getgather": {
      "url": "http://127.0.0.1:23456/mcp
}

对于Claude Desktop:

{
  "mcpServers": {
    "getgather": {
      "command": "npx",
      "args": ["mcp-remote", "http://127.0.0.1:23456/mcp", "--allow-http"]
  }
}

对于Codex CLI: 在'~/.codex/config.toml'文件中配置:

[mcp_servers.getgather]
command = "npx"
args = ["mcp-remote", "http://127.0.0.1:23456/mcp", "--allow-http"]

基本使用方法

  1. 启动Docker容器后,MCP客户端即可通过配置的连接信息访问服务器
  2. 服务器提供预定义的浏览器自动化工具,可执行数据采集任务
  3. 支持从浏览器会话中提取结构化数据,如订单信息、书单、新闻头条等

信息

分类

网页与API