项目简介
GetGather是一个基于Model Context Protocol (MCP) 构建的容器化数据采集服务,它允许MCP客户端通过浏览器自动化与各类网站进行交互,执行登录、导航、表单填写等操作,并从网页中提取结构化信息。
主要功能
- 浏览器自动化:通过无头浏览器自动执行网页操作
- 数据蒸馏:使用预定义的模式从网页中提取结构化数据
- 多网站支持:预置了Amazon、BBC、Goodreads、NYTimes、Wayfair等多个热门网站的数据采集模板
- 会话管理:支持浏览器会话的创建、管理和持久化
- 代理配置:支持通过代理服务器进行网络访问
- 容器化部署:提供完整的Docker支持,可快速部署到各种云平台
安装步骤
使用Docker运行
docker run -p 23456:23456 ghcr.io/mcp-getgather/mcp-getgather
服务器配置
MCP客户端需要配置以下信息来连接GetGather服务器:
对于VS Code、Cursor等支持远程MCP服务器的客户端:
{ "mcpServers": { "getgather": { "url": "http://127.0.0.1:23456/mcp }
对于Claude Desktop:
{ "mcpServers": { "getgather": { "command": "npx", "args": ["mcp-remote", "http://127.0.0.1:23456/mcp", "--allow-http"] } }
对于Codex CLI: 在'~/.codex/config.toml'文件中配置:
[mcp_servers.getgather] command = "npx" args = ["mcp-remote", "http://127.0.0.1:23456/mcp", "--allow-http"]
基本使用方法
- 启动Docker容器后,MCP客户端即可通过配置的连接信息访问服务器
- 服务器提供预定义的浏览器自动化工具,可执行数据采集任务
- 支持从浏览器会话中提取结构化数据,如订单信息、书单、新闻头条等
信息
分类
网页与API