项目简介
WebInsight 是一个本地优先的平台,专注于网页内容的提取、语义丰富和由 AI 驱动的洞察。它使用 Bun 和 SvelteKit 构建,运行在一个统一的本地服务器上,确保用户隐私、数据所有权和完整的离线功能。该平台通过集成的 Model Context Protocol (MCP) 和 Fabric AI 扩展了传统的 RSS 聚合能力,提供高级网页抓取、解析和语义分析。它包含专门的 AI Agent(Archivist、Scribe、Librarian),用于收集、总结和组织内容,构建个性化知识中心。
主要功能点
- 高级网页内容获取: 支持 RSS、HTML 和 JSON 内容的抓取,可通过配置选择器和规则。
- AI 驱动内容分析: 利用 Fabric AI 模式进行自动摘要、情感分析、内容分类等。
- MCP 集成: 作为 MCP 服务器层,集成并管理如 Crawl4AI 等工具,并能连接到外部 MCP 服务器执行 Fabric AI 模式。
- 本地优先架构: 所有数据和处理都在本地进行,保障用户隐私。
- 知识管理: 通过 AI Agent 组织和管理抓取到的内容。
- 友好的用户界面: 提供基于 SvelteKit 的交互式界面,包括 MCP 管理界面。
安装步骤
-
前提条件:
- 安装 Bun (推荐 1.1.x 或更高版本)
- 安装 Node.js (推荐 20.x 或更高版本)
- 安装 Git
-
克隆仓库:
git clone https://github.com/caramoussin/webinsight.git cd webinsight -
安装依赖:
bun install -
设置数据库:
bun run db:generate # 生成数据库迁移文件 bun run db:migrate # 应用数据库迁移
服务器配置
WebInsight 应用程序本身包含了一个 MCP 服务器层。MCP 客户端或其他应用如果需要调用 WebInsight 提供的工具(例如,通过 Crawl4AI 进行网页抓取)或访问其管理的能力,需要连接到正在运行的 WebInsight 应用的 MCP API 端点。
以下是 MCP 客户端连接到 WebInsight MCP 服务器时可能需要的配置信息示例(请根据实际部署环境调整地址和端口):
{ "name": "WebInsight MCP", "description": "WebInsight 本地 AI 内容平台提供的 MCP 服务,用于网页抓取和内容分析集成。", // command 和 args 用于启动服务器进程。对于 WebInsight 这种持续运行的应用服务器, // 这里的命令是启动整个应用。MCP 客户端需要确保这个命令已经运行。 "command": "bun", "args": ["run", "dev"], // 注意:在生产环境中,args 通常是 ["run", "build"] 然后是启动构建后的应用。 // 例如: ["sh", "-c", "bun run build && bun run start"] // environment 可选:如果服务器需要特定的环境变量 "environment": { // "DATABASE_URL": "./local.db", // "AI_API_KEY": "your_optional_ai_key" }, // connection 部分描述了 MCP 客户端如何连接到已启动的服务器。 // WebInsight 的 MCP API 通过 HTTP POST 暴露。 "connection": { "type": "http", // 表示使用 HTTP 协议进行通信 "url": "http://localhost:3000/api/mcp", // WebInsight 默认开发服务器地址和 MCP API 端点 // 如果仅需要访问 Crawl4AI 提供者,URL 可以是 "http://localhost:3000/api/mcp/crawl4ai" "timeout": 60000 // 可选:请求超时时间(毫秒) } }
- Server Name: 服务器的友好名称。
- Command/Args: 启动 WebInsight 应用程序的命令和参数。MCP 客户端会执行此命令来确保服务器运行。
- Environment: 启动服务器进程时需要的环境变量。
- Connection: 描述客户端如何通过网络连接到正在运行的 WebInsight 应用程序提供的 MCP API 端点。'type' 指明协议类型(这里是 HTTP),'url' 是 MCP API 的完整地址。
基本使用方法
- 启动服务器: 在项目根目录运行以下命令启动开发服务器:
这将启动 SvelteKit 应用,其中包括 Node.js 后端和内置的 MCP 服务器层。bun dev - 访问 WebInsight 界面: 在浏览器中访问 'http://localhost:3000'(默认地址)以使用 WebInsight 的前端界面。该界面也通过内部客户端调用 MCP API。
- 通过 MCP 客户端交互: 配置支持 MCP 协议的客户端(例如,另一个应用或命令行工具),使用上述服务器配置信息连接到 'http://localhost:3000/api/mcp' 端点。客户端即可发现并调用 WebInsight 提供的工具,例如执行网页抓取或触发内容分析流程。
信息
分类
网页与API