项目简介

Thomisidae 是一个基于 Model Context Protocol (MCP) 构建的服务器,旨在作为大型语言模型 (LLM) 的外部功能桥梁。它允许兼容 MCP 的 LLM 客户端(如 LM Studio)安全地访问网络信息,包括抓取网页文本、提取页面链接以及执行谷歌搜索。通过这种方式,Thomisidae 极大地增强了 LLM 获取实时外部世界信息的能力,使其能够根据最新的网络内容进行响应和决策。

主要功能点

  • 网页文本抓取 ('fetch_url_text'): 能够获取指定 URL 的网页主体内容,并将其转换为纯文本格式,供 LLM 分析和总结。
  • 网页链接提取 ('fetch_page_links'): 从指定网页中提取所有唯一的 'http'/'https' 链接,并可选择限制在同一域名内,支持以文本或 JSON 格式返回。
  • 谷歌搜索 ('google_search'): 通过谷歌可编程搜索(Custom Search API)执行网页搜索,根据 LLM 的查询提供相关的搜索结果摘要和链接,支持自定义结果数量和站点限制。
  • 安全与合规性: 默认遵守 'robots.txt' 协议,避免非法抓取;限制响应大小,防止处理过大的内容;并过滤非全球IP地址,增强安全性。
  • 灵活配置: 支持通过 'config.toml' 文件或环境变量 '.env' 进行功能开关、API 密钥配置以及机器人协议行为调整。

安装步骤

  1. 构建或下载二进制文件:

    • 如果您已安装 Rust 环境: 打开终端或命令行,导航到 Thomisidae 仓库的根目录,然后运行以下命令进行编译:
      cargo build --release
      编译成功后,可执行文件将在 'target/release/' 目录下(例如:'target/release/thomisidae' 或 'target/release/thomisidae.exe')。
    • 下载预编译版本: 如果仓库提供了预编译的二进制文件,您可以直接下载适用于您操作系统的版本。通常在 GitHub Releases 页面可以找到。
  2. 放置可执行文件: 将编译好的或下载的 'thomisidae' (或 'thomisidae.exe') 可执行文件放置到您选择的目录中。建议将其放在一个容易记住且稳定的位置。

服务器配置

MCP 服务器通过 MCP 客户端进行配置和启动。以下是 MCP 客户端(例如 LM Studio)中配置 Thomisidae 服务器的示例和说明。您需要将此配置添加到 MCP 客户端的集成设置中。

{
    "mcpServers": {
        "url-fetcher": {
            "command": "/path/to/your/thomisidae_executable",
            "args": [],
            "description": "Thomisidae MCP服务器,提供网页内容抓取和Google搜索功能",
            "env": {
                "GOOGLE_API_KEY": "YOUR_GOOGLE_API_KEY",
                "GOOGLE_CSE_ID": "YOUR_GOOGLE_CUSTOM_SEARCH_ENGINE_ID"
            }
        }
    }
}
  • 'url-fetcher': 这是 MCP 客户端中为此服务器定义的唯一名称,您可以根据需要更改。
  • 'command': 替换为您的 'thomisidae' 可执行文件的完整路径。例如:
    • Linux/macOS: '/home/user/tools/thomisidae'
    • Windows: 'C:\Users\user\tools\thomisidae.exe'
  • 'args': Thomisidae 服务器目前无需额外的启动参数,可保持为空数组 '[]'。
  • 'description': 对该服务器的简要描述。
  • 'env': 用于设置环境变量。对于 'google_search' 功能,您必须在此处或通过 'config.toml' 文件提供 Google API Key 和自定义搜索引擎 ID。
    • 'GOOGLE_API_KEY': 您的 Google Cloud API 密钥。
    • 'GOOGLE_CSE_ID': 您在 Google Programmable Search 中创建的自定义搜索引擎的 ID。
    • 注意: 密钥信息也可以通过在 'thomisidae' 可执行文件同目录下创建 'config.toml' 文件来配置,例如:
      [google_search]
      api_key = "YOUR_GOOGLE_API_KEY"
      cse_id = "YOUR_CUSTOM_SEARCH_ENGINE_ID"
      或者在同目录下创建 '.env' 文件来配置环境变量。

基本使用方法

一旦 Thomisidae MCP 服务器在您的 MCP 客户端中成功配置和启用,它将作为 LLM 的一个可用工具集。

  1. 启用工具: 在您的 MCP 客户端(如 LM Studio)的集成或插件设置中,确认 Thomisidae 提供的 'fetch_url_text', 'fetch_page_links', 'google_search' 工具已启用。
  2. LLM 自动调用: 在与 LLM 交互时,当 LLM 判断需要获取外部信息(例如,您提问一个需要实时网络搜索才能回答的问题,或者要求总结一个网页内容时),它将根据您的指令自动选择并调用 Thomisidae 服务器提供的相应工具。
  3. 用户无需手动操作: 您不需要手动执行这些工具。只需像平常一样与 LLM 对话,LLM 会智能地识别何时需要这些工具来提供更准确或最新的信息。

示例对话提示:

  • “请总结一下这篇关于人工智能最新进展的网页内容:'[某个URL]'”
  • “帮我搜索一下今天全球股市的最新动态。”
  • “提取 '[某个URL]' 页面上所有的链接。”

信息

分类

网页与API