项目简介
Thomisidae 是一个基于 Model Context Protocol (MCP) 构建的服务器,旨在作为大型语言模型 (LLM) 的外部功能桥梁。它允许兼容 MCP 的 LLM 客户端(如 LM Studio)安全地访问网络信息,包括抓取网页文本、提取页面链接以及执行谷歌搜索。通过这种方式,Thomisidae 极大地增强了 LLM 获取实时外部世界信息的能力,使其能够根据最新的网络内容进行响应和决策。
主要功能点
- 网页文本抓取 ('fetch_url_text'): 能够获取指定 URL 的网页主体内容,并将其转换为纯文本格式,供 LLM 分析和总结。
- 网页链接提取 ('fetch_page_links'): 从指定网页中提取所有唯一的 'http'/'https' 链接,并可选择限制在同一域名内,支持以文本或 JSON 格式返回。
- 谷歌搜索 ('google_search'): 通过谷歌可编程搜索(Custom Search API)执行网页搜索,根据 LLM 的查询提供相关的搜索结果摘要和链接,支持自定义结果数量和站点限制。
- 安全与合规性: 默认遵守 'robots.txt' 协议,避免非法抓取;限制响应大小,防止处理过大的内容;并过滤非全球IP地址,增强安全性。
- 灵活配置: 支持通过 'config.toml' 文件或环境变量 '.env' 进行功能开关、API 密钥配置以及机器人协议行为调整。
安装步骤
-
构建或下载二进制文件:
- 如果您已安装 Rust 环境:
打开终端或命令行,导航到 Thomisidae 仓库的根目录,然后运行以下命令进行编译:
编译成功后,可执行文件将在 'target/release/' 目录下(例如:'target/release/thomisidae' 或 'target/release/thomisidae.exe')。cargo build --release - 下载预编译版本: 如果仓库提供了预编译的二进制文件,您可以直接下载适用于您操作系统的版本。通常在 GitHub Releases 页面可以找到。
- 如果您已安装 Rust 环境:
打开终端或命令行,导航到 Thomisidae 仓库的根目录,然后运行以下命令进行编译:
-
放置可执行文件: 将编译好的或下载的 'thomisidae' (或 'thomisidae.exe') 可执行文件放置到您选择的目录中。建议将其放在一个容易记住且稳定的位置。
服务器配置
MCP 服务器通过 MCP 客户端进行配置和启动。以下是 MCP 客户端(例如 LM Studio)中配置 Thomisidae 服务器的示例和说明。您需要将此配置添加到 MCP 客户端的集成设置中。
{ "mcpServers": { "url-fetcher": { "command": "/path/to/your/thomisidae_executable", "args": [], "description": "Thomisidae MCP服务器,提供网页内容抓取和Google搜索功能", "env": { "GOOGLE_API_KEY": "YOUR_GOOGLE_API_KEY", "GOOGLE_CSE_ID": "YOUR_GOOGLE_CUSTOM_SEARCH_ENGINE_ID" } } } }
- 'url-fetcher': 这是 MCP 客户端中为此服务器定义的唯一名称,您可以根据需要更改。
- 'command': 替换为您的 'thomisidae' 可执行文件的完整路径。例如:
- Linux/macOS: '/home/user/tools/thomisidae'
- Windows: 'C:\Users\user\tools\thomisidae.exe'
- 'args': Thomisidae 服务器目前无需额外的启动参数,可保持为空数组 '[]'。
- 'description': 对该服务器的简要描述。
- 'env': 用于设置环境变量。对于 'google_search' 功能,您必须在此处或通过 'config.toml' 文件提供 Google API Key 和自定义搜索引擎 ID。
- 'GOOGLE_API_KEY': 您的 Google Cloud API 密钥。
- 'GOOGLE_CSE_ID': 您在 Google Programmable Search 中创建的自定义搜索引擎的 ID。
- 注意: 密钥信息也可以通过在 'thomisidae' 可执行文件同目录下创建 'config.toml' 文件来配置,例如:
或者在同目录下创建 '.env' 文件来配置环境变量。[google_search] api_key = "YOUR_GOOGLE_API_KEY" cse_id = "YOUR_CUSTOM_SEARCH_ENGINE_ID"
基本使用方法
一旦 Thomisidae MCP 服务器在您的 MCP 客户端中成功配置和启用,它将作为 LLM 的一个可用工具集。
- 启用工具: 在您的 MCP 客户端(如 LM Studio)的集成或插件设置中,确认 Thomisidae 提供的 'fetch_url_text', 'fetch_page_links', 'google_search' 工具已启用。
- LLM 自动调用: 在与 LLM 交互时,当 LLM 判断需要获取外部信息(例如,您提问一个需要实时网络搜索才能回答的问题,或者要求总结一个网页内容时),它将根据您的指令自动选择并调用 Thomisidae 服务器提供的相应工具。
- 用户无需手动操作: 您不需要手动执行这些工具。只需像平常一样与 LLM 对话,LLM 会智能地识别何时需要这些工具来提供更准确或最新的信息。
示例对话提示:
- “请总结一下这篇关于人工智能最新进展的网页内容:'[某个URL]'”
- “帮我搜索一下今天全球股市的最新动态。”
- “提取 '[某个URL]' 页面上所有的链接。”
信息
分类
网页与API