项目简介
Fillit 是一个AI助手项目,旨在通过自动化浏览器操作,帮助用户在各种网站上自动填写简历,减少重复手动输入的工作量。它作为一个 MCP(Model Context Protocol)服务器运行,为 AI Agent 提供与网页内容交互的能力。
主要功能点
- 浏览器控制: 能够启动、连接并控制 Google Chrome 浏览器实例。
- 网页导航: 允许 AI Agent 指导浏览器打开指定的网页URL。
- 元素识别: 能够获取当前网页上可点击按钮和可输入文本框的信息(包括其在列表中的索引和描述)。
- 交互操作: 允许 AI Agent 根据获取的信息,点击指定的按钮或向指定的输入框填写内容。
- 简历内容读取: 提供读取本地结构化简历内容的能力,供 AI Agent 使用。
- MCP 服务: 通过标准的 MCP 协议暴露上述功能,供兼容的 MCP 客户端(如某些 LLM 应用程序)调用。
安装步骤
- 安装 Google Chrome: 确保您已安装 Google Chrome 浏览器。项目依赖 Chrome DevTools Protocol (CDP) 进行通信。
- 安装 UV (Universal Virtual Environment): 按照您操作系统的说明安装 UV。
- Windows PowerShell:
powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"
- Windows PowerShell:
- 克隆仓库并安装依赖:
- 克隆 Fillit 仓库到本地。
- 打开终端或命令行,导航到项目根目录。
- 使用 UV 安装项目依赖并创建虚拟环境:
uv sync
- 激活虚拟环境:
- Windows:
.venv\Scripts\activate - macOS/Linux:
source .venv/bin/activate
- Windows:
服务器配置(供MCP客户端使用)
Fillit 作为 MCP 服务器运行。MCP 客户端(例如 Anthropic Claude Desktop 或本项目提供的 Gradio 客户端)需要配置服务器的启动信息才能连接。
典型的 MCP 客户端配置会要求填写服务器名称、启动命令和参数。对于 Fillit 项目,您需要启动 'mcpserver.py' 脚本。
- 服务器名称 (Server Name): 您可以自定义一个名称,例如 'fillit'。
- 启动命令 (Command): 通常是用于运行 Python 脚本的解释器路径,例如 'python' 或 'uv'。如果使用 UV,建议使用 'uv'。
- 参数 (Args): 传递给启动命令的参数列表。对于使用 UV 运行 'mcpserver.py',参数通常是:
- 'run'
- 'mcpserver.py'
如果您的 MCP 客户端需要指定工作目录,请确保指向 Fillit 项目的根目录。
基本使用方法
- 启动 Chrome 浏览器: 在项目根目录下运行脚本启动一个专门用于自动化的 Chrome 实例:
这个脚本会创建一个独立的浏览器用户数据目录('ChromeUserData'),并启动 Chrome 监听特定端口供自动化连接。保持此终端窗口打开。python start_chrome.py - (可选)准备简历数据: 项目的 'get_resume_content' 工具会读取项目根目录下 'cv.txt' 文件的内容。您可以使用项目提供的 'webui.py' 中的简历解析功能上传 PDF 生成此文件,或者手动创建/编辑 'cv.txt' 文件,确保其中包含您的简历文本信息。
- 启动 MCP 客户端 (Gradio WebUI): 在项目根目录下的另一个终端窗口中运行 Gradio 界面:
这会启动一个网页界面(通常在 'http://localhost:7860')。python webui.py - 连接到 MCP 服务器:
- 在 Gradio 界面中,确保 "Server Script Path" 指向 'mcpserver.py'。
- 点击 "Connect" 按钮。如果连接成功,状态信息会更新。
- 设置并连接 LLM:
- 在 Gradio 界面中,选择您的 LLM Provider(如 Azure OpenAI, DeepSeek 等)。
- 根据需要填写模型名称、API Key、Base URL 或 Azure 特定信息。
- 点击 "Set LLM" 按钮。
- 与 AI Agent 交互: 在聊天框中输入指令,例如 README 中提供的推荐 Prompt,引导 AI Agent 调用 MCP 工具进行简历填写。Agent 会利用配置好的 LLM 和 MCP 工具来理解您的请求、分析网页、获取简历内容并执行填写操作。
信息
分类
网页与API