back to home

suyiiyii / AutoGLM-GUI

AutoGLM 的现代化 Web 图形界面 - 让 AI 自动化操作 Android 设备变得简单 已进化为你的专属自动化生产力工具

928 stars
136 forks
25 issues
PythonTypeScriptJavaScript

AI Architecture Analysis

This repository is indexed by RepoMind. By analyzing suyiiyii/AutoGLM-GUI in our AI interface, you can instantly generate complete architecture diagrams, visualize control flows, and perform automated security audits across the entire codebase.

Our Agentic Context Augmented Generation (Agentic CAG) engine loads full source files into context on-demand, avoiding the fragmentation of traditional RAG systems. Ask questions about the architecture, dependencies, or specific features to see it in action.

Source files are only loaded when you start an analysis to optimize performance.

Embed this Badge

Showcase RepoMind's analysis directly in your repository's README.

[![Analyzed by RepoMind](https://img.shields.io/badge/Analyzed%20by-RepoMind-4F46E5?style=for-the-badge)](https://repomind.in/repo/suyiiyii/AutoGLM-GUI)
Preview:Analyzed by RepoMind

Repository Overview (README excerpt)

Crawler view

AutoGLM-GUI **AI 驱动的 Android 自动化生产力工具** - 支持定时任务、远程部署,让 AI 7x24 小时为你工作 从个人助手到自动化中枢:支持 **定时执行**、**Docker 部署**、**对话历史**,打造你的 AI 自动化助手 --- 🎉 v1.5 重大更新:生产力工具升级 从个人助手到自动化中枢,AutoGLM-GUI 现已支持: ⏰ 定时任务 Cron 调度系统 🐳 Docker 部署 7x24 运行 📚 对话历史 自动保存追溯 ⚡ 立即打断 <1秒响应 📱 多设备管理 支持模拟器 **核心场景**:部署到服务器 + 定时任务 = AI 自动化助手 7x24 小时为你工作 生产力场景示例 --- 欢迎加入讨论交流群 English Documentation ✨ 核心特性 🚀 生产力增强(v1.5 新增) • **⏰ 定时任务调度** - Cron 风格的任务调度系统,自动执行重复操作(签到、检查、周期性任务) • **📚 对话历史管理** - 自动保存所有对话记录,支持查看历史、追溯执行过程 • **⚡ 立即打断执行** - **AI Agent?** 如果你是 AI Agent(如 Claude Code),请直接阅读 AI_USAGE.md 获取安装和 API 使用指南。 • **分层代理模式** - 🆕 决策模型 + 视觉模型双层协作架构,支持复杂任务规划与精准执行分离 • **完全无线配对** - 🆕 支持 Android 11+ 二维码扫码配对,无需数据线即可连接设备 • **多设备并发控制** - 同时管理和控制多个 Android 设备,设备间状态完全隔离 • **对话式任务管理** - 通过聊天界面控制 Android 设备 • **Workflow 工作流** - 🆕 预定义常用任务,一键快速执行,支持创建、编辑、删除和管理 💻 技术特性 • **实时屏幕预览** - 基于 scrcpy 的低延迟视频流,随时查看设备正在执行的操作 • **直接操控手机** - 在实时画面上直接点击、滑动操作,支持精准坐标转换和视觉反馈 • **零配置部署** - 支持任何 OpenAI 兼容的 LLM API • **MCP 协议支持** - 🆕 内置 MCP 服务器,可集成到 Claude Desktop、Cursor 等 AI 应用中 • **ADB 深度集成** - 通过 Android Debug Bridge 直接控制设备(支持 USB 和 WiFi) • **模块化界面** - 清晰的侧边栏 + 设备面板设计,功能分离明确 📥 快速下载 **一键下载桌面版(免配置环境):** | 操作系统 | 下载链接 | 说明 | |---------|---------|------| | 🪟 **Windows** (x64) | 📦 下载便携版 EXE | 适用于 Windows 10/11,免安装 | | 🍎 **macOS** (Apple Silicon) | 📦 下载 DMG | 适用于 M 芯片 Mac | | 🐧 **Linux** (x64) | 📦 下载 AppImage \| deb \| tar.gz | 通用格式,支持主流发行版 | **使用说明:** • **Windows**: 下载后直接双击 文件运行,无需安装 • **macOS**: 下载后双击 文件,拖拽到应用程序文件夹。首次打开可能需要在「系统设置 → 隐私与安全性」中允许运行 • **Linux**: • **AppImage**(推荐): 下载后添加可执行权限 ,然后直接运行 • **deb**: 适用于 Debian/Ubuntu 系统,使用 安装 • **tar.gz**: 便携版,解压后运行 > 💡 **提示**: 桌面版已内置所有依赖(Python、ADB 等),无需手动配置环境。首次运行时需配置模型服务 API。 **自动更新:** AutoGLM GUI 桌面版支持自动更新功能: • **🪟 Windows 安装版**:启动时自动检测更新,下载完成后退出时自动安装 • **🍎 macOS DMG**:启动时自动检测更新,下载完成后提示用户重启(未签名应用可能需要手动允许) • **🐧 Linux AppImage**:启动时自动检测更新(需配合 AppImageLauncher) • **便携版(Windows EXE/Linux tar.gz)**:不支持自动更新,请手动下载新版本 --- **或者使用 Python 包(需要 Python 环境):** 📸 界面预览 快速跳转: 普通模式 · 分层代理(增强) 分层代理 **分层代理(Layered Agent)** 是更“严格”的两层结构:**规划层**专注任务拆解与多轮推理,**执行层**专注观察与操作。规划层会通过工具调用(可在界面中看到每次调用与结果)来驱动执行层完成一个个原子子任务,便于边执行边调整策略,适合需要多轮交互/推理的高级任务。 任务开始 任务执行完成 多设备控制 🚀 快速开始 前置要求 • Android 设备(Android 11+ 支持完全无线配对,无需数据线) • 一个 OpenAI 兼容的 API 端点(支持智谱 BigModel、ModelScope 或自建服务) **关于设备连接**: • **Android 11+**:支持二维码扫码配对,完全无需数据线即可连接和控制设备 • **Android 10 及更低版本**:需要先通过 USB 数据线连接并开启无线调试,之后可拔掉数据线无线使用 方式一:Python 包安装(推荐) **无需手动准备环境,直接安装运行:** 也可以使用 uvx 免安装启动,自动启动最新版(需已安装 uv,安装教程): 方式二:Docker 部署(推荐生产力场景) AutoGLM-GUI 提供预构建的 Docker 镜像,支持 和 架构,**适合部署到服务器 7x24 小时运行**,配合定时任务功能实现自动化中枢。 **核心优势**: • 🚀 **一键部署**:无需配置 Python 环境和依赖 • ⏰ **定时执行**:配合内置定时任务系统,自动化执行周期性操作 • 🌐 **远程控制**:通过 Web 界面随时随地管理设备 • 📊 **稳定运行**:容器化隔离,适合长期运行 **使用 docker-compose(推荐):** **或直接使用 docker run:** **配置说明**: • 默认使用 host 网络模式(推荐,便于 ADB 设备发现和二维码配对) • 模型 API 配置可以在 Web 界面的设置页面中完成,无需提前配置环境变量 • 如果需要在启动时预配置,可以编辑 取消注释 部分 **连接远程设备**: Docker 容器中连接 Android 设备推荐使用 **WiFi 调试**: • 在 Android 设备上开启「开发者选项」→「无线调试」 • 记录设备的 IP 地址和端口号 • 在 Web 界面点击「添加无线设备」→ 输入 IP:端口 → 连接 > ⚠️ **注意**:二维码配对功能依赖 mDNS 多播,在 Docker bridge 网络中可能受限。**强烈建议使用 模式**以获得完整功能支持。 **更多 Docker 配置选项**,请参见下方的 Docker 部署详细说明。 --- 启动后,在浏览器中打开 http://localhost:8000 即可开始使用! 🎯 模型服务配置 AutoGLM-GUI 只需要一个 OpenAI 兼容的模型服务。你可以: • 使用官方已托管的第三方服务 • 智谱 BigModel: , , • ModelScope: , , • 或自建服务:参考上游项目的部署文档用 vLLM/SGLang 部署 ,启动 OpenAI 兼容端口后将 指向你的服务。 示例: 🔄 升级指南 检查当前版本 升级到最新版本 **使用 pip 升级:** 📖 使用说明 多设备管理 AutoGLM-GUI 支持同时控制多个 Android 设备: • **设备列表** - 左侧边栏自动显示所有已连接的 ADB 设备 • **设备选择** - 点击设备卡片切换到对应的控制面板 • **状态指示** - 清晰显示每个设备的在线状态和初始化状态 • **状态隔离** - 每个设备有独立的对话历史、配置和视频流 **设备状态说明**: • 🟢 绿点:设备在线 • ⚪ 灰点:设备离线 • ✓ 标记:设备已初始化 📱 二维码无线配对(Android 11+ 推荐) **完全无需数据线**,手机和电脑只需在同一 WiFi 网络即可: • **手机端准备**: • 打开「设置」→「开发者选项」→ 开启「无线调试」 • 保持手机和电脑连接到同一个 WiFi 网络 • **电脑端操作**: • 点击界面左下角的 ➕ 「添加无线设备」按钮 • 切换到「配对设备」标签页 • **二维码自动生成**,等待扫码 • **手机端扫码**: • 在「无线调试」页面,点击「使用二维码配对设备」 • 扫描电脑上显示的二维码 • 配对成功后,设备会自动出现在设备列表中 **特点**: • ✅ 完全无需数据线 • ✅ 一键扫码即可配对 • ✅ 自动发现并连接设备 • ✅ 适用于 Android 11 及以上版本 AI 自动化模式 • **连接设备** - 使用上述任一方式连接设备(推荐 Android 11+ 的二维码配对) • **选择设备** - 在左侧边栏选择要控制的设备 • **初始化** - 点击"初始化设备"按钮配置 Agent • **对话** - 描述你想要做什么(例如:"去美团点一杯霸王茶姬的伯牙绝弦") • **观察** - Agent 会逐步执行操作,每一步的思考过程和动作都会实时显示 🤖 选择 Agent 类型 在初始化设备时,可以选择不同的 Agent 类型(默认:GLM Agent): • **GLM Agent**:基于 GLM 模型优化,成熟稳定,适合大多数任务 • **MAI Agent**:**内部实现**的 Mobile Agent,支持多张历史截图上下文,适合复杂任务 • 🆕 **现已完全内部化**:移除 ~1200 行第三方依赖,性能优化,中文适配 • 🔄 **向后兼容**:需要使用旧版本可选择 类型 MAI Agent 可配置参数: • :历史截图数量(1-10,默认:3) **MAI Agent 增强特性**(v1.5.0+): • ✅ 流式思考输出(实时显示推理过程) • ✅ 中文优化 Prompt(针对国内应用场景) • ✅ 性能监控(LLM 耗时、动作执行统计) • ✅ 详细的操作指南和错误避免提示 🌿 普通模式(单模型 / Open AutoGLM) 这是**开源 AutoGLM-Phone 的“原生形态”**:由一个视觉模型直接完成「理解任务 → 规划步骤 → 观察屏幕 → 执行动作」的完整闭环。 • **优点**:配置最简单,上手最快 • **适用场景**:目标明确、步骤较少的任务(例如打开应用、简单导航) 🧩 分层代理模式(Layered Agent,增强 / 实验性) 分层代理模式是更“严格”的两层结构:**规划层**专注拆解与推理,**执行层**专注观察与操作,二者通过工具调用协作完成任务。 • **工作方式**:规划层(决策模型)会调用工具(如 / )去驱动执行层;你能在界面里看到每次工具调用与返回结果 • **执行粒度**:执行层每次只做一个“原子子任务”,并有步数上限(例如每次最多 5 步),便于规划层按反馈动态调整策略 • **适用场景**:需要多轮推理、需要“边看边问边改计划”的复杂任务(例如浏览/筛选/对比、多轮表单填写等) • **重要限制**:执行层不负责"记笔记/保存中间信息/直接提取文本变量";规划层需要信息时必须通过提问让执行层把屏幕内容"念出来" > 📖 **深入了解**:查看 Layered Agent 架构分析文档 了解技术原理、数据流和实现细节 🎭 两种工作模式对比 AutoGLM-GUI 提供了两种不同的代理工作模式,适用于不同的使用场景: 1️⃣ 经典模式(Classic Mode) • **架构**:单一 视觉模型直接处理(即普通 Open AutoGLM 的体验) • **适用场景**:简单、明确的任务 • **特点**:配置简单,适合快速上手 2️⃣ 分层代理(Layered Agent) • **架构**:基于 Agent SDK 的分层任务执行系统 • **规划层**:决策模型作为高级智能中枢,负责任务拆解和多轮推理 • **执行层**:autoglm-phone 作为执行者,只负责观察和操作 • **适用场景**:需要多轮交互和复杂推理的高级任务 • **特点**:规划层通过工具调用驱动执行层,过程更透明、更便于调试与迭代策略 **选择建议**: • 🚀 **常规任务(订外卖、打车)**:经典模式 • 🏗️ **需要多轮推理的任务**:分层代理模式 手动控制模式 除了 AI 自动化,你也可以直接在实时画面上操控手机: • **实时画面** - 设备面板右侧显示手机屏幕的实时视频流(基于 scrcpy) • **点击操作** - 直接点击画面中的任意位置,操作会立即发送到手机 • **滑动手势** - 按住鼠标拖动实现滑动操作(支持滚轮滚动) • **视觉反馈** - 每次操作都会显示涟漪动画和成功/失败提示 • **精准转换** - 自动处理屏幕缩放和坐标转换,确保操作位置准确 • **显示模式** - 支持自动、视频流、截图三种显示模式切换 ⏰ 定时任务调度(生产力核心功能) AutoGLM-GUI 内置定时任务系统,让 AI 按照你的计划自动执行操作,打造 7x24 小时的自动化助手。 **典型应用场景**: • 📅 **每日签到**:自动在指定时间完成 App 签到领取积分 • 🔔 **定时检查**:定期检查订单状态、物流信息、库存变…