IPADS-SAI 開源了 MobiAgent,定位是一個面向手機 GUI 的可客製化智能體框架。它不是單一模型倉庫,而是把模型、執行器、加速機制、評測基準和行動端應用放在同一個體系裡,目標是讓智能體能在真實手機環境中完成跨應用、多步驟任務。
從專案結構看,MobiAgent 主要由三部分組成:MobiMind 系列智能體模型、AgentRR 記錄與回放加速框架,以及 MobiFlow 評測基準。論文摘要也強調,現有行動智能體在真實任務裡的準確率和效率仍然是主要瓶頸,MobiAgent 的設計就是圍繞這兩個問題展開。
它解決什麼問題
手機 GUI 智能體比網頁或桌面自動化更麻煩。它需要理解截圖、識別控制項、決定下一步操作,還要透過 ADB 或行動端運行環境執行點擊、輸入、返回、切換應用等動作。真實任務往往不是單 App 內的一次操作,而是跨越搜尋、購物、社交、支付、地圖等多個應用的連續流程。
MobiAgent 的價值在於把這些環節系統化:
- 用 MobiMind 承擔任務規劃、決策和介面定位等能力。
- 用 runner 連接手機,透過 ADB 執行預定義任務並記錄軌跡。
- 用 AgentRR 複用成功動作序列,降低重複任務的推理與操作成本。
- 用 MobiFlow 評測真實行動場景中的任務完成情況。
- 透過資料採集、標註和處理工具,降低行動 GUI 任務資料建構成本。
這讓它更像一個行動智能體實驗平台,而不是只能跑展示的模型專案。
最近更新值得關注
專案 README 顯示,MobiAgent 在 2025 年 8 月開源,之後持續補齊模型、Runner、記憶系統和端側運行能力。2025 年 12 月開始,專案支援在手機上進行純端側推理,並發布了統一 GUI agent runner,可配置 MobiAgent、UI-TARS、AutoGLM、Qwen-VL、Gemini 等多種模型。
到 2026 年 3 月,專案又發布了 GUI-based mobile “claw” MobiClaw,以及新的 MobiMind-1.5-4B 模型。這說明它的方向不只是論文復現,而是在繼續把行動端執行、模型能力和操作工具鏈往產品化方向推進。
記憶系統是關鍵補丁
MobiAgent 支援使用者畫像記憶、經驗記憶和動作記憶。使用者畫像記憶用於給規劃提供偏好上下文;經驗記憶用於檢索類似任務的執行經驗;動作記憶則透過 AgentRR 快取和複用成功動作序列。
這很重要,因為手機任務天然帶有重複性。比如使用者常用某個 App 搜尋商品、打開固定聯絡人、在特定頁面填寫資訊。如果每次都從零開始看圖、規劃和點擊,成本高且容易出錯。記憶模組可以把一部分「已經學會的流程」沉澱下來,讓後續任務更快、更穩定。
不過,記憶也會帶來新的治理問題。使用者偏好、歷史任務、應用路徑和操作軌跡都可能包含敏感資訊。真正落地時,專案需要明確哪些內容進入記憶、保存多久、如何刪除,以及是否允許模型在不同任務之間複用這些上下文。
適合誰關注
如果你只是想找一個現成的手機自動化 App,MobiAgent 目前仍更偏研究和工程框架。它需要配置模型服務、行動裝置、ADB、依賴環境和任務檔案,完整跑起來有一定門檻。
但如果你關注行動 GUI agent、端側智能體、多模型 runner、任務軌跡複用或智能體評測,MobiAgent 很值得跟蹤。它把模型、執行、評測和資料流水線放在一起,能幫助研究者和開發者更完整地觀察行動智能體的真實短板。
我的判斷
MobiAgent 的意義不在於又發布了一個 GUI agent,而在於它把手機智能體從「看截圖點按鈕」的單點能力,推進到一個可訓練、可執行、可評測、可加速的系統框架。
行動端是智能體很難繞開的場景。大量個人任務發生在 App 裡,而不是標準化網頁或 API 中。誰能穩定理解手機介面、跨應用執行任務、複用經驗並控制隱私風險,誰就更接近真正可用的個人智能體。
MobiAgent 還沒有把這些問題全部解決,但它提供了一個比較完整的開源起點。短期看,它適合用於行動智能體研究和實驗;長期看,這類框架可能會成為手機作業系統、個人助理和自動化工具之間的重要連接層。
專案連結:IPADS-SAI/MobiAgent
論文連結:MobiAgent: A Systematic Framework for Customizable Mobile Agents