最近連續整理了四個行動端 GUI 智能體專案:MobiAgent、Mobile-Agent、Mobilerun 和 mobile-use。它們都和「讓 AI 操作手機或行動 App」有關,但定位並不一樣。
簡單說:MobiAgent 更像可客製化的手機智能體研究系統;Mobile-Agent 是通義實驗室圍繞 GUI agent 的系列工作集合;Mobilerun 更偏向可落地的本地/雲端行動裝置控制框架;mobile-use 則強調真實 App 操作、任務拆解、資料抽取和 AndroidWorld 評測。
基本資訊對比
| 專案 | 站內文章 | GitHub | 主要定位 | 裝置/平台 | 開源協議 | 更適合誰 |
|---|---|---|---|---|---|---|
| MobiAgent | 站內介紹 | IPADS-SAI/MobiAgent | 可客製化手機 GUI 智能體系統,包含模型、runner、記憶、加速和評測 | 主要面向 Android/Harmony 手機 | Apache-2.0 | 研究者、行動智能體實驗團隊 |
| Mobile-Agent | 站內介紹 | X-PLUG/MobileAgent | 通義實驗室 GUI 智能體家族,覆蓋行動端、桌面、瀏覽器和工具調用 | 手機、PC、網頁、雲手機/雲桌面 | MIT | 關注 GUI agent 技術路線的人 |
| Mobilerun | 站內介紹 | droidrun/mobilerun | LLM 無關的行動裝置 agent 框架,支援 CLI、Python API 和雲端裝置工作流 | Android、iOS、本地裝置、雲端裝置 | MIT | 開發者、QA、自動化工作流團隊 |
| mobile-use | 站內介紹 | minitap-ai/mobile-use | 用自然語言操作真實行動 App,強調任務拆解、結構化抽取和 AndroidWorld | Android 實機/模擬器、iOS 模擬器 | Apache-2.0 | 做行動 App agent、資料抽取和評測的人 |
MobiAgent
MobiAgent 來自 IPADS-SAI,定位是一個可客製化的手機智能體系統。它不是只提供一個執行腳本,而是把 MobiMind 模型家族、AgentRR 動作記錄與回放、MobiFlow 評測基準、手機 runner、資料採集和 Android app 放到同一套體系裡。
它的特點是研究系統比較完整。MobiAgent 關注真實手機任務中的準確率、效率、記憶和可複用動作序列。README 中提到的使用者畫像記憶、經驗記憶、動作記憶,以及多任務執行,都說明它在嘗試處理長期任務和重複任務。
它的門檻也相對高。完整運行需要裝置、ADB、模型部署、依賴環境、可選的向量資料庫和圖資料庫配置。更適合研究或工程實驗,不太像面向普通使用者的「安裝即用」手機助手。
Mobile-Agent
Mobile-Agent 來自 X-PLUG/通義實驗室。這個倉庫已經從早期手機操作智能體,擴展成一個 GUI 智能體家族:Mobile-Agent-v1/v2/v3/v3.5、Mobile-Agent-E、PC-Agent、GUI-Critic-R1、UI-S1、GUI-Owl、ToolCUA 等都在同一條技術線上。
它的特點是跨度大。Mobile-Agent 不只關心手機,還覆蓋桌面、瀏覽器、雲手機、雲桌面、GUI 感知、grounding、錯誤診斷、強化學習和 GUI/工具路徑編排。GUI-Owl 系列模型讓它更像一個跨平台 GUI agent 基礎模型路線,而不是單一行動自動化專案。
它的不足也來自這個跨度:倉庫更像研究成果集合,使用者需要先判斷自己要跑哪個子專案、哪個模型和哪個場景。它適合跟蹤技術演進和復現實驗,不一定是最快接入業務流程的選擇。
Mobilerun
Mobilerun 來自 droidrun,定位更工程化:讓 LLM agent 透過自然語言控制 Android 和 iOS 裝置。它提供 CLI、TUI、Docker、Python API、Portal-based control、vision mode、reasoning mode、結構化輸出、自訂工具、app cards、執行軌跡和雲端裝置服務。
它最突出的地方是模型無關和部署形態清楚。開發者可以接 OpenAI、Anthropic、Gemini、Ollama、DeepSeek、OpenRouter 或 OpenAI-compatible providers;也可以選擇本地框架或 Mobilerun Cloud。對真實團隊來說,這種「裝置控制層和模型層解耦」的設計很重要。
它也有行動端自動化常見的門檻:Android 需要開發者選項、USB 偵錯和 Portal app;iOS 需要單獨流程;複雜任務還要處理權限彈窗、頁面變化、失敗重試和日誌排查。它更適合願意把 mobile agent 當成工程元件接入的人。
mobile-use
mobile-use 來自 minitap-ai,目標是讓 AI agent 使用真實 Android 和 iOS App。它支援自然語言控制、UI-aware automation、資料抽取、不同 LLM 配置,並強調 AndroidWorld 基準表現。README 中還提到專案是首個在 AndroidWorld benchmark 上達到 100% 的 agentic framework。
它的亮點是任務拆解和結構化抽取。比如從 Gmail 中找未讀郵件,並按指定 JSON 格式返回寄件者和主題,這類任務比「打開設定看看電量」更接近真實生產需求。它把行動 GUI agent 從「會操作」推進到「能把 App 裡的資訊整理出來」。
它的限制主要在裝置支援和運行環境。Android 可以用實體手機或模擬器;iOS 目前主要支援 macOS 上的模擬器,物理 iOS 裝置還不支援。Docker 快速啟動也主要面向 Android。評估它時,要先確認目標裝置和 App 場景能否被當前執行通道覆蓋。
功能對比
| 功能維度 | MobiAgent | Mobile-Agent | Mobilerun | mobile-use |
|---|---|---|---|---|
| 自然語言任務 | 支援 | 支援 | 支援 | 支援 |
| 真實手機操作 | 強,偏 Android/Harmony | 強,含行動端與雲手機 | 強,Android/iOS | 強,Android;iOS 偏模擬器 |
| 桌面/瀏覽器擴展 | 不是重點 | 強,含 PC-Agent、GUI-Owl、ToolCUA | 不是主要定位 | 不是主要定位 |
| 模型層 | 自帶 MobiMind 系列 | GUI-Owl、Mobile-Agent 系列 | LLM 無關,接多家模型 | 可配置多種 LLM |
| 執行器/runner | 強,含 ADB runner、多任務 runner | 子專案各自提供 | 強,CLI/TUI/Python API/Docker | 有原始碼、Docker 和平台入口 |
| 記憶能力 | 使用者畫像、經驗、動作記憶 | v3/v3.5 路線中強調記憶與反思 | 更偏軌跡、日誌和工程偵錯 | 更偏任務拆解與狀態執行 |
| 評測 | MobiFlow | 多個論文/基準方向 | 有 benchmark 結果入口 | AndroidWorld 表現突出 |
| 雲端裝置 | 不是主要賣點 | 支援雲手機/雲桌面體驗 | Mobilerun Cloud 是重點 | 有平台入口 |
| 結構化輸出 | 可透過工程流程實現 | 視子專案而定 | 明確支援 | 明確支援 |
優缺點對比
MobiAgent 的優點是系統完整,適合研究手機 GUI agent 的模型、記憶、加速和評測閉環;缺點是部署鏈路長,工程配置重,普通開發者上手成本較高。
Mobile-Agent 的優點是技術路線最寬,能看到 GUI agent 從手機走向桌面、瀏覽器、工具調用和基礎模型的演進;缺點是專案族複雜,想直接落地某個具體場景時,需要先做較多篩選。
Mobilerun 的優點是工程介面清晰,模型無關,本地框架和雲服務分層明確,適合把行動裝置自動化接入產品或內部工具;缺點是仍然要面對行動裝置權限、環境、App 狀態和雲端成本問題。
mobile-use 的優點是聚焦真實 App 使用、任務拆解和結構化資料抽取,AndroidWorld 方向也讓它更容易評估;缺點是 iOS 物理裝置支援有限,完整使用仍然需要配置模型、裝置和運行環境。
適用範圍建議
如果你要做行動智能體研究,優先看 MobiAgent 和 Mobile-Agent。前者更聚焦手機端系統閉環,後者更適合觀察 GUI agent 的跨平台演進。
如果你要做行動 App 自動化、QA、資料抽取或內部工作流,優先看 Mobilerun 和 mobile-use。Mobilerun 更像可接入工程系統的運行框架,mobile-use 更適合驗證自然語言 App 操作和結構化抽取。
如果你關注未來個人助手形態,四個都值得跟蹤。MobiAgent 代表手機 agent 的系統化研究,Mobile-Agent 代表跨平台 GUI agent 路線,Mobilerun 代表裝置控制基礎設施,mobile-use 代表真實 App 任務拆解和評測驅動路線。
我的判斷
這四個專案的差異說明,行動端 GUI agent 已經不只是「讓模型看截圖點按鈕」。真正的問題變成了:模型如何理解介面,執行器如何穩定控制裝置,任務如何拆解和評估,雲端裝置如何管理,結果如何結構化返回,風險如何被限制。
短期內,最現實的落地場景會是 QA、資料抽取、內部流程自動化和受控裝置池。長期看,誰能把裝置控制、模型能力、權限邊界、日誌追蹤和使用者確認機制做穩,誰就更接近真正可用的行動端 AI 助手。