AI 自動用手機哪家強？MobiAgent、Mobile-Agent、Mobilerun 和 mobile-use 對比

最近連續整理了四個行動端 GUI 智能體專案：MobiAgent、Mobile-Agent、Mobilerun 和 mobile-use。它們都和「讓 AI 操作手機或行動 App」有關，但定位並不一樣。

簡單說：MobiAgent 更像可客製化的手機智能體研究系統；Mobile-Agent 是通義實驗室圍繞 GUI agent 的系列工作集合；Mobilerun 更偏向可落地的本地/雲端行動裝置控制框架；mobile-use 則強調真實 App 操作、任務拆解、資料抽取和 AndroidWorld 評測。

基本資訊對比

專案	站內文章	GitHub	主要定位	裝置/平台	開源協議	更適合誰
MobiAgent	站內介紹	IPADS-SAI/MobiAgent	可客製化手機 GUI 智能體系統，包含模型、runner、記憶、加速和評測	主要面向 Android/Harmony 手機	Apache-2.0	研究者、行動智能體實驗團隊
Mobile-Agent	站內介紹	X-PLUG/MobileAgent	通義實驗室 GUI 智能體家族，覆蓋行動端、桌面、瀏覽器和工具調用	手機、PC、網頁、雲手機/雲桌面	MIT	關注 GUI agent 技術路線的人
Mobilerun	站內介紹	droidrun/mobilerun	LLM 無關的行動裝置 agent 框架，支援 CLI、Python API 和雲端裝置工作流	Android、iOS、本地裝置、雲端裝置	MIT	開發者、QA、自動化工作流團隊
mobile-use	站內介紹	minitap-ai/mobile-use	用自然語言操作真實行動 App，強調任務拆解、結構化抽取和 AndroidWorld	Android 實機/模擬器、iOS 模擬器	Apache-2.0	做行動 App agent、資料抽取和評測的人

MobiAgent

MobiAgent 來自 IPADS-SAI，定位是一個可客製化的手機智能體系統。它不是只提供一個執行腳本，而是把 MobiMind 模型家族、AgentRR 動作記錄與回放、MobiFlow 評測基準、手機 runner、資料採集和 Android app 放到同一套體系裡。

它的特點是研究系統比較完整。MobiAgent 關注真實手機任務中的準確率、效率、記憶和可複用動作序列。README 中提到的使用者畫像記憶、經驗記憶、動作記憶，以及多任務執行，都說明它在嘗試處理長期任務和重複任務。

它的門檻也相對高。完整運行需要裝置、ADB、模型部署、依賴環境、可選的向量資料庫和圖資料庫配置。更適合研究或工程實驗，不太像面向普通使用者的「安裝即用」手機助手。

Mobile-Agent

Mobile-Agent 來自 X-PLUG/通義實驗室。這個倉庫已經從早期手機操作智能體，擴展成一個 GUI 智能體家族：Mobile-Agent-v1/v2/v3/v3.5、Mobile-Agent-E、PC-Agent、GUI-Critic-R1、UI-S1、GUI-Owl、ToolCUA 等都在同一條技術線上。

它的特點是跨度大。Mobile-Agent 不只關心手機，還覆蓋桌面、瀏覽器、雲手機、雲桌面、GUI 感知、grounding、錯誤診斷、強化學習和 GUI/工具路徑編排。GUI-Owl 系列模型讓它更像一個跨平台 GUI agent 基礎模型路線，而不是單一行動自動化專案。

它的不足也來自這個跨度：倉庫更像研究成果集合，使用者需要先判斷自己要跑哪個子專案、哪個模型和哪個場景。它適合跟蹤技術演進和復現實驗，不一定是最快接入業務流程的選擇。

Mobilerun

Mobilerun 來自 droidrun，定位更工程化：讓 LLM agent 透過自然語言控制 Android 和 iOS 裝置。它提供 CLI、TUI、Docker、Python API、Portal-based control、vision mode、reasoning mode、結構化輸出、自訂工具、app cards、執行軌跡和雲端裝置服務。

它最突出的地方是模型無關和部署形態清楚。開發者可以接 OpenAI、Anthropic、Gemini、Ollama、DeepSeek、OpenRouter 或 OpenAI-compatible providers；也可以選擇本地框架或 Mobilerun Cloud。對真實團隊來說，這種「裝置控制層和模型層解耦」的設計很重要。

它也有行動端自動化常見的門檻：Android 需要開發者選項、USB 偵錯和 Portal app；iOS 需要單獨流程；複雜任務還要處理權限彈窗、頁面變化、失敗重試和日誌排查。它更適合願意把 mobile agent 當成工程元件接入的人。

mobile-use

mobile-use 來自 minitap-ai，目標是讓 AI agent 使用真實 Android 和 iOS App。它支援自然語言控制、UI-aware automation、資料抽取、不同 LLM 配置，並強調 AndroidWorld 基準表現。README 中還提到專案是首個在 AndroidWorld benchmark 上達到 100% 的 agentic framework。

它的亮點是任務拆解和結構化抽取。比如從 Gmail 中找未讀郵件，並按指定 JSON 格式返回寄件者和主題，這類任務比「打開設定看看電量」更接近真實生產需求。它把行動 GUI agent 從「會操作」推進到「能把 App 裡的資訊整理出來」。

它的限制主要在裝置支援和運行環境。Android 可以用實體手機或模擬器；iOS 目前主要支援 macOS 上的模擬器，物理 iOS 裝置還不支援。Docker 快速啟動也主要面向 Android。評估它時，要先確認目標裝置和 App 場景能否被當前執行通道覆蓋。

功能對比

功能維度	MobiAgent	Mobile-Agent	Mobilerun	mobile-use
自然語言任務	支援	支援	支援	支援
真實手機操作	強，偏 Android/Harmony	強，含行動端與雲手機	強，Android/iOS	強，Android；iOS 偏模擬器
桌面/瀏覽器擴展	不是重點	強，含 PC-Agent、GUI-Owl、ToolCUA	不是主要定位	不是主要定位
模型層	自帶 MobiMind 系列	GUI-Owl、Mobile-Agent 系列	LLM 無關，接多家模型	可配置多種 LLM
執行器/runner	強，含 ADB runner、多任務 runner	子專案各自提供	強，CLI/TUI/Python API/Docker	有原始碼、Docker 和平台入口
記憶能力	使用者畫像、經驗、動作記憶	v3/v3.5 路線中強調記憶與反思	更偏軌跡、日誌和工程偵錯	更偏任務拆解與狀態執行
評測	MobiFlow	多個論文/基準方向	有 benchmark 結果入口	AndroidWorld 表現突出
雲端裝置	不是主要賣點	支援雲手機/雲桌面體驗	Mobilerun Cloud 是重點	有平台入口
結構化輸出	可透過工程流程實現	視子專案而定	明確支援	明確支援

優缺點對比

MobiAgent 的優點是系統完整，適合研究手機 GUI agent 的模型、記憶、加速和評測閉環；缺點是部署鏈路長，工程配置重，普通開發者上手成本較高。

Mobile-Agent 的優點是技術路線最寬，能看到 GUI agent 從手機走向桌面、瀏覽器、工具調用和基礎模型的演進；缺點是專案族複雜，想直接落地某個具體場景時，需要先做較多篩選。

Mobilerun 的優點是工程介面清晰，模型無關，本地框架和雲服務分層明確，適合把行動裝置自動化接入產品或內部工具；缺點是仍然要面對行動裝置權限、環境、App 狀態和雲端成本問題。

mobile-use 的優點是聚焦真實 App 使用、任務拆解和結構化資料抽取，AndroidWorld 方向也讓它更容易評估；缺點是 iOS 物理裝置支援有限，完整使用仍然需要配置模型、裝置和運行環境。

適用範圍建議

如果你要做行動智能體研究，優先看 MobiAgent 和 Mobile-Agent。前者更聚焦手機端系統閉環，後者更適合觀察 GUI agent 的跨平台演進。

如果你要做行動 App 自動化、QA、資料抽取或內部工作流，優先看 Mobilerun 和 mobile-use。Mobilerun 更像可接入工程系統的運行框架，mobile-use 更適合驗證自然語言 App 操作和結構化抽取。

如果你關注未來個人助手形態，四個都值得跟蹤。MobiAgent 代表手機 agent 的系統化研究，Mobile-Agent 代表跨平台 GUI agent 路線，Mobilerun 代表裝置控制基礎設施，mobile-use 代表真實 App 任務拆解和評測驅動路線。

我的判斷

這四個專案的差異說明，行動端 GUI agent 已經不只是「讓模型看截圖點按鈕」。真正的問題變成了：模型如何理解介面，執行器如何穩定控制裝置，任務如何拆解和評估，雲端裝置如何管理，結果如何結構化返回，風險如何被限制。

短期內，最現實的落地場景會是 QA、資料抽取、內部流程自動化和受控裝置池。長期看，誰能把裝置控制、模型能力、權限邊界、日誌追蹤和使用者確認機制做穩，誰就更接近真正可用的行動端 AI 助手。