X-PLUG 開源的 Mobile-Agent 已經不只是一個手機自動化專案。按照倉庫當前的定位,它更像是通義實驗室圍繞 GUI 智能體持續沉澱的一組工作:Mobile-Agent-v1/v2/v3/v3.5、Mobile-Agent-E、PC-Agent、GUI-Critic-R1、UI-S1、GUI-Owl 以及 ToolCUA 等,都被放在同一個專案體系裡展示。
這條線索值得關注。過去談 GUI agent,常見問題是「模型能不能看懂截圖並點對位置」;而 Mobile-Agent 的演進方向更進一步:讓智能體在行動端、桌面、瀏覽器和工具調用之間切換,處理更長鏈路、更複雜的真實任務。
它解決什麼問題
GUI 智能體面對的不是標準 API,而是應用介面。它需要看懂螢幕、定位控制項、規劃步驟、執行點擊或輸入,並在失敗時修正路徑。行動端場景尤其複雜,因為任務往往跨多個 App,介面狀態也會隨著登入、權限、彈窗、網路和個性化推薦變化。
Mobile-Agent 系列把這個問題拆成了幾個方向:
- 用 Mobile-Agent-v1/v2 探索手機 GUI 的視覺感知與多智能體協作。
- 用 PC-Agent 把多智能體操作擴展到 PC 場景。
- 用 Mobile-Agent-v3 和 v3.5 推進多平台 GUI 智能體框架。
- 用 GUI-Owl 系列模型提供跨平台 GUI 感知、定位和端到端操作能力。
- 用 GUI-Critic-R1、UI-S1、ToolCUA 等工作補足錯誤診斷、強化學習和 GUI/工具路徑編排。
這讓它不像一個單點 demo,而更像一條圍繞「電腦使用智能體」的研究和工程路線。
v3.5 的重點
倉庫 README 顯示,Mobile-Agent-v3.5 已經可以透過 ModelScope 線上 Demo 和阿里雲百煉線上 Demo 體驗,百煉上也提供了 v3.5 API。2026 年 3 月,v3.5 還上線了阿里雲無影雲手機,面向雲端 Android 環境提供行動使用體驗。
這說明專案正在把「本地跑實驗」之外的使用方式也補上。對於 GUI 智能體來說,雲手機和雲桌面很重要:它們能提供更穩定、更可復現的運行環境,減少本地裝置、系統版本、解析度和 App 狀態帶來的差異。
如果你想評估這類智能體,穩定環境往往比模型本身更容易被低估。沒有可控的執行環境,就很難判斷一次失敗是模型能力不足、介面變化、裝置問題,還是任務定義不清。
GUI-Owl 是底層變化
Mobile-Agent-v3 之後,GUI-Owl 成了這條路線裡的關鍵模型層。README 中把 GUI-Owl 描述為具備 GUI 感知、grounding 和端到端操作能力的多模態跨平台 GUI VLM。到 GUI-Owl-1.5,模型系列已經覆蓋 2B、4B、8B、32B、235B,並支援桌面、行動端和瀏覽器自動化。
這類模型的意義在於,它不只是回答「螢幕裡有什麼」,還要把自然語言目標、截圖內容、介面元素位置和下一步操作連起來。對 GUI agent 來說,視覺理解、座標定位、操作規劃和狀態記憶缺一不可。
當然,模型越通用,工程邊界也越重要。真實部署時仍然需要執行器、權限控制、任務日誌、回滾機制和人工確認。尤其是涉及支付、帳號、檔案、訊息發送等高風險操作時,GUI agent 不能只追求自動完成,還要能清楚說明自己準備做什麼。
ToolCUA 暗示的新方向
2026 年 5 月,專案新聞裡提到 ToolCUA,定位是面向 GUI 與工具最優路徑編排的端到端 Computer Use Agent。這個方向很有意思,因為它承認了一個現實:不是所有任務都應該靠點螢幕完成。
有些事情適合 GUI 操作,比如登入後台、處理複雜表單、讀取沒有 API 的應用狀態;有些事情更適合調用工具,比如檢索、計算、解析檔案、訪問結構化介面。真正可用的電腦使用智能體,需要學會在兩者之間切換。
這也是 Mobile-Agent 系列比早期手機自動化專案更值得看的地方。它不再只問「智能體能不能像人一樣點 App」,而是在問「智能體什麼時候該看螢幕,什麼時候該用工具,什麼時候該停下來確認」。
適合誰關注
如果你只是想找一個開箱即用的手機自動化助手,Mobile-Agent 仍然偏研究和工程框架。它涉及模型、運行環境、評測任務和具體執行器,完整跑通通常需要一定配置成本。
但如果你關注下面幾類問題,它很值得跟蹤:
- 行動端 GUI agent 如何從展示走向穩定執行。
- 桌面、瀏覽器和手機自動化能否統一到同一套智能體框架裡。
- GUI 模型如何處理 grounding、反思、記憶和錯誤診斷。
- 智能體如何在 GUI 操作與工具調用之間選擇路徑。
- 雲手機、雲桌面是否會成為 GUI agent 的重要運行環境。
這些問題會直接影響個人助理、企業流程自動化、遠端桌面操作、應用測試和無 API 系統整合。
我的判斷
Mobile-Agent 的價值不在於某一個版本的指標,而在於它把 GUI 智能體從「手機截圖點按」推進到了一個更大的系統問題:模型、執行環境、評測、工具調用、錯誤診斷和跨平台任務如何協同。
短期看,它更適合研究者和開發者觀察 GUI agent 的技術路線;長期看,這類專案可能會影響個人 AI 助手和企業自動化工具的形態。真正的難點不只是讓智能體會操作介面,而是讓它在真實應用裡穩定、可控、可追蹤地完成任務。
專案連結:X-PLUG/MobileAgent