AI 能自己點手機、用電腦了嗎？Mobile-Agent 專案解讀

X-PLUG 開源的 Mobile-Agent 已經不只是一個手機自動化專案。按照倉庫當前的定位，它更像是通義實驗室圍繞 GUI 智能體持續沉澱的一組工作：Mobile-Agent-v1/v2/v3/v3.5、Mobile-Agent-E、PC-Agent、GUI-Critic-R1、UI-S1、GUI-Owl 以及 ToolCUA 等，都被放在同一個專案體系裡展示。

這條線索值得關注。過去談 GUI agent，常見問題是「模型能不能看懂截圖並點對位置」；而 Mobile-Agent 的演進方向更進一步：讓智能體在行動端、桌面、瀏覽器和工具調用之間切換，處理更長鏈路、更複雜的真實任務。

它解決什麼問題

GUI 智能體面對的不是標準 API，而是應用介面。它需要看懂螢幕、定位控制項、規劃步驟、執行點擊或輸入，並在失敗時修正路徑。行動端場景尤其複雜，因為任務往往跨多個 App，介面狀態也會隨著登入、權限、彈窗、網路和個性化推薦變化。

Mobile-Agent 系列把這個問題拆成了幾個方向：

用 Mobile-Agent-v1/v2 探索手機 GUI 的視覺感知與多智能體協作。
用 PC-Agent 把多智能體操作擴展到 PC 場景。
用 Mobile-Agent-v3 和 v3.5 推進多平台 GUI 智能體框架。
用 GUI-Owl 系列模型提供跨平台 GUI 感知、定位和端到端操作能力。
用 GUI-Critic-R1、UI-S1、ToolCUA 等工作補足錯誤診斷、強化學習和 GUI/工具路徑編排。

這讓它不像一個單點 demo，而更像一條圍繞「電腦使用智能體」的研究和工程路線。

v3.5 的重點

倉庫 README 顯示，Mobile-Agent-v3.5 已經可以透過 ModelScope 線上 Demo 和阿里雲百煉線上 Demo 體驗，百煉上也提供了 v3.5 API。2026 年 3 月，v3.5 還上線了阿里雲無影雲手機，面向雲端 Android 環境提供行動使用體驗。

這說明專案正在把「本地跑實驗」之外的使用方式也補上。對於 GUI 智能體來說，雲手機和雲桌面很重要：它們能提供更穩定、更可復現的運行環境，減少本地裝置、系統版本、解析度和 App 狀態帶來的差異。

如果你想評估這類智能體，穩定環境往往比模型本身更容易被低估。沒有可控的執行環境，就很難判斷一次失敗是模型能力不足、介面變化、裝置問題，還是任務定義不清。

GUI-Owl 是底層變化

Mobile-Agent-v3 之後，GUI-Owl 成了這條路線裡的關鍵模型層。README 中把 GUI-Owl 描述為具備 GUI 感知、grounding 和端到端操作能力的多模態跨平台 GUI VLM。到 GUI-Owl-1.5，模型系列已經覆蓋 2B、4B、8B、32B、235B，並支援桌面、行動端和瀏覽器自動化。

這類模型的意義在於，它不只是回答「螢幕裡有什麼」，還要把自然語言目標、截圖內容、介面元素位置和下一步操作連起來。對 GUI agent 來說，視覺理解、座標定位、操作規劃和狀態記憶缺一不可。

當然，模型越通用，工程邊界也越重要。真實部署時仍然需要執行器、權限控制、任務日誌、回滾機制和人工確認。尤其是涉及支付、帳號、檔案、訊息發送等高風險操作時，GUI agent 不能只追求自動完成，還要能清楚說明自己準備做什麼。

ToolCUA 暗示的新方向

2026 年 5 月，專案新聞裡提到 ToolCUA，定位是面向 GUI 與工具最優路徑編排的端到端 Computer Use Agent。這個方向很有意思，因為它承認了一個現實：不是所有任務都應該靠點螢幕完成。

有些事情適合 GUI 操作，比如登入後台、處理複雜表單、讀取沒有 API 的應用狀態；有些事情更適合調用工具，比如檢索、計算、解析檔案、訪問結構化介面。真正可用的電腦使用智能體，需要學會在兩者之間切換。

這也是 Mobile-Agent 系列比早期手機自動化專案更值得看的地方。它不再只問「智能體能不能像人一樣點 App」，而是在問「智能體什麼時候該看螢幕，什麼時候該用工具，什麼時候該停下來確認」。

適合誰關注

如果你只是想找一個開箱即用的手機自動化助手，Mobile-Agent 仍然偏研究和工程框架。它涉及模型、運行環境、評測任務和具體執行器，完整跑通通常需要一定配置成本。

但如果你關注下面幾類問題，它很值得跟蹤：

行動端 GUI agent 如何從展示走向穩定執行。
桌面、瀏覽器和手機自動化能否統一到同一套智能體框架裡。
GUI 模型如何處理 grounding、反思、記憶和錯誤診斷。
智能體如何在 GUI 操作與工具調用之間選擇路徑。
雲手機、雲桌面是否會成為 GUI agent 的重要運行環境。

這些問題會直接影響個人助理、企業流程自動化、遠端桌面操作、應用測試和無 API 系統整合。

我的判斷

Mobile-Agent 的價值不在於某一個版本的指標，而在於它把 GUI 智能體從「手機截圖點按」推進到了一個更大的系統問題：模型、執行環境、評測、工具調用、錯誤診斷和跨平台任務如何協同。

短期看，它更適合研究者和開發者觀察 GUI agent 的技術路線；長期看，這類專案可能會影響個人 AI 助手和企業自動化工具的形態。真正的難點不只是讓智能體會操作介面，而是讓它在真實應用裡穩定、可控、可追蹤地完成任務。

專案連結：X-PLUG/MobileAgent