AI 能自己點手機、用電腦了嗎?Mobile-Agent 專案解讀

整理 X-PLUG 開源的 Mobile-Agent:它已經從手機 GUI 智能體擴展為覆蓋行動端、桌面、瀏覽器和工具調用的 GUI 智能體家族。

X-PLUG 開源的 Mobile-Agent 已經不只是一個手機自動化專案。按照倉庫當前的定位,它更像是通義實驗室圍繞 GUI 智能體持續沉澱的一組工作:Mobile-Agent-v1/v2/v3/v3.5、Mobile-Agent-E、PC-Agent、GUI-Critic-R1、UI-S1、GUI-Owl 以及 ToolCUA 等,都被放在同一個專案體系裡展示。

這條線索值得關注。過去談 GUI agent,常見問題是「模型能不能看懂截圖並點對位置」;而 Mobile-Agent 的演進方向更進一步:讓智能體在行動端、桌面、瀏覽器和工具調用之間切換,處理更長鏈路、更複雜的真實任務。

它解決什麼問題

GUI 智能體面對的不是標準 API,而是應用介面。它需要看懂螢幕、定位控制項、規劃步驟、執行點擊或輸入,並在失敗時修正路徑。行動端場景尤其複雜,因為任務往往跨多個 App,介面狀態也會隨著登入、權限、彈窗、網路和個性化推薦變化。

Mobile-Agent 系列把這個問題拆成了幾個方向:

  • 用 Mobile-Agent-v1/v2 探索手機 GUI 的視覺感知與多智能體協作。
  • 用 PC-Agent 把多智能體操作擴展到 PC 場景。
  • 用 Mobile-Agent-v3 和 v3.5 推進多平台 GUI 智能體框架。
  • 用 GUI-Owl 系列模型提供跨平台 GUI 感知、定位和端到端操作能力。
  • 用 GUI-Critic-R1、UI-S1、ToolCUA 等工作補足錯誤診斷、強化學習和 GUI/工具路徑編排。

這讓它不像一個單點 demo,而更像一條圍繞「電腦使用智能體」的研究和工程路線。

v3.5 的重點

倉庫 README 顯示,Mobile-Agent-v3.5 已經可以透過 ModelScope 線上 Demo 和阿里雲百煉線上 Demo 體驗,百煉上也提供了 v3.5 API。2026 年 3 月,v3.5 還上線了阿里雲無影雲手機,面向雲端 Android 環境提供行動使用體驗。

這說明專案正在把「本地跑實驗」之外的使用方式也補上。對於 GUI 智能體來說,雲手機和雲桌面很重要:它們能提供更穩定、更可復現的運行環境,減少本地裝置、系統版本、解析度和 App 狀態帶來的差異。

如果你想評估這類智能體,穩定環境往往比模型本身更容易被低估。沒有可控的執行環境,就很難判斷一次失敗是模型能力不足、介面變化、裝置問題,還是任務定義不清。

GUI-Owl 是底層變化

Mobile-Agent-v3 之後,GUI-Owl 成了這條路線裡的關鍵模型層。README 中把 GUI-Owl 描述為具備 GUI 感知、grounding 和端到端操作能力的多模態跨平台 GUI VLM。到 GUI-Owl-1.5,模型系列已經覆蓋 2B、4B、8B、32B、235B,並支援桌面、行動端和瀏覽器自動化。

這類模型的意義在於,它不只是回答「螢幕裡有什麼」,還要把自然語言目標、截圖內容、介面元素位置和下一步操作連起來。對 GUI agent 來說,視覺理解、座標定位、操作規劃和狀態記憶缺一不可。

當然,模型越通用,工程邊界也越重要。真實部署時仍然需要執行器、權限控制、任務日誌、回滾機制和人工確認。尤其是涉及支付、帳號、檔案、訊息發送等高風險操作時,GUI agent 不能只追求自動完成,還要能清楚說明自己準備做什麼。

ToolCUA 暗示的新方向

2026 年 5 月,專案新聞裡提到 ToolCUA,定位是面向 GUI 與工具最優路徑編排的端到端 Computer Use Agent。這個方向很有意思,因為它承認了一個現實:不是所有任務都應該靠點螢幕完成。

有些事情適合 GUI 操作,比如登入後台、處理複雜表單、讀取沒有 API 的應用狀態;有些事情更適合調用工具,比如檢索、計算、解析檔案、訪問結構化介面。真正可用的電腦使用智能體,需要學會在兩者之間切換。

這也是 Mobile-Agent 系列比早期手機自動化專案更值得看的地方。它不再只問「智能體能不能像人一樣點 App」,而是在問「智能體什麼時候該看螢幕,什麼時候該用工具,什麼時候該停下來確認」。

適合誰關注

如果你只是想找一個開箱即用的手機自動化助手,Mobile-Agent 仍然偏研究和工程框架。它涉及模型、運行環境、評測任務和具體執行器,完整跑通通常需要一定配置成本。

但如果你關注下面幾類問題,它很值得跟蹤:

  • 行動端 GUI agent 如何從展示走向穩定執行。
  • 桌面、瀏覽器和手機自動化能否統一到同一套智能體框架裡。
  • GUI 模型如何處理 grounding、反思、記憶和錯誤診斷。
  • 智能體如何在 GUI 操作與工具調用之間選擇路徑。
  • 雲手機、雲桌面是否會成為 GUI agent 的重要運行環境。

這些問題會直接影響個人助理、企業流程自動化、遠端桌面操作、應用測試和無 API 系統整合。

我的判斷

Mobile-Agent 的價值不在於某一個版本的指標,而在於它把 GUI 智能體從「手機截圖點按」推進到了一個更大的系統問題:模型、執行環境、評測、工具調用、錯誤診斷和跨平台任務如何協同。

短期看,它更適合研究者和開發者觀察 GUI agent 的技術路線;長期看,這類專案可能會影響個人 AI 助手和企業自動化工具的形態。真正的難點不只是讓智能體會操作介面,而是讓它在真實應用裡穩定、可控、可追蹤地完成任務。

專案連結:X-PLUG/MobileAgent

记录并分享
使用 Hugo 建立
主題 StackJimmy 設計