mobile-use 是 minitap-ai 開源的行動端 AI agent 框架,目標是讓智能體像人一樣使用真實 Android 和 iOS App。使用者用自然語言描述任務,框架負責理解介面、操作 App,並把結果返回給調用方。
從 README 看,mobile-use 的重點不只是「能點手機」,還強調 UI-aware automation、資料抽取、可配置模型,以及在 AndroidWorld 基準上的表現。專案還提供雲平台、文件和論文入口,說明它既是開源框架,也是一個圍繞行動端智能體搭建的產品與研究體系。
它和普通手機自動化有什麼不同
傳統手機自動化通常依賴腳本、座標、控制項 ID 或固定流程。它適合穩定頁面,但遇到介面變化、彈窗、搜尋結果、列表滾動和跨 App 操作時,很容易失效。
mobile-use 的路線是讓 AI agent 直接處理自然語言目標和 UI 狀態:
- 使用者用自然語言描述任務,不必預先寫死每一步。
- 框架讀取行動端介面,並結合模型判斷下一步操作。
- 可以從 App 中抽取資訊,並按指定格式返回,比如 JSON。
- 支援不同 LLM 配置,包括 OpenAI API compatible providers。
- Android 可以透過實體手機或模擬器運行,iOS 目前主要面向 macOS 上的模擬器。
這類框架更適合「半結構化」的行動任務:目標明確,但每次頁面狀態、資料內容和路徑不完全一樣。
AndroidWorld 結果值得注意
mobile-use README 中提到,專案在 AndroidWorld benchmark 上達到 100% 完成表現,並連結了對應論文。無論具體評測細節如何,這都說明專案團隊把「任務拆解」和「可評測執行」放在了很高的位置。
這點比單純展示更關鍵。GUI agent 最容易出現的問題是:一個影片裡看起來很聰明,但換一個任務、裝置或初始狀態就不穩定。基準測試不能完全代表真實使用,卻能逼迫系統面對一組標準化任務,並暴露規劃、定位、恢復和狀態理解能力。
README 中的論文題目也點出了方向:透過任務拆解提升 AndroidWorld 準確率。對行動端智能體來說,複雜任務往往不能靠一個大提示詞直接完成,而需要拆成可執行子任務,並在每一步檢查狀態。
資料抽取是實用入口
mobile-use 的一個現實場景是從原生 App 中抽取資料。很多資訊並不暴露在 API 中,只能在 App 介面裡查看,比如郵件列表、訂單狀態、社交內容、營運後台、訊息通知等。
README 給出的示例是打開 Gmail,找到未讀郵件,並把寄件者和主題整理成 JSON。這個方向很實用,因為它把行動 GUI agent 從「幫我操作一下」推進到「幫我把 App 裡的資訊結構化拿出來」。
不過,這也帶來邊界問題。資料抽取涉及帳號、隱私、平台條款和訪問權限。真正使用時,應該明確裝置歸屬、任務授權、資料保存方式和輸出範圍,不能把手機介面當成無限制的資料源。
部署門檻和限制
mobile-use 支援從平台快速開始,也支援從原始碼運行。原始碼方式需要配置 .env、LLM 配置和依賴環境;Android 側可以使用實體手機或模擬器,Docker 快速啟動目前主要面向 Android;iOS 側需要 macOS、Xcode 和 Facebook 的 iOS Development Bridge,README 也說明物理 iOS 裝置暫不支援。
這些限制並不意外。行動端自動化比瀏覽器自動化更依賴裝置、系統權限和偵錯通道。尤其是 iOS,系統封閉性更強,能穩定接入模擬器已經有價值,但離「任意真實 iPhone 自動化」還有距離。
因此,評估 mobile-use 時不要只看模型效果,還要看自己的目標裝置、App 類型、運行環境和合規邊界是否匹配。
適合誰關注
mobile-use 適合幾類人關注:
- 想研究 AndroidWorld、行動 GUI agent 和任務拆解方法的研究者。
- 想把自然語言行動操作接入內部工具的開發者。
- 需要從原生 App 抽取結構化資料的團隊。
- 做行動 App QA、回歸測試或探索式測試的人。
- 想比較 mobile-use、Mobilerun、Mobile-Agent 等不同行動端智能體路線的人。
如果目標是一個面向普通使用者的手機助手,它目前還偏工程和研究框架;如果目標是驗證行動端 agent 的可行性,它提供了一個很好的開源起點。
我的判斷
mobile-use 的亮點在於把真實 App 操作、結構化資料抽取和基準評測放在同一個專案裡。它不是只做「自然語言點手機」的包裝,而是在嘗試把行動端任務拆解成可執行、可評估、可復現的智能體流程。
行動端會是 GUI agent 的重要戰場,因為大量個人和業務任務發生在 App 裡,而不是網頁或 API 裡。mobile-use 這類專案的意義,就是讓智能體從聊天窗口走進真實應用介面。它還沒有把裝置、權限和風險問題全部抹平,但已經給開發者提供了一個足夠具體的實驗平台。