<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>行動端 on KnightLi的博客</title>
        <link>https://knightli.com/zh-tw/tags/%E8%A1%8C%E5%8B%95%E7%AB%AF/</link>
        <description>Recent content in 行動端 on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-tw</language>
        <lastBuildDate>Fri, 29 May 2026 21:47:24 +0800</lastBuildDate><atom:link href="https://knightli.com/zh-tw/tags/%E8%A1%8C%E5%8B%95%E7%AB%AF/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>AI 自動用手機哪家強？MobiAgent、Mobile-Agent、Mobilerun 和 mobile-use 對比</title>
        <link>https://knightli.com/zh-tw/2026/05/29/mobile-gui-agent-projects-comparison/</link>
        <pubDate>Fri, 29 May 2026 21:47:24 +0800</pubDate>
        
        <guid>https://knightli.com/zh-tw/2026/05/29/mobile-gui-agent-projects-comparison/</guid>
        <description>&lt;p&gt;最近連續整理了四個行動端 GUI 智能體專案：&lt;a class=&#34;link&#34; href=&#34;https://knightli.com/zh-tw/2026/05/29/mobiagent-mobile-gui-agent-framework/&#34; &gt;MobiAgent&lt;/a&gt;、&lt;a class=&#34;link&#34; href=&#34;https://knightli.com/zh-tw/2026/05/29/mobile-agent-gui-agent-family/&#34; &gt;Mobile-Agent&lt;/a&gt;、&lt;a class=&#34;link&#34; href=&#34;https://knightli.com/zh-tw/2026/05/29/mobilerun-mobile-device-agent-framework/&#34; &gt;Mobilerun&lt;/a&gt; 和 &lt;a class=&#34;link&#34; href=&#34;https://knightli.com/zh-tw/2026/05/29/mobile-use-real-mobile-app-agent/&#34; &gt;mobile-use&lt;/a&gt;。它們都和「讓 AI 操作手機或行動 App」有關，但定位並不一樣。&lt;/p&gt;
&lt;p&gt;簡單說：MobiAgent 更像可客製化的手機智能體研究系統；Mobile-Agent 是通義實驗室圍繞 GUI agent 的系列工作集合；Mobilerun 更偏向可落地的本地/雲端行動裝置控制框架；mobile-use 則強調真實 App 操作、任務拆解、資料抽取和 AndroidWorld 評測。&lt;/p&gt;
&lt;h2 id=&#34;基本資訊對比&#34;&gt;基本資訊對比
&lt;/h2&gt;&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;專案&lt;/th&gt;
          &lt;th&gt;站內文章&lt;/th&gt;
          &lt;th&gt;GitHub&lt;/th&gt;
          &lt;th&gt;主要定位&lt;/th&gt;
          &lt;th&gt;裝置/平台&lt;/th&gt;
          &lt;th&gt;開源協議&lt;/th&gt;
          &lt;th&gt;更適合誰&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;MobiAgent&lt;/td&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://knightli.com/zh-tw/2026/05/29/mobiagent-mobile-gui-agent-framework/&#34; &gt;站內介紹&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://github.com/IPADS-SAI/MobiAgent&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;IPADS-SAI/MobiAgent&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;可客製化手機 GUI 智能體系統，包含模型、runner、記憶、加速和評測&lt;/td&gt;
          &lt;td&gt;主要面向 Android/Harmony 手機&lt;/td&gt;
          &lt;td&gt;Apache-2.0&lt;/td&gt;
          &lt;td&gt;研究者、行動智能體實驗團隊&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Mobile-Agent&lt;/td&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://knightli.com/zh-tw/2026/05/29/mobile-agent-gui-agent-family/&#34; &gt;站內介紹&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://github.com/X-PLUG/MobileAgent&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;X-PLUG/MobileAgent&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;通義實驗室 GUI 智能體家族，覆蓋行動端、桌面、瀏覽器和工具調用&lt;/td&gt;
          &lt;td&gt;手機、PC、網頁、雲手機/雲桌面&lt;/td&gt;
          &lt;td&gt;MIT&lt;/td&gt;
          &lt;td&gt;關注 GUI agent 技術路線的人&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Mobilerun&lt;/td&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://knightli.com/zh-tw/2026/05/29/mobilerun-mobile-device-agent-framework/&#34; &gt;站內介紹&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://github.com/droidrun/mobilerun&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;droidrun/mobilerun&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;LLM 無關的行動裝置 agent 框架，支援 CLI、Python API 和雲端裝置工作流&lt;/td&gt;
          &lt;td&gt;Android、iOS、本地裝置、雲端裝置&lt;/td&gt;
          &lt;td&gt;MIT&lt;/td&gt;
          &lt;td&gt;開發者、QA、自動化工作流團隊&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;mobile-use&lt;/td&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://knightli.com/zh-tw/2026/05/29/mobile-use-real-mobile-app-agent/&#34; &gt;站內介紹&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://github.com/minitap-ai/mobile-use&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;minitap-ai/mobile-use&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;用自然語言操作真實行動 App，強調任務拆解、結構化抽取和 AndroidWorld&lt;/td&gt;
          &lt;td&gt;Android 實機/模擬器、iOS 模擬器&lt;/td&gt;
          &lt;td&gt;Apache-2.0&lt;/td&gt;
          &lt;td&gt;做行動 App agent、資料抽取和評測的人&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id=&#34;mobiagent&#34;&gt;MobiAgent
&lt;/h2&gt;&lt;p&gt;MobiAgent 來自 IPADS-SAI，定位是一個可客製化的手機智能體系統。它不是只提供一個執行腳本，而是把 MobiMind 模型家族、AgentRR 動作記錄與回放、MobiFlow 評測基準、手機 runner、資料採集和 Android app 放到同一套體系裡。&lt;/p&gt;
&lt;p&gt;它的特點是研究系統比較完整。MobiAgent 關注真實手機任務中的準確率、效率、記憶和可複用動作序列。README 中提到的使用者畫像記憶、經驗記憶、動作記憶，以及多任務執行，都說明它在嘗試處理長期任務和重複任務。&lt;/p&gt;
&lt;p&gt;它的門檻也相對高。完整運行需要裝置、ADB、模型部署、依賴環境、可選的向量資料庫和圖資料庫配置。更適合研究或工程實驗，不太像面向普通使用者的「安裝即用」手機助手。&lt;/p&gt;
&lt;h2 id=&#34;mobile-agent&#34;&gt;Mobile-Agent
&lt;/h2&gt;&lt;p&gt;Mobile-Agent 來自 X-PLUG/通義實驗室。這個倉庫已經從早期手機操作智能體，擴展成一個 GUI 智能體家族：Mobile-Agent-v1/v2/v3/v3.5、Mobile-Agent-E、PC-Agent、GUI-Critic-R1、UI-S1、GUI-Owl、ToolCUA 等都在同一條技術線上。&lt;/p&gt;
&lt;p&gt;它的特點是跨度大。Mobile-Agent 不只關心手機，還覆蓋桌面、瀏覽器、雲手機、雲桌面、GUI 感知、grounding、錯誤診斷、強化學習和 GUI/工具路徑編排。GUI-Owl 系列模型讓它更像一個跨平台 GUI agent 基礎模型路線，而不是單一行動自動化專案。&lt;/p&gt;
&lt;p&gt;它的不足也來自這個跨度：倉庫更像研究成果集合，使用者需要先判斷自己要跑哪個子專案、哪個模型和哪個場景。它適合跟蹤技術演進和復現實驗，不一定是最快接入業務流程的選擇。&lt;/p&gt;
&lt;h2 id=&#34;mobilerun&#34;&gt;Mobilerun
&lt;/h2&gt;&lt;p&gt;Mobilerun 來自 droidrun，定位更工程化：讓 LLM agent 透過自然語言控制 Android 和 iOS 裝置。它提供 CLI、TUI、Docker、Python API、Portal-based control、vision mode、reasoning mode、結構化輸出、自訂工具、app cards、執行軌跡和雲端裝置服務。&lt;/p&gt;
&lt;p&gt;它最突出的地方是模型無關和部署形態清楚。開發者可以接 OpenAI、Anthropic、Gemini、Ollama、DeepSeek、OpenRouter 或 OpenAI-compatible providers；也可以選擇本地框架或 Mobilerun Cloud。對真實團隊來說，這種「裝置控制層和模型層解耦」的設計很重要。&lt;/p&gt;
&lt;p&gt;它也有行動端自動化常見的門檻：Android 需要開發者選項、USB 偵錯和 Portal app；iOS 需要單獨流程；複雜任務還要處理權限彈窗、頁面變化、失敗重試和日誌排查。它更適合願意把 mobile agent 當成工程元件接入的人。&lt;/p&gt;
&lt;h2 id=&#34;mobile-use&#34;&gt;mobile-use
&lt;/h2&gt;&lt;p&gt;mobile-use 來自 minitap-ai，目標是讓 AI agent 使用真實 Android 和 iOS App。它支援自然語言控制、UI-aware automation、資料抽取、不同 LLM 配置，並強調 AndroidWorld 基準表現。README 中還提到專案是首個在 AndroidWorld benchmark 上達到 100% 的 agentic framework。&lt;/p&gt;
&lt;p&gt;它的亮點是任務拆解和結構化抽取。比如從 Gmail 中找未讀郵件，並按指定 JSON 格式返回寄件者和主題，這類任務比「打開設定看看電量」更接近真實生產需求。它把行動 GUI agent 從「會操作」推進到「能把 App 裡的資訊整理出來」。&lt;/p&gt;
&lt;p&gt;它的限制主要在裝置支援和運行環境。Android 可以用實體手機或模擬器；iOS 目前主要支援 macOS 上的模擬器，物理 iOS 裝置還不支援。Docker 快速啟動也主要面向 Android。評估它時，要先確認目標裝置和 App 場景能否被當前執行通道覆蓋。&lt;/p&gt;
&lt;h2 id=&#34;功能對比&#34;&gt;功能對比
&lt;/h2&gt;&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;功能維度&lt;/th&gt;
          &lt;th&gt;MobiAgent&lt;/th&gt;
          &lt;th&gt;Mobile-Agent&lt;/th&gt;
          &lt;th&gt;Mobilerun&lt;/th&gt;
          &lt;th&gt;mobile-use&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;自然語言任務&lt;/td&gt;
          &lt;td&gt;支援&lt;/td&gt;
          &lt;td&gt;支援&lt;/td&gt;
          &lt;td&gt;支援&lt;/td&gt;
          &lt;td&gt;支援&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;真實手機操作&lt;/td&gt;
          &lt;td&gt;強，偏 Android/Harmony&lt;/td&gt;
          &lt;td&gt;強，含行動端與雲手機&lt;/td&gt;
          &lt;td&gt;強，Android/iOS&lt;/td&gt;
          &lt;td&gt;強，Android；iOS 偏模擬器&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;桌面/瀏覽器擴展&lt;/td&gt;
          &lt;td&gt;不是重點&lt;/td&gt;
          &lt;td&gt;強，含 PC-Agent、GUI-Owl、ToolCUA&lt;/td&gt;
          &lt;td&gt;不是主要定位&lt;/td&gt;
          &lt;td&gt;不是主要定位&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;模型層&lt;/td&gt;
          &lt;td&gt;自帶 MobiMind 系列&lt;/td&gt;
          &lt;td&gt;GUI-Owl、Mobile-Agent 系列&lt;/td&gt;
          &lt;td&gt;LLM 無關，接多家模型&lt;/td&gt;
          &lt;td&gt;可配置多種 LLM&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;執行器/runner&lt;/td&gt;
          &lt;td&gt;強，含 ADB runner、多任務 runner&lt;/td&gt;
          &lt;td&gt;子專案各自提供&lt;/td&gt;
          &lt;td&gt;強，CLI/TUI/Python API/Docker&lt;/td&gt;
          &lt;td&gt;有原始碼、Docker 和平台入口&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;記憶能力&lt;/td&gt;
          &lt;td&gt;使用者畫像、經驗、動作記憶&lt;/td&gt;
          &lt;td&gt;v3/v3.5 路線中強調記憶與反思&lt;/td&gt;
          &lt;td&gt;更偏軌跡、日誌和工程偵錯&lt;/td&gt;
          &lt;td&gt;更偏任務拆解與狀態執行&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;評測&lt;/td&gt;
          &lt;td&gt;MobiFlow&lt;/td&gt;
          &lt;td&gt;多個論文/基準方向&lt;/td&gt;
          &lt;td&gt;有 benchmark 結果入口&lt;/td&gt;
          &lt;td&gt;AndroidWorld 表現突出&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;雲端裝置&lt;/td&gt;
          &lt;td&gt;不是主要賣點&lt;/td&gt;
          &lt;td&gt;支援雲手機/雲桌面體驗&lt;/td&gt;
          &lt;td&gt;Mobilerun Cloud 是重點&lt;/td&gt;
          &lt;td&gt;有平台入口&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;結構化輸出&lt;/td&gt;
          &lt;td&gt;可透過工程流程實現&lt;/td&gt;
          &lt;td&gt;視子專案而定&lt;/td&gt;
          &lt;td&gt;明確支援&lt;/td&gt;
          &lt;td&gt;明確支援&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id=&#34;優缺點對比&#34;&gt;優缺點對比
&lt;/h2&gt;&lt;p&gt;MobiAgent 的優點是系統完整，適合研究手機 GUI agent 的模型、記憶、加速和評測閉環；缺點是部署鏈路長，工程配置重，普通開發者上手成本較高。&lt;/p&gt;
&lt;p&gt;Mobile-Agent 的優點是技術路線最寬，能看到 GUI agent 從手機走向桌面、瀏覽器、工具調用和基礎模型的演進；缺點是專案族複雜，想直接落地某個具體場景時，需要先做較多篩選。&lt;/p&gt;
&lt;p&gt;Mobilerun 的優點是工程介面清晰，模型無關，本地框架和雲服務分層明確，適合把行動裝置自動化接入產品或內部工具；缺點是仍然要面對行動裝置權限、環境、App 狀態和雲端成本問題。&lt;/p&gt;
&lt;p&gt;mobile-use 的優點是聚焦真實 App 使用、任務拆解和結構化資料抽取，AndroidWorld 方向也讓它更容易評估；缺點是 iOS 物理裝置支援有限，完整使用仍然需要配置模型、裝置和運行環境。&lt;/p&gt;
&lt;h2 id=&#34;適用範圍建議&#34;&gt;適用範圍建議
&lt;/h2&gt;&lt;p&gt;如果你要做行動智能體研究，優先看 MobiAgent 和 Mobile-Agent。前者更聚焦手機端系統閉環，後者更適合觀察 GUI agent 的跨平台演進。&lt;/p&gt;
&lt;p&gt;如果你要做行動 App 自動化、QA、資料抽取或內部工作流，優先看 Mobilerun 和 mobile-use。Mobilerun 更像可接入工程系統的運行框架，mobile-use 更適合驗證自然語言 App 操作和結構化抽取。&lt;/p&gt;
&lt;p&gt;如果你關注未來個人助手形態，四個都值得跟蹤。MobiAgent 代表手機 agent 的系統化研究，Mobile-Agent 代表跨平台 GUI agent 路線，Mobilerun 代表裝置控制基礎設施，mobile-use 代表真實 App 任務拆解和評測驅動路線。&lt;/p&gt;
&lt;h2 id=&#34;我的判斷&#34;&gt;我的判斷
&lt;/h2&gt;&lt;p&gt;這四個專案的差異說明，行動端 GUI agent 已經不只是「讓模型看截圖點按鈕」。真正的問題變成了：模型如何理解介面，執行器如何穩定控制裝置，任務如何拆解和評估，雲端裝置如何管理，結果如何結構化返回，風險如何被限制。&lt;/p&gt;
&lt;p&gt;短期內，最現實的落地場景會是 QA、資料抽取、內部流程自動化和受控裝置池。長期看，誰能把裝置控制、模型能力、權限邊界、日誌追蹤和使用者確認機制做穩，誰就更接近真正可用的行動端 AI 助手。&lt;/p&gt;
</description>
        </item>
        <item>
        <title>mobile-use 看點：讓 AI 操作真實 App，還能提取資料</title>
        <link>https://knightli.com/zh-tw/2026/05/29/mobile-use-real-mobile-app-agent/</link>
        <pubDate>Fri, 29 May 2026 21:43:46 +0800</pubDate>
        
        <guid>https://knightli.com/zh-tw/2026/05/29/mobile-use-real-mobile-app-agent/</guid>
        <description>&lt;p&gt;&lt;a class=&#34;link&#34; href=&#34;https://github.com/minitap-ai/mobile-use&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;mobile-use&lt;/a&gt; 是 minitap-ai 開源的行動端 AI agent 框架，目標是讓智能體像人一樣使用真實 Android 和 iOS App。使用者用自然語言描述任務，框架負責理解介面、操作 App，並把結果返回給調用方。&lt;/p&gt;
&lt;p&gt;從 README 看，mobile-use 的重點不只是「能點手機」，還強調 UI-aware automation、資料抽取、可配置模型，以及在 AndroidWorld 基準上的表現。專案還提供雲平台、文件和論文入口，說明它既是開源框架，也是一個圍繞行動端智能體搭建的產品與研究體系。&lt;/p&gt;
&lt;h2 id=&#34;它和普通手機自動化有什麼不同&#34;&gt;它和普通手機自動化有什麼不同
&lt;/h2&gt;&lt;p&gt;傳統手機自動化通常依賴腳本、座標、控制項 ID 或固定流程。它適合穩定頁面，但遇到介面變化、彈窗、搜尋結果、列表滾動和跨 App 操作時，很容易失效。&lt;/p&gt;
&lt;p&gt;mobile-use 的路線是讓 AI agent 直接處理自然語言目標和 UI 狀態：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;使用者用自然語言描述任務，不必預先寫死每一步。&lt;/li&gt;
&lt;li&gt;框架讀取行動端介面，並結合模型判斷下一步操作。&lt;/li&gt;
&lt;li&gt;可以從 App 中抽取資訊，並按指定格式返回，比如 JSON。&lt;/li&gt;
&lt;li&gt;支援不同 LLM 配置，包括 OpenAI API compatible providers。&lt;/li&gt;
&lt;li&gt;Android 可以透過實體手機或模擬器運行，iOS 目前主要面向 macOS 上的模擬器。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這類框架更適合「半結構化」的行動任務：目標明確，但每次頁面狀態、資料內容和路徑不完全一樣。&lt;/p&gt;
&lt;h2 id=&#34;androidworld-結果值得注意&#34;&gt;AndroidWorld 結果值得注意
&lt;/h2&gt;&lt;p&gt;mobile-use README 中提到，專案在 AndroidWorld benchmark 上達到 100% 完成表現，並連結了對應論文。無論具體評測細節如何，這都說明專案團隊把「任務拆解」和「可評測執行」放在了很高的位置。&lt;/p&gt;
&lt;p&gt;這點比單純展示更關鍵。GUI agent 最容易出現的問題是：一個影片裡看起來很聰明，但換一個任務、裝置或初始狀態就不穩定。基準測試不能完全代表真實使用，卻能逼迫系統面對一組標準化任務，並暴露規劃、定位、恢復和狀態理解能力。&lt;/p&gt;
&lt;p&gt;README 中的論文題目也點出了方向：透過任務拆解提升 AndroidWorld 準確率。對行動端智能體來說，複雜任務往往不能靠一個大提示詞直接完成，而需要拆成可執行子任務，並在每一步檢查狀態。&lt;/p&gt;
&lt;h2 id=&#34;資料抽取是實用入口&#34;&gt;資料抽取是實用入口
&lt;/h2&gt;&lt;p&gt;mobile-use 的一個現實場景是從原生 App 中抽取資料。很多資訊並不暴露在 API 中，只能在 App 介面裡查看，比如郵件列表、訂單狀態、社交內容、營運後台、訊息通知等。&lt;/p&gt;
&lt;p&gt;README 給出的示例是打開 Gmail，找到未讀郵件，並把寄件者和主題整理成 JSON。這個方向很實用，因為它把行動 GUI agent 從「幫我操作一下」推進到「幫我把 App 裡的資訊結構化拿出來」。&lt;/p&gt;
&lt;p&gt;不過，這也帶來邊界問題。資料抽取涉及帳號、隱私、平台條款和訪問權限。真正使用時，應該明確裝置歸屬、任務授權、資料保存方式和輸出範圍，不能把手機介面當成無限制的資料源。&lt;/p&gt;
&lt;h2 id=&#34;部署門檻和限制&#34;&gt;部署門檻和限制
&lt;/h2&gt;&lt;p&gt;mobile-use 支援從平台快速開始，也支援從原始碼運行。原始碼方式需要配置 &lt;code&gt;.env&lt;/code&gt;、LLM 配置和依賴環境；Android 側可以使用實體手機或模擬器，Docker 快速啟動目前主要面向 Android；iOS 側需要 macOS、Xcode 和 Facebook 的 iOS Development Bridge，README 也說明物理 iOS 裝置暫不支援。&lt;/p&gt;
&lt;p&gt;這些限制並不意外。行動端自動化比瀏覽器自動化更依賴裝置、系統權限和偵錯通道。尤其是 iOS，系統封閉性更強，能穩定接入模擬器已經有價值，但離「任意真實 iPhone 自動化」還有距離。&lt;/p&gt;
&lt;p&gt;因此，評估 mobile-use 時不要只看模型效果，還要看自己的目標裝置、App 類型、運行環境和合規邊界是否匹配。&lt;/p&gt;
&lt;h2 id=&#34;適合誰關注&#34;&gt;適合誰關注
&lt;/h2&gt;&lt;p&gt;mobile-use 適合幾類人關注：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;想研究 AndroidWorld、行動 GUI agent 和任務拆解方法的研究者。&lt;/li&gt;
&lt;li&gt;想把自然語言行動操作接入內部工具的開發者。&lt;/li&gt;
&lt;li&gt;需要從原生 App 抽取結構化資料的團隊。&lt;/li&gt;
&lt;li&gt;做行動 App QA、回歸測試或探索式測試的人。&lt;/li&gt;
&lt;li&gt;想比較 mobile-use、Mobilerun、Mobile-Agent 等不同行動端智能體路線的人。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果目標是一個面向普通使用者的手機助手，它目前還偏工程和研究框架；如果目標是驗證行動端 agent 的可行性，它提供了一個很好的開源起點。&lt;/p&gt;
&lt;h2 id=&#34;我的判斷&#34;&gt;我的判斷
&lt;/h2&gt;&lt;p&gt;mobile-use 的亮點在於把真實 App 操作、結構化資料抽取和基準評測放在同一個專案裡。它不是只做「自然語言點手機」的包裝，而是在嘗試把行動端任務拆解成可執行、可評估、可復現的智能體流程。&lt;/p&gt;
&lt;p&gt;行動端會是 GUI agent 的重要戰場，因為大量個人和業務任務發生在 App 裡，而不是網頁或 API 裡。mobile-use 這類專案的意義，就是讓智能體從聊天窗口走進真實應用介面。它還沒有把裝置、權限和風險問題全部抹平，但已經給開發者提供了一個足夠具體的實驗平台。&lt;/p&gt;
&lt;p&gt;專案連結：&lt;a class=&#34;link&#34; href=&#34;https://github.com/minitap-ai/mobile-use&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;minitap-ai/mobile-use&lt;/a&gt;&lt;/p&gt;
</description>
        </item>
        <item>
        <title>想讓 AI 自動點手機？Mobilerun 支援 Android 和 iOS</title>
        <link>https://knightli.com/zh-tw/2026/05/29/mobilerun-mobile-device-agent-framework/</link>
        <pubDate>Fri, 29 May 2026 21:43:45 +0800</pubDate>
        
        <guid>https://knightli.com/zh-tw/2026/05/29/mobilerun-mobile-device-agent-framework/</guid>
        <description>&lt;p&gt;&lt;a class=&#34;link&#34; href=&#34;https://github.com/droidrun/mobilerun&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Mobilerun&lt;/a&gt; 是 droidrun 開源的行動裝置自動化框架，目標是讓 LLM agent 可以用自然語言控制 Android 和 iOS 裝置。它提供行動端原生工具，讓智能體能夠檢查 UI 狀態、理解截圖、點擊、滑動、輸入、規劃多步任務，並透過 CLI 或 Python API 返回結果。&lt;/p&gt;
&lt;p&gt;這個專案的定位很清楚：它不綁定某一家模型，而是做行動裝置與智能體之間的執行層。README 中列出的模型來源包括 OpenAI、Anthropic、Gemini、Ollama、DeepSeek、OpenRouter 以及 OpenAI-compatible providers。對開發者來說，這比「只支援一個模型的展示專案」更實用。&lt;/p&gt;
&lt;h2 id=&#34;它解決什麼問題&#34;&gt;它解決什麼問題
&lt;/h2&gt;&lt;p&gt;行動端自動化最麻煩的地方，是自然語言任務和真實裝置操作之間隔著很多層。模型需要知道目前打開了什麼 App、頁面有哪些控制項、是否需要截圖補充視覺資訊、下一步該點哪裡，以及執行失敗後如何繼續。&lt;/p&gt;
&lt;p&gt;Mobilerun 把這些能力整理成一套框架：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;透過 CLI 和 TUI 運行一次性自然語言任務、檢查裝置、回放巨集和偵錯流程。&lt;/li&gt;
&lt;li&gt;透過 Python API 建構自訂行動自動化工作流。&lt;/li&gt;
&lt;li&gt;支援 Android 和 iOS，Android 透過 Portal app 和無障礙能力控制裝置，iOS 走單獨的 Portal 流程。&lt;/li&gt;
&lt;li&gt;同時使用 accessibility tree 和截圖，讓模型既能讀結構化 UI，也能看視覺畫面。&lt;/li&gt;
&lt;li&gt;支援 &lt;code&gt;--vision&lt;/code&gt;、&lt;code&gt;--vision-only&lt;/code&gt; 和 &lt;code&gt;--reasoning&lt;/code&gt; 等模式，應對不同複雜度的任務。&lt;/li&gt;
&lt;li&gt;支援結構化輸出、app cards、自訂工具、憑據和執行軌跡追蹤。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這讓 Mobilerun 更像一個「行動端 agent runtime」，而不是單純把截圖發給大模型再模擬點擊。&lt;/p&gt;
&lt;h2 id=&#34;本地框架和雲端服務&#34;&gt;本地框架和雲端服務
&lt;/h2&gt;&lt;p&gt;Mobilerun 把本地框架和 Mobilerun Cloud 分得比較清楚。本地框架適合開發者在自己的機器和裝置上運行 agent，拿到更強的程式碼級控制；Cloud 則面向託管裝置、REST API、SDK 和規模化工作流。&lt;/p&gt;
&lt;p&gt;這個分層很重要。很多行動自動化場景開始時只是「幫我在手機上跑一個任務」，但一旦進入團隊使用，就會遇到裝置管理、並發、日誌、失敗重試、權限和 API 調用的問題。Cloud 不是替代本地框架，而是把裝置運維和工作流接入往後端服務方向推進。&lt;/p&gt;
&lt;p&gt;README 中還區分了幾類雲端裝置：使用者自己的硬體、託管雲手機、託管實體手機。這裡的差別不只是成本，也涉及應用風控、身份可信度和任務穩定性。對電商、社交、金融或本地生活類 App 來說，真實裝置和虛擬裝置的表現可能完全不同。&lt;/p&gt;
&lt;h2 id=&#34;為什麼-llm-無關很關鍵&#34;&gt;為什麼 LLM 無關很關鍵
&lt;/h2&gt;&lt;p&gt;行動 GUI agent 還處在快速變化階段，很難說哪一家模型長期最好。不同任務對模型的要求也不一樣：有的更依賴視覺理解，有的更依賴長鏈路規劃，有的更看重工具調用，有的則需要低成本批量執行。&lt;/p&gt;
&lt;p&gt;Mobilerun 選擇模型無關的框架路線，價值在於把裝置控制、任務執行、日誌追蹤和模型選擇拆開。開發者可以先穩定裝置側流程，再根據任務成本、準確率和延遲切換模型。&lt;/p&gt;
&lt;p&gt;這對實際落地很有幫助。企業不會只因為一個模型展示效果好就重寫裝置控制層；更合理的方式是保留統一執行框架，把模型當成可替換元件。&lt;/p&gt;
&lt;h2 id=&#34;適合哪些場景&#34;&gt;適合哪些場景
&lt;/h2&gt;&lt;p&gt;Mobilerun 當前適合幾類需求：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;行動 App QA 和回歸測試。&lt;/li&gt;
&lt;li&gt;從原生 App 中抽取資料並返回結構化結果。&lt;/li&gt;
&lt;li&gt;自動執行重複性的手機任務。&lt;/li&gt;
&lt;li&gt;為非技術使用者封裝自然語言行動操作流程。&lt;/li&gt;
&lt;li&gt;在多台裝置上運行自動化任務。&lt;/li&gt;
&lt;li&gt;把日程、通知或自訂觸發器接入行動端工作流。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;不過，它也不是「安裝後立刻替你管手機」的消費級助手。Android 側需要 ADB、開發者選項、USB 偵錯和 Portal app；iOS 側也有自己的接入流程。真正跑穩定，還要處理模型配置、裝置狀態、權限彈窗和任務失敗恢復。&lt;/p&gt;
&lt;h2 id=&#34;我的判斷&#34;&gt;我的判斷
&lt;/h2&gt;&lt;p&gt;Mobilerun 的價值在於把行動裝置控制做成了可程式化、可觀測、可替換模型的 agent 框架。它承認行動自動化不是一個模型問題，而是模型、裝置、執行器、日誌、工具和雲端基礎設施共同組成的系統問題。&lt;/p&gt;
&lt;p&gt;短期看，它適合開發者搭建行動端自動化原型和內部工具；長期看，這類框架可能會成為「手機上的 AI 工作流引擎」。如果 GUI agent 要進入真實業務，像 Mobilerun 這樣把本地運行、雲端裝置、結構化輸出和追蹤能力放在一起的專案會越來越重要。&lt;/p&gt;
&lt;p&gt;專案連結：&lt;a class=&#34;link&#34; href=&#34;https://github.com/droidrun/mobilerun&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;droidrun/mobilerun&lt;/a&gt;&lt;/p&gt;
</description>
        </item>
        <item>
        <title>AI 能自己點手機、用電腦了嗎？Mobile-Agent 專案解讀</title>
        <link>https://knightli.com/zh-tw/2026/05/29/mobile-agent-gui-agent-family/</link>
        <pubDate>Fri, 29 May 2026 21:42:41 +0800</pubDate>
        
        <guid>https://knightli.com/zh-tw/2026/05/29/mobile-agent-gui-agent-family/</guid>
        <description>&lt;p&gt;X-PLUG 開源的 &lt;a class=&#34;link&#34; href=&#34;https://github.com/X-PLUG/MobileAgent&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Mobile-Agent&lt;/a&gt; 已經不只是一個手機自動化專案。按照倉庫當前的定位，它更像是通義實驗室圍繞 GUI 智能體持續沉澱的一組工作：Mobile-Agent-v1/v2/v3/v3.5、Mobile-Agent-E、PC-Agent、GUI-Critic-R1、UI-S1、GUI-Owl 以及 ToolCUA 等，都被放在同一個專案體系裡展示。&lt;/p&gt;
&lt;p&gt;這條線索值得關注。過去談 GUI agent，常見問題是「模型能不能看懂截圖並點對位置」；而 Mobile-Agent 的演進方向更進一步：讓智能體在行動端、桌面、瀏覽器和工具調用之間切換，處理更長鏈路、更複雜的真實任務。&lt;/p&gt;
&lt;h2 id=&#34;它解決什麼問題&#34;&gt;它解決什麼問題
&lt;/h2&gt;&lt;p&gt;GUI 智能體面對的不是標準 API，而是應用介面。它需要看懂螢幕、定位控制項、規劃步驟、執行點擊或輸入，並在失敗時修正路徑。行動端場景尤其複雜，因為任務往往跨多個 App，介面狀態也會隨著登入、權限、彈窗、網路和個性化推薦變化。&lt;/p&gt;
&lt;p&gt;Mobile-Agent 系列把這個問題拆成了幾個方向：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;用 Mobile-Agent-v1/v2 探索手機 GUI 的視覺感知與多智能體協作。&lt;/li&gt;
&lt;li&gt;用 PC-Agent 把多智能體操作擴展到 PC 場景。&lt;/li&gt;
&lt;li&gt;用 Mobile-Agent-v3 和 v3.5 推進多平台 GUI 智能體框架。&lt;/li&gt;
&lt;li&gt;用 GUI-Owl 系列模型提供跨平台 GUI 感知、定位和端到端操作能力。&lt;/li&gt;
&lt;li&gt;用 GUI-Critic-R1、UI-S1、ToolCUA 等工作補足錯誤診斷、強化學習和 GUI/工具路徑編排。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這讓它不像一個單點 demo，而更像一條圍繞「電腦使用智能體」的研究和工程路線。&lt;/p&gt;
&lt;h2 id=&#34;v35-的重點&#34;&gt;v3.5 的重點
&lt;/h2&gt;&lt;p&gt;倉庫 README 顯示，Mobile-Agent-v3.5 已經可以透過 ModelScope 線上 Demo 和阿里雲百煉線上 Demo 體驗，百煉上也提供了 v3.5 API。2026 年 3 月，v3.5 還上線了阿里雲無影雲手機，面向雲端 Android 環境提供行動使用體驗。&lt;/p&gt;
&lt;p&gt;這說明專案正在把「本地跑實驗」之外的使用方式也補上。對於 GUI 智能體來說，雲手機和雲桌面很重要：它們能提供更穩定、更可復現的運行環境，減少本地裝置、系統版本、解析度和 App 狀態帶來的差異。&lt;/p&gt;
&lt;p&gt;如果你想評估這類智能體，穩定環境往往比模型本身更容易被低估。沒有可控的執行環境，就很難判斷一次失敗是模型能力不足、介面變化、裝置問題，還是任務定義不清。&lt;/p&gt;
&lt;h2 id=&#34;gui-owl-是底層變化&#34;&gt;GUI-Owl 是底層變化
&lt;/h2&gt;&lt;p&gt;Mobile-Agent-v3 之後，GUI-Owl 成了這條路線裡的關鍵模型層。README 中把 GUI-Owl 描述為具備 GUI 感知、grounding 和端到端操作能力的多模態跨平台 GUI VLM。到 GUI-Owl-1.5，模型系列已經覆蓋 2B、4B、8B、32B、235B，並支援桌面、行動端和瀏覽器自動化。&lt;/p&gt;
&lt;p&gt;這類模型的意義在於，它不只是回答「螢幕裡有什麼」，還要把自然語言目標、截圖內容、介面元素位置和下一步操作連起來。對 GUI agent 來說，視覺理解、座標定位、操作規劃和狀態記憶缺一不可。&lt;/p&gt;
&lt;p&gt;當然，模型越通用，工程邊界也越重要。真實部署時仍然需要執行器、權限控制、任務日誌、回滾機制和人工確認。尤其是涉及支付、帳號、檔案、訊息發送等高風險操作時，GUI agent 不能只追求自動完成，還要能清楚說明自己準備做什麼。&lt;/p&gt;
&lt;h2 id=&#34;toolcua-暗示的新方向&#34;&gt;ToolCUA 暗示的新方向
&lt;/h2&gt;&lt;p&gt;2026 年 5 月，專案新聞裡提到 ToolCUA，定位是面向 GUI 與工具最優路徑編排的端到端 Computer Use Agent。這個方向很有意思，因為它承認了一個現實：不是所有任務都應該靠點螢幕完成。&lt;/p&gt;
&lt;p&gt;有些事情適合 GUI 操作，比如登入後台、處理複雜表單、讀取沒有 API 的應用狀態；有些事情更適合調用工具，比如檢索、計算、解析檔案、訪問結構化介面。真正可用的電腦使用智能體，需要學會在兩者之間切換。&lt;/p&gt;
&lt;p&gt;這也是 Mobile-Agent 系列比早期手機自動化專案更值得看的地方。它不再只問「智能體能不能像人一樣點 App」，而是在問「智能體什麼時候該看螢幕，什麼時候該用工具，什麼時候該停下來確認」。&lt;/p&gt;
&lt;h2 id=&#34;適合誰關注&#34;&gt;適合誰關注
&lt;/h2&gt;&lt;p&gt;如果你只是想找一個開箱即用的手機自動化助手，Mobile-Agent 仍然偏研究和工程框架。它涉及模型、運行環境、評測任務和具體執行器，完整跑通通常需要一定配置成本。&lt;/p&gt;
&lt;p&gt;但如果你關注下面幾類問題，它很值得跟蹤：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;行動端 GUI agent 如何從展示走向穩定執行。&lt;/li&gt;
&lt;li&gt;桌面、瀏覽器和手機自動化能否統一到同一套智能體框架裡。&lt;/li&gt;
&lt;li&gt;GUI 模型如何處理 grounding、反思、記憶和錯誤診斷。&lt;/li&gt;
&lt;li&gt;智能體如何在 GUI 操作與工具調用之間選擇路徑。&lt;/li&gt;
&lt;li&gt;雲手機、雲桌面是否會成為 GUI agent 的重要運行環境。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這些問題會直接影響個人助理、企業流程自動化、遠端桌面操作、應用測試和無 API 系統整合。&lt;/p&gt;
&lt;h2 id=&#34;我的判斷&#34;&gt;我的判斷
&lt;/h2&gt;&lt;p&gt;Mobile-Agent 的價值不在於某一個版本的指標，而在於它把 GUI 智能體從「手機截圖點按」推進到了一個更大的系統問題：模型、執行環境、評測、工具調用、錯誤診斷和跨平台任務如何協同。&lt;/p&gt;
&lt;p&gt;短期看，它更適合研究者和開發者觀察 GUI agent 的技術路線；長期看，這類專案可能會影響個人 AI 助手和企業自動化工具的形態。真正的難點不只是讓智能體會操作介面，而是讓它在真實應用裡穩定、可控、可追蹤地完成任務。&lt;/p&gt;
&lt;p&gt;專案連結：&lt;a class=&#34;link&#34; href=&#34;https://github.com/X-PLUG/MobileAgent&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;X-PLUG/MobileAgent&lt;/a&gt;&lt;/p&gt;
</description>
        </item>
        <item>
        <title>MobiAgent 是什麼？一個能操作手機 App 的開源 AI 智能體</title>
        <link>https://knightli.com/zh-tw/2026/05/29/mobiagent-mobile-gui-agent-framework/</link>
        <pubDate>Fri, 29 May 2026 21:36:58 +0800</pubDate>
        
        <guid>https://knightli.com/zh-tw/2026/05/29/mobiagent-mobile-gui-agent-framework/</guid>
        <description>&lt;p&gt;IPADS-SAI 開源了 &lt;a class=&#34;link&#34; href=&#34;https://github.com/IPADS-SAI/MobiAgent&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MobiAgent&lt;/a&gt;，定位是一個面向手機 GUI 的可客製化智能體框架。它不是單一模型倉庫，而是把模型、執行器、加速機制、評測基準和行動端應用放在同一個體系裡，目標是讓智能體能在真實手機環境中完成跨應用、多步驟任務。&lt;/p&gt;
&lt;p&gt;從專案結構看，MobiAgent 主要由三部分組成：MobiMind 系列智能體模型、AgentRR 記錄與回放加速框架，以及 MobiFlow 評測基準。論文摘要也強調，現有行動智能體在真實任務裡的準確率和效率仍然是主要瓶頸，MobiAgent 的設計就是圍繞這兩個問題展開。&lt;/p&gt;
&lt;h2 id=&#34;它解決什麼問題&#34;&gt;它解決什麼問題
&lt;/h2&gt;&lt;p&gt;手機 GUI 智能體比網頁或桌面自動化更麻煩。它需要理解截圖、識別控制項、決定下一步操作，還要透過 ADB 或行動端運行環境執行點擊、輸入、返回、切換應用等動作。真實任務往往不是單 App 內的一次操作，而是跨越搜尋、購物、社交、支付、地圖等多個應用的連續流程。&lt;/p&gt;
&lt;p&gt;MobiAgent 的價值在於把這些環節系統化：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;用 MobiMind 承擔任務規劃、決策和介面定位等能力。&lt;/li&gt;
&lt;li&gt;用 runner 連接手機，透過 ADB 執行預定義任務並記錄軌跡。&lt;/li&gt;
&lt;li&gt;用 AgentRR 複用成功動作序列，降低重複任務的推理與操作成本。&lt;/li&gt;
&lt;li&gt;用 MobiFlow 評測真實行動場景中的任務完成情況。&lt;/li&gt;
&lt;li&gt;透過資料採集、標註和處理工具，降低行動 GUI 任務資料建構成本。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這讓它更像一個行動智能體實驗平台，而不是只能跑展示的模型專案。&lt;/p&gt;
&lt;h2 id=&#34;最近更新值得關注&#34;&gt;最近更新值得關注
&lt;/h2&gt;&lt;p&gt;專案 README 顯示，MobiAgent 在 2025 年 8 月開源，之後持續補齊模型、Runner、記憶系統和端側運行能力。2025 年 12 月開始，專案支援在手機上進行純端側推理，並發布了統一 GUI agent runner，可配置 MobiAgent、UI-TARS、AutoGLM、Qwen-VL、Gemini 等多種模型。&lt;/p&gt;
&lt;p&gt;到 2026 年 3 月，專案又發布了 GUI-based mobile &amp;ldquo;claw&amp;rdquo; MobiClaw，以及新的 MobiMind-1.5-4B 模型。這說明它的方向不只是論文復現，而是在繼續把行動端執行、模型能力和操作工具鏈往產品化方向推進。&lt;/p&gt;
&lt;h2 id=&#34;記憶系統是關鍵補丁&#34;&gt;記憶系統是關鍵補丁
&lt;/h2&gt;&lt;p&gt;MobiAgent 支援使用者畫像記憶、經驗記憶和動作記憶。使用者畫像記憶用於給規劃提供偏好上下文；經驗記憶用於檢索類似任務的執行經驗；動作記憶則透過 AgentRR 快取和複用成功動作序列。&lt;/p&gt;
&lt;p&gt;這很重要，因為手機任務天然帶有重複性。比如使用者常用某個 App 搜尋商品、打開固定聯絡人、在特定頁面填寫資訊。如果每次都從零開始看圖、規劃和點擊，成本高且容易出錯。記憶模組可以把一部分「已經學會的流程」沉澱下來，讓後續任務更快、更穩定。&lt;/p&gt;
&lt;p&gt;不過，記憶也會帶來新的治理問題。使用者偏好、歷史任務、應用路徑和操作軌跡都可能包含敏感資訊。真正落地時，專案需要明確哪些內容進入記憶、保存多久、如何刪除，以及是否允許模型在不同任務之間複用這些上下文。&lt;/p&gt;
&lt;h2 id=&#34;適合誰關注&#34;&gt;適合誰關注
&lt;/h2&gt;&lt;p&gt;如果你只是想找一個現成的手機自動化 App，MobiAgent 目前仍更偏研究和工程框架。它需要配置模型服務、行動裝置、ADB、依賴環境和任務檔案，完整跑起來有一定門檻。&lt;/p&gt;
&lt;p&gt;但如果你關注行動 GUI agent、端側智能體、多模型 runner、任務軌跡複用或智能體評測，MobiAgent 很值得跟蹤。它把模型、執行、評測和資料流水線放在一起，能幫助研究者和開發者更完整地觀察行動智能體的真實短板。&lt;/p&gt;
&lt;h2 id=&#34;我的判斷&#34;&gt;我的判斷
&lt;/h2&gt;&lt;p&gt;MobiAgent 的意義不在於又發布了一個 GUI agent，而在於它把手機智能體從「看截圖點按鈕」的單點能力，推進到一個可訓練、可執行、可評測、可加速的系統框架。&lt;/p&gt;
&lt;p&gt;行動端是智能體很難繞開的場景。大量個人任務發生在 App 裡，而不是標準化網頁或 API 中。誰能穩定理解手機介面、跨應用執行任務、複用經驗並控制隱私風險，誰就更接近真正可用的個人智能體。&lt;/p&gt;
&lt;p&gt;MobiAgent 還沒有把這些問題全部解決，但它提供了一個比較完整的開源起點。短期看，它適合用於行動智能體研究和實驗；長期看，這類框架可能會成為手機作業系統、個人助理和自動化工具之間的重要連接層。&lt;/p&gt;
&lt;p&gt;專案連結：&lt;a class=&#34;link&#34; href=&#34;https://github.com/IPADS-SAI/MobiAgent&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;IPADS-SAI/MobiAgent&lt;/a&gt;&lt;br&gt;
論文連結：&lt;a class=&#34;link&#34; href=&#34;https://arxiv.org/abs/2509.00531&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MobiAgent: A Systematic Framework for Customizable Mobile Agents&lt;/a&gt;&lt;/p&gt;
</description>
        </item>
        
    </channel>
</rss>
