MobiAgentとは?スマホ App を操作できるオープンソース AI エージェント

IPADS-SAI が公開した MobiAgent を整理する。MobiMind モデル、AgentRR 加速フレームワーク、MobiFlow 評価ベンチマークを組み合わせ、実際のスマホアプリで GUI エージェントタスクを実行する。

IPADS-SAI は MobiAgent をオープンソース化した。これはスマホ GUI 向けのカスタマイズ可能なエージェントフレームワークだ。単一のモデルリポジトリではなく、モデル、実行器、加速機構、評価ベンチマーク、モバイルアプリを同じ体系に置き、実際のスマホ環境でクロスアプリの多段階タスクを完了させることを目指している。

プロジェクト構造を見ると、MobiAgent は主に MobiMind 系列のエージェントモデル、AgentRR の記録・再生加速フレームワーク、MobiFlow 評価ベンチマークから構成される。論文概要でも、既存のモバイルエージェントでは実タスクでの精度と効率が主なボトルネックだと強調されており、MobiAgent の設計はこの2点を中心にしている。

何を解決するのか

スマホ GUI エージェントは、Web やデスクトップの自動化より面倒だ。スクリーンショットを理解し、UI 部品を識別し、次の操作を決め、ADB やモバイル実行環境を通じてタップ、入力、戻る、アプリ切り替えを行う必要がある。実際のタスクは単一 App 内の一回の操作ではなく、検索、買い物、SNS、支払い、地図など複数アプリをまたぐ連続した流れになりやすい。

MobiAgent はこれらを体系化する。

  • MobiMind がタスク計画、意思決定、画面上の位置特定を担う。
  • runner がスマホに接続し、ADB で定義済みタスクを実行して軌跡を記録する。
  • AgentRR が成功したアクション列を再利用し、反復タスクの推論と操作コストを下げる。
  • MobiFlow が実際のモバイル場面でのタスク完了を評価する。
  • データ収集、アノテーション、処理ツールがモバイル GUI タスクデータの構築コストを下げる。

そのため、単なるデモ用モデルではなく、モバイルエージェントの実験基盤に近い。

最近の更新

README によると、MobiAgent は 2025 年 8 月に公開され、その後モデル、Runner、メモリシステム、端末側実行能力を継続的に補っている。2025 年 12 月からはスマホ上の純粋な端末側推論をサポートし、MobiAgent、UI-TARS、AutoGLM、Qwen-VL、Gemini などを設定できる統一 GUI agent runner も公開した。

2026 年 3 月には GUI-based mobile “claw” MobiClaw と新しい MobiMind-1.5-4B モデルも公開された。論文再現だけでなく、モバイル実行、モデル能力、操作ツールチェーンをよりプロダクトに近い方向へ進めていることがわかる。

メモリシステムが重要

MobiAgent はユーザープロファイル記憶、経験記憶、アクション記憶をサポートする。ユーザープロファイル記憶は計画に好みの文脈を与え、経験記憶は類似タスクの実行経験を検索し、アクション記憶は AgentRR によって成功したアクション列をキャッシュして再利用する。

これは重要だ。スマホタスクには反復性がある。ユーザーは同じ App で商品を検索したり、決まった連絡先を開いたり、特定ページに情報を入力したりする。毎回ゼロから画面を見て、計画し、タップするのは高コストで失敗もしやすい。メモリは「すでに学んだ流れ」を蓄積し、後続タスクを速く安定させる。

ただし、メモリは新しいガバナンス問題も生む。ユーザーの好み、過去タスク、アプリ内の経路、操作軌跡には機密情報が含まれる可能性がある。実運用では、何を記憶に入れるか、どれだけ保存するか、どう削除するか、タスク間で再利用してよいかを明確にする必要がある。

誰が注目すべきか

既製のスマホ自動化 App を探しているだけなら、MobiAgent は現時点では研究・エンジニアリング寄りのフレームワークだ。モデルサービス、モバイルデバイス、ADB、依存環境、タスクファイルの設定が必要で、完整に動かすには一定のハードルがある。

一方で、モバイル GUI agent、端末側エージェント、複数モデル runner、タスク軌跡の再利用、エージェント評価に関心があるなら、MobiAgent は追う価値がある。モデル、実行、評価、データパイプラインをまとめているため、研究者や開発者がモバイルエージェントの実際の弱点を観察しやすい。

私の見方

MobiAgent の意味は、単にもうひとつ GUI agent を出したことではない。スマホエージェントを「スクリーンショットを見てボタンを押す」単発能力から、訓練、実行、評価、加速ができるシステムフレームワークへ進めたことにある。

モバイルはエージェントが避けにくい領域だ。多くの個人タスクは標準化された Web や API ではなく App 内で起きる。スマホ画面を安定して理解し、アプリをまたいでタスクを実行し、経験を再利用し、プライバシーリスクを制御できるものが、本当に使える個人エージェントに近づく。

MobiAgent はまだすべてを解決していないが、かなり完整なオープンソースの出発点を提供している。短期的にはモバイルエージェント研究と実験に向いており、長期的にはスマホ OS、個人アシスタント、自動化ツールをつなぐ重要な層になる可能性がある。

プロジェクトリンク:IPADS-SAI/MobiAgent
論文リンク:MobiAgent: A Systematic Framework for Customizable Mobile Agents

记录并分享
Hugo で構築されています。
テーマ StackJimmy によって設計されています。