最近、モバイル向け GUI エージェントのプロジェクトを4つ続けて整理した。MobiAgent、Mobile-Agent、Mobilerun、そして mobile-use だ。どれも「AI にスマホやモバイル App を操作させる」ことに関係しているが、立ち位置はかなり違う。
簡単に言うと、MobiAgent はカスタマイズ可能なスマホエージェント研究システムに近い。Mobile-Agent は Tongyi Lab が GUI agent を軸に展開している一連の研究成果だ。Mobilerun は実運用しやすいローカル/クラウドのモバイルデバイス制御フレームワークに寄っている。mobile-use は実アプリ操作、タスク分解、データ抽出、AndroidWorld 評価を重視している。
基本情報の比較
| プロジェクト | サイト内記事 | GitHub | 主な位置づけ | デバイス/プラットフォーム | ライセンス | 向いている人 |
|---|---|---|---|---|---|---|
| MobiAgent | サイト内紹介 | IPADS-SAI/MobiAgent | モデル、runner、メモリ、加速、評価を含むカスタマイズ可能なスマホ GUI エージェントシステム | 主に Android/Harmony スマホ | Apache-2.0 | 研究者、モバイルエージェント実験チーム |
| Mobile-Agent | サイト内紹介 | X-PLUG/MobileAgent | Tongyi Lab の GUI エージェントファミリー。モバイル、デスクトップ、ブラウザ、ツール利用をカバー | スマホ、PC、Web、クラウドスマホ/クラウドデスクトップ | MIT | GUI agent の技術路線を追いたい人 |
| Mobilerun | サイト内紹介 | droidrun/mobilerun | CLI、Python API、クラウドデバイスワークフローを備えた LLM 非依存のモバイルデバイス agent フレームワーク | Android、iOS、ローカルデバイス、クラウドデバイス | MIT | 開発者、QA、自動化ワークフローチーム |
| mobile-use | サイト内紹介 | minitap-ai/mobile-use | 自然言語で実際のモバイル App を操作し、タスク分解、構造化抽出、AndroidWorld を重視 | Android 実機/エミュレーター、iOS シミュレーター | Apache-2.0 | モバイル App agent、データ抽出、評価を扱う人 |
MobiAgent
MobiAgent は IPADS-SAI のプロジェクトで、カスタマイズ可能なスマホエージェントシステムとして位置づけられている。単なる実行スクリプトではなく、MobiMind モデルファミリー、AgentRR のアクション記録と再生、MobiFlow 評価ベンチマーク、スマホ runner、データ収集、Android app をひとつの体系にまとめている。
特徴は、研究システムとして比較的完整であることだ。MobiAgent は実際のスマホタスクにおける精度、効率、記憶、再利用可能なアクション列に注目している。README にあるユーザープロファイル記憶、経験記憶、アクション記憶、マルチタスク実行は、長期タスクや反復タスクを扱おうとしていることを示している。
一方で、導入のハードルは高い。完整に動かすには、デバイス、ADB、モデルデプロイ、依存環境、任意のベクトルデータベースやグラフデータベース設定が必要になる。一般ユーザー向けの「インストールしてすぐ使える」スマホアシスタントというより、研究やエンジニアリング実験に向いている。
Mobile-Agent
Mobile-Agent は X-PLUG/Tongyi Lab のプロジェクトだ。このリポジトリは初期のスマホ操作エージェントから、GUI エージェントファミリーへと広がっている。Mobile-Agent-v1/v2/v3/v3.5、Mobile-Agent-E、PC-Agent、GUI-Critic-R1、UI-S1、GUI-Owl、ToolCUA などが同じ技術ライン上にある。
特徴は守備範囲の広さだ。Mobile-Agent はスマホだけでなく、デスクトップ、ブラウザ、クラウドスマホ、クラウドデスクトップ、GUI 認識、grounding、エラー診断、強化学習、GUI/ツール経路のオーケストレーションも扱う。GUI-Owl 系列のモデルによって、単一のモバイル自動化プロジェクトというより、クロスプラットフォーム GUI agent の基盤モデル路線に見える。
弱点もこの広さから来る。リポジトリは研究成果の集合に近く、利用者はまず、どのサブプロジェクト、どのモデル、どのシナリオを走らせるのかを判断する必要がある。技術の進化を追い、実験を再現するには向いているが、業務フローへ最速で組み込む選択肢とは限らない。
Mobilerun
Mobilerun は droidrun のプロジェクトで、よりエンジニアリング寄りだ。LLM agent が自然言語を通じて Android と iOS デバイスを制御できるようにする。CLI、TUI、Docker、Python API、Portal-based control、vision mode、reasoning mode、構造化出力、カスタムツール、app cards、実行トレース、クラウドデバイスサービスを提供している。
もっとも目立つ点は、モデル非依存でデプロイ形態が明確なことだ。開発者は OpenAI、Anthropic、Gemini、Ollama、DeepSeek、OpenRouter、OpenAI-compatible providers を接続できる。ローカルフレームワークや Mobilerun Cloud も選べる。実際のチームにとって、この「デバイス制御層とモデル層の分離」はかなり重要だ。
もちろん、モバイル自動化でよくあるハードルは残る。Android では開発者オプション、USB デバッグ、Portal app が必要になる。iOS は別のフローが必要だ。複雑なタスクでは権限ポップアップ、画面変化、失敗時のリトライ、ログ調査も扱う必要がある。mobile agent をエンジニアリング部品として取り込む人に向いている。
mobile-use
mobile-use は minitap-ai のプロジェクトで、AI agent に実際の Android と iOS App を使わせることを目標にしている。自然言語制御、UI-aware automation、データ抽出、複数の LLM 設定をサポートし、AndroidWorld ベンチマークでの性能を強調している。README では、AndroidWorld benchmark で 100% を達成した最初の agentic framework だとも説明されている。
強みはタスク分解と構造化抽出だ。たとえば Gmail で未読メールを探し、指定された JSON 形式で送信者と件名を返すようなタスクは、「設定を開いて電池残量を見る」よりも実際の生産ニーズに近い。mobile-use はモバイル GUI agent を「操作できる」段階から「App 内の情報を整理して取り出せる」段階へ進めている。
制約は主にデバイス対応と実行環境にある。Android は実機またはエミュレーターを使える。iOS は現時点では主に macOS 上のシミュレーター対応で、物理 iOS デバイスはまだ対応していない。Docker のクイックスタートも主に Android 向けだ。評価する際は、対象デバイスと App シナリオが現在の実行経路でカバーできるかを先に確認したい。
機能比較
| 機能軸 | MobiAgent | Mobile-Agent | Mobilerun | mobile-use |
|---|---|---|---|---|
| 自然言語タスク | 対応 | 対応 | 対応 | 対応 |
| 実スマホ操作 | 強い。Android/Harmony 寄り | 強い。モバイルとクラウドスマホを含む | 強い。Android/iOS | 強い。Android、iOS はシミュレーター寄り |
| デスクトップ/ブラウザ拡張 | 主眼ではない | 強い。PC-Agent、GUI-Owl、ToolCUA を含む | 主な位置づけではない | 主な位置づけではない |
| モデル層 | MobiMind 系列を内包 | GUI-Owl、Mobile-Agent 系列 | LLM 非依存。複数モデルに接続 | 複数 LLM を設定可能 |
| 実行器/runner | 強い。ADB runner、マルチタスク runner を含む | サブプロジェクトごとに提供 | 強い。CLI/TUI/Python API/Docker | ソースコード、Docker、プラットフォーム入口あり |
| 記憶能力 | ユーザープロファイル、経験、アクション記憶 | v3/v3.5 で記憶と反省を強調 | トレース、ログ、エンジニアリングデバッグ寄り | タスク分解と状態つき実行寄り |
| 評価 | MobiFlow | 複数の論文/ベンチマーク方向 | benchmark 結果入口あり | AndroidWorld で目立つ |
| クラウドデバイス | 主な売りではない | クラウドスマホ/クラウドデスクトップ体験に対応 | Mobilerun Cloud が重点 | プラットフォーム入口あり |
| 構造化出力 | エンジニアリングフローで実現可能 | サブプロジェクト次第 | 明確に対応 | 明確に対応 |
長所と短所
MobiAgent の長所はシステムが完整なことだ。スマホ GUI agent のモデル、記憶、加速、評価の閉ループを研究するのに向いている。短所はデプロイの経路が長く、エンジニアリング設定が重く、一般的な開発者には導入コストが高いことだ。
Mobile-Agent の長所は技術路線がもっとも広いことだ。GUI agent がスマホからデスクトップ、ブラウザ、ツール利用、基盤モデルへ進化していく様子を見られる。短所はプロジェクト群が複雑で、特定シナリオをすぐに実装したい場合は、先にかなり選別する必要があることだ。
Mobilerun の長所はエンジニアリングインターフェースが明確で、モデル非依存で、ローカルフレームワークとクラウドサービスの分離がはっきりしていることだ。モバイルデバイス自動化を製品や内部ツールに接続する用途に向いている。短所は、モバイルデバイスの権限、環境、App 状態、クラウドコストの問題に引き続き向き合う必要があることだ。
mobile-use の長所は、実アプリ利用、タスク分解、構造化データ抽出に集中していることだ。AndroidWorld という方向性も評価しやすい。短所は物理 iOS デバイスの対応が限られ、完整に使うにはモデル、デバイス、実行環境の設定が必要なことだ。
適用範囲の提案
モバイルエージェント研究をしたいなら、まず MobiAgent と Mobile-Agent を見るとよい。前者はスマホ側システムの閉ループにより集中し、後者は GUI agent のクロスプラットフォームな進化を観察するのに向いている。
モバイル App 自動化、QA、データ抽出、内部ワークフローを作りたいなら、まず Mobilerun と mobile-use を見るとよい。Mobilerun はエンジニアリングシステムに接続できる実行フレームワークに近く、mobile-use は自然言語による App 操作と構造化抽出の検証に向いている。
将来の個人アシスタント形態に関心があるなら、4つとも追う価値がある。MobiAgent はスマホ agent の体系的研究、Mobile-Agent はクロスプラットフォーム GUI agent 路線、Mobilerun はデバイス制御インフラ、mobile-use は実アプリのタスク分解と評価駆動の路線を代表している。
私の見方
この4つのプロジェクトの違いは、モバイル GUI agent がもはや「モデルにスクリーンショットを見せてボタンをタップさせる」だけではないことを示している。本当の課題は、モデルがどう画面を理解するか、実行器がどう安定してデバイスを制御するか、タスクをどう分解し評価するか、クラウドデバイスをどう管理するか、結果をどう構造化して返すか、リスクをどう制限するかになっている。
短期的にもっとも現実的な導入シーンは、QA、データ抽出、内部フロー自動化、制御されたデバイスプールだ。長期的には、デバイス制御、モデル能力、権限境界、ログ追跡、ユーザー確認メカニズムを安定させられるプロジェクトほど、本当に使えるモバイル AI アシスタントに近づく。