AIでスマホを自動操作するならどれが強い?MobiAgent、Mobile-Agent、Mobilerun、mobile-useを比較

MobiAgent、Mobile-Agent、Mobilerun、mobile-useという4つのモバイルGUIエージェントプロジェクトを、基本情報、機能の重点、長所と短所、適用範囲から比較する。

最近、モバイル向け GUI エージェントのプロジェクトを4つ続けて整理した。MobiAgentMobile-AgentMobilerun、そして mobile-use だ。どれも「AI にスマホやモバイル App を操作させる」ことに関係しているが、立ち位置はかなり違う。

簡単に言うと、MobiAgent はカスタマイズ可能なスマホエージェント研究システムに近い。Mobile-Agent は Tongyi Lab が GUI agent を軸に展開している一連の研究成果だ。Mobilerun は実運用しやすいローカル/クラウドのモバイルデバイス制御フレームワークに寄っている。mobile-use は実アプリ操作、タスク分解、データ抽出、AndroidWorld 評価を重視している。

基本情報の比較

プロジェクト サイト内記事 GitHub 主な位置づけ デバイス/プラットフォーム ライセンス 向いている人
MobiAgent サイト内紹介 IPADS-SAI/MobiAgent モデル、runner、メモリ、加速、評価を含むカスタマイズ可能なスマホ GUI エージェントシステム 主に Android/Harmony スマホ Apache-2.0 研究者、モバイルエージェント実験チーム
Mobile-Agent サイト内紹介 X-PLUG/MobileAgent Tongyi Lab の GUI エージェントファミリー。モバイル、デスクトップ、ブラウザ、ツール利用をカバー スマホ、PC、Web、クラウドスマホ/クラウドデスクトップ MIT GUI agent の技術路線を追いたい人
Mobilerun サイト内紹介 droidrun/mobilerun CLI、Python API、クラウドデバイスワークフローを備えた LLM 非依存のモバイルデバイス agent フレームワーク Android、iOS、ローカルデバイス、クラウドデバイス MIT 開発者、QA、自動化ワークフローチーム
mobile-use サイト内紹介 minitap-ai/mobile-use 自然言語で実際のモバイル App を操作し、タスク分解、構造化抽出、AndroidWorld を重視 Android 実機/エミュレーター、iOS シミュレーター Apache-2.0 モバイル App agent、データ抽出、評価を扱う人

MobiAgent

MobiAgent は IPADS-SAI のプロジェクトで、カスタマイズ可能なスマホエージェントシステムとして位置づけられている。単なる実行スクリプトではなく、MobiMind モデルファミリー、AgentRR のアクション記録と再生、MobiFlow 評価ベンチマーク、スマホ runner、データ収集、Android app をひとつの体系にまとめている。

特徴は、研究システムとして比較的完整であることだ。MobiAgent は実際のスマホタスクにおける精度、効率、記憶、再利用可能なアクション列に注目している。README にあるユーザープロファイル記憶、経験記憶、アクション記憶、マルチタスク実行は、長期タスクや反復タスクを扱おうとしていることを示している。

一方で、導入のハードルは高い。完整に動かすには、デバイス、ADB、モデルデプロイ、依存環境、任意のベクトルデータベースやグラフデータベース設定が必要になる。一般ユーザー向けの「インストールしてすぐ使える」スマホアシスタントというより、研究やエンジニアリング実験に向いている。

Mobile-Agent

Mobile-Agent は X-PLUG/Tongyi Lab のプロジェクトだ。このリポジトリは初期のスマホ操作エージェントから、GUI エージェントファミリーへと広がっている。Mobile-Agent-v1/v2/v3/v3.5、Mobile-Agent-E、PC-Agent、GUI-Critic-R1、UI-S1、GUI-Owl、ToolCUA などが同じ技術ライン上にある。

特徴は守備範囲の広さだ。Mobile-Agent はスマホだけでなく、デスクトップ、ブラウザ、クラウドスマホ、クラウドデスクトップ、GUI 認識、grounding、エラー診断、強化学習、GUI/ツール経路のオーケストレーションも扱う。GUI-Owl 系列のモデルによって、単一のモバイル自動化プロジェクトというより、クロスプラットフォーム GUI agent の基盤モデル路線に見える。

弱点もこの広さから来る。リポジトリは研究成果の集合に近く、利用者はまず、どのサブプロジェクト、どのモデル、どのシナリオを走らせるのかを判断する必要がある。技術の進化を追い、実験を再現するには向いているが、業務フローへ最速で組み込む選択肢とは限らない。

Mobilerun

Mobilerun は droidrun のプロジェクトで、よりエンジニアリング寄りだ。LLM agent が自然言語を通じて Android と iOS デバイスを制御できるようにする。CLI、TUI、Docker、Python API、Portal-based control、vision mode、reasoning mode、構造化出力、カスタムツール、app cards、実行トレース、クラウドデバイスサービスを提供している。

もっとも目立つ点は、モデル非依存でデプロイ形態が明確なことだ。開発者は OpenAI、Anthropic、Gemini、Ollama、DeepSeek、OpenRouter、OpenAI-compatible providers を接続できる。ローカルフレームワークや Mobilerun Cloud も選べる。実際のチームにとって、この「デバイス制御層とモデル層の分離」はかなり重要だ。

もちろん、モバイル自動化でよくあるハードルは残る。Android では開発者オプション、USB デバッグ、Portal app が必要になる。iOS は別のフローが必要だ。複雑なタスクでは権限ポップアップ、画面変化、失敗時のリトライ、ログ調査も扱う必要がある。mobile agent をエンジニアリング部品として取り込む人に向いている。

mobile-use

mobile-use は minitap-ai のプロジェクトで、AI agent に実際の Android と iOS App を使わせることを目標にしている。自然言語制御、UI-aware automation、データ抽出、複数の LLM 設定をサポートし、AndroidWorld ベンチマークでの性能を強調している。README では、AndroidWorld benchmark で 100% を達成した最初の agentic framework だとも説明されている。

強みはタスク分解と構造化抽出だ。たとえば Gmail で未読メールを探し、指定された JSON 形式で送信者と件名を返すようなタスクは、「設定を開いて電池残量を見る」よりも実際の生産ニーズに近い。mobile-use はモバイル GUI agent を「操作できる」段階から「App 内の情報を整理して取り出せる」段階へ進めている。

制約は主にデバイス対応と実行環境にある。Android は実機またはエミュレーターを使える。iOS は現時点では主に macOS 上のシミュレーター対応で、物理 iOS デバイスはまだ対応していない。Docker のクイックスタートも主に Android 向けだ。評価する際は、対象デバイスと App シナリオが現在の実行経路でカバーできるかを先に確認したい。

機能比較

機能軸 MobiAgent Mobile-Agent Mobilerun mobile-use
自然言語タスク 対応 対応 対応 対応
実スマホ操作 強い。Android/Harmony 寄り 強い。モバイルとクラウドスマホを含む 強い。Android/iOS 強い。Android、iOS はシミュレーター寄り
デスクトップ/ブラウザ拡張 主眼ではない 強い。PC-Agent、GUI-Owl、ToolCUA を含む 主な位置づけではない 主な位置づけではない
モデル層 MobiMind 系列を内包 GUI-Owl、Mobile-Agent 系列 LLM 非依存。複数モデルに接続 複数 LLM を設定可能
実行器/runner 強い。ADB runner、マルチタスク runner を含む サブプロジェクトごとに提供 強い。CLI/TUI/Python API/Docker ソースコード、Docker、プラットフォーム入口あり
記憶能力 ユーザープロファイル、経験、アクション記憶 v3/v3.5 で記憶と反省を強調 トレース、ログ、エンジニアリングデバッグ寄り タスク分解と状態つき実行寄り
評価 MobiFlow 複数の論文/ベンチマーク方向 benchmark 結果入口あり AndroidWorld で目立つ
クラウドデバイス 主な売りではない クラウドスマホ/クラウドデスクトップ体験に対応 Mobilerun Cloud が重点 プラットフォーム入口あり
構造化出力 エンジニアリングフローで実現可能 サブプロジェクト次第 明確に対応 明確に対応

長所と短所

MobiAgent の長所はシステムが完整なことだ。スマホ GUI agent のモデル、記憶、加速、評価の閉ループを研究するのに向いている。短所はデプロイの経路が長く、エンジニアリング設定が重く、一般的な開発者には導入コストが高いことだ。

Mobile-Agent の長所は技術路線がもっとも広いことだ。GUI agent がスマホからデスクトップ、ブラウザ、ツール利用、基盤モデルへ進化していく様子を見られる。短所はプロジェクト群が複雑で、特定シナリオをすぐに実装したい場合は、先にかなり選別する必要があることだ。

Mobilerun の長所はエンジニアリングインターフェースが明確で、モデル非依存で、ローカルフレームワークとクラウドサービスの分離がはっきりしていることだ。モバイルデバイス自動化を製品や内部ツールに接続する用途に向いている。短所は、モバイルデバイスの権限、環境、App 状態、クラウドコストの問題に引き続き向き合う必要があることだ。

mobile-use の長所は、実アプリ利用、タスク分解、構造化データ抽出に集中していることだ。AndroidWorld という方向性も評価しやすい。短所は物理 iOS デバイスの対応が限られ、完整に使うにはモデル、デバイス、実行環境の設定が必要なことだ。

適用範囲の提案

モバイルエージェント研究をしたいなら、まず MobiAgent と Mobile-Agent を見るとよい。前者はスマホ側システムの閉ループにより集中し、後者は GUI agent のクロスプラットフォームな進化を観察するのに向いている。

モバイル App 自動化、QA、データ抽出、内部ワークフローを作りたいなら、まず Mobilerun と mobile-use を見るとよい。Mobilerun はエンジニアリングシステムに接続できる実行フレームワークに近く、mobile-use は自然言語による App 操作と構造化抽出の検証に向いている。

将来の個人アシスタント形態に関心があるなら、4つとも追う価値がある。MobiAgent はスマホ agent の体系的研究、Mobile-Agent はクロスプラットフォーム GUI agent 路線、Mobilerun はデバイス制御インフラ、mobile-use は実アプリのタスク分解と評価駆動の路線を代表している。

私の見方

この4つのプロジェクトの違いは、モバイル GUI agent がもはや「モデルにスクリーンショットを見せてボタンをタップさせる」だけではないことを示している。本当の課題は、モデルがどう画面を理解するか、実行器がどう安定してデバイスを制御するか、タスクをどう分解し評価するか、クラウドデバイスをどう管理するか、結果をどう構造化して返すか、リスクをどう制限するかになっている。

短期的にもっとも現実的な導入シーンは、QA、データ抽出、内部フロー自動化、制御されたデバイスプールだ。長期的には、デバイス制御、モデル能力、権限境界、ログ追跡、ユーザー確認メカニズムを安定させられるプロジェクトほど、本当に使えるモバイル AI アシスタントに近づく。

记录并分享
Hugo で構築されています。
テーマ StackJimmy によって設計されています。