AIにスマホを自動タップさせたい?MobilerunはAndroidとiOSに対応

droidrun が公開した Mobilerun を整理する。Android と iOS デバイス向けの LLM 非依存なモバイルエージェントフレームワークで、CLI、Python API、ローカル実行、クラウドデバイスワークフローをサポートする。

Mobilerun は droidrun が公開したモバイルデバイス自動化フレームワークだ。LLM agent が自然言語で Android と iOS デバイスを制御できるようにすることを目標にしている。モバイル向けネイティブツールを提供し、エージェントが UI 状態を確認し、スクリーンショットを理解し、タップ、スワイプ、入力、複数ステップの計画を行い、CLI または Python API で結果を返せる。

このプロジェクトの位置づけは明確だ。特定のモデルに縛られず、モバイルデバイスとエージェントの間の実行層を担う。README に挙げられているモデルソースには OpenAI、Anthropic、Gemini、Ollama、DeepSeek、OpenRouter、OpenAI-compatible providers が含まれる。開発者にとって、これは「ひとつのモデルだけをサポートするデモ」より実用的だ。

何を解決するのか

モバイル自動化で最も厄介なのは、自然言語タスクと実デバイス操作の間に多くの層があることだ。モデルは現在どの App が開いているか、ページにどの部品があるか、視覚情報としてスクリーンショットが必要か、次にどこを押すか、失敗後にどう続けるかを知る必要がある。

Mobilerun はこれらをフレームワークとして整理している。

  • CLI と TUI で単発の自然言語タスク、デバイス確認、マクロ再生、デバッグフローを実行する。
  • Python API でカスタムのモバイル自動化ワークフローを構築する。
  • Android と iOS をサポートする。Android は Portal app とアクセシビリティ機能を使い、iOS は別の Portal フローを使う。
  • accessibility tree とスクリーンショットを同時に使い、構造化 UI と視覚画面の両方をモデルに渡す。
  • --vision--vision-only--reasoning などのモードで複雑度の違うタスクに対応する。
  • 構造化出力、app cards、カスタムツール、認証情報、実行トレースをサポートする。

そのため Mobilerun は、単にスクリーンショットを大規模モデルへ送りタップを模倣するものではなく、「モバイル agent runtime」に近い。

ローカルフレームワークとクラウドサービス

Mobilerun はローカルフレームワークと Mobilerun Cloud を比較的明確に分けている。ローカルフレームワークは、自分のマシンとデバイスで agent を動かし、コードレベルの制御を得たい開発者に向いている。Cloud はホスト済みデバイス、REST API、SDK、大規模ワークフロー向けだ。

この分離は重要だ。多くのモバイル自動化は最初「スマホでひとつタスクを走らせたい」から始まるが、チーム利用になると、デバイス管理、並行実行、ログ、失敗時リトライ、権限、API 呼び出しの問題が出てくる。Cloud はローカルフレームワークを置き換えるものではなく、デバイス運用とワークフロー接続をバックエンドサービスへ進めるものだ。

README ではクラウドデバイスも、ユーザー所有ハードウェア、ホスト済みクラウドスマホ、ホスト済み実機スマホに分けている。違いはコストだけではない。アプリのリスク制御、ID の信頼性、タスク安定性にも関わる。EC、SNS、金融、ローカルサービス系 App では、実機と仮想デバイスの挙動がまったく違うことがある。

なぜ LLM 非依存が重要か

モバイル GUI agent はまだ急速に変化しており、どのモデルが長期的に最良かは言いにくい。タスクによってモデルへの要求も違う。視覚理解が重要なもの、長い計画が重要なもの、ツール利用が重要なもの、低コストの大量実行が重要なものがある。

Mobilerun がモデル非依存の路線を選ぶ価値は、デバイス制御、タスク実行、ログ追跡、モデル選択を分離できることにある。開発者はまずデバイス側フローを安定させ、その後でコスト、精度、遅延に応じてモデルを切り替えられる。

これは実運用に役立つ。企業は、あるモデルのデモが良いからといってデバイス制御層を作り直したくはない。統一した実行フレームワークを保ち、モデルを交換可能な部品として扱う方が合理的だ。

向いている場面

Mobilerun は現時点で次の用途に向いている。

  • モバイル App の QA と回帰テスト。
  • ネイティブ App からデータを抽出し、構造化結果を返す。
  • 反復的なスマホタスクを自動実行する。
  • 非技術ユーザー向けに自然言語のモバイル操作フローを包装する。
  • 複数デバイス上で自動化タスクを実行する。
  • スケジュール、通知、カスタムトリガーをモバイルワークフローに接続する。

ただし、「インストールしたらすぐスマホを任せられる」消費者向け助手ではない。Android 側では ADB、開発者オプション、USB デバッグ、Portal app が必要だ。iOS 側にも独自の接続フローがある。安定して動かすには、モデル設定、デバイス状態、権限ポップアップ、失敗時の復旧も扱う必要がある。

私の見方

Mobilerun の価値は、モバイルデバイス制御をプログラム可能で、観測可能で、モデル交換可能な agent フレームワークにしたことだ。モバイル自動化は単なるモデル問題ではなく、モデル、デバイス、実行器、ログ、ツール、クラウド基盤から成るシステム問題だと認めている。

短期的には、開発者がモバイル自動化プロトタイプや内部ツールを作るのに向いている。長期的には、この種のフレームワークが「スマホ上の AI ワークフローエンジン」になる可能性がある。GUI agent が実業務に入るなら、ローカル実行、クラウドデバイス、構造化出力、追跡性をまとめる Mobilerun のようなプロジェクトはますます重要になる。

プロジェクトリンク:droidrun/mobilerun

记录并分享
Hugo で構築されています。
テーマ StackJimmy によって設計されています。