¿Quieres que la IA toque el móvil automáticamente? Mobilerun soporta Android e iOS

Un repaso de Mobilerun, el proyecto open source de droidrun: un marco de agentes móviles independiente del LLM para Android e iOS, con CLI, Python API, ejecución local y flujos con dispositivos en la nube.

Mobilerun es el marco open source de droidrun para automatización de dispositivos móviles. Su objetivo es permitir que LLM agents controlen dispositivos Android e iOS mediante lenguaje natural. Ofrece herramientas nativas móviles para que el agente inspeccione el estado de la UI, entienda capturas, toque, deslice, escriba, planifique tareas de varios pasos y devuelva resultados mediante CLI o Python API.

El posicionamiento del proyecto es claro: no se ata a un proveedor de modelos, sino que funciona como capa de ejecución entre dispositivos móviles y agentes. El README lista fuentes de modelos como OpenAI, Anthropic, Gemini, Ollama, DeepSeek, OpenRouter y OpenAI-compatible providers. Para desarrolladores, esto es más práctico que un demo que solo soporta un modelo.

Qué Problema Resuelve

Lo más difícil de la automatización móvil es que entre una tarea en lenguaje natural y una operación real en el dispositivo hay muchas capas. El modelo necesita saber qué app está abierta, qué controles hay en la página, si necesita capturas para contexto visual, dónde tocar después y cómo continuar tras un fallo.

Mobilerun organiza estas capacidades en un marco:

  • Ejecutar tareas puntuales en lenguaje natural, inspeccionar dispositivos, reproducir macros y depurar flujos mediante CLI y TUI.
  • Construir flujos personalizados de automatización móvil con Python API.
  • Soportar Android e iOS. Android usa Portal app y accesibilidad; iOS sigue un flujo Portal separado.
  • Combinar accessibility tree y capturas para que el modelo lea UI estructurada y contexto visual.
  • Soportar modos como --vision, --vision-only y --reasoning para tareas de distinta complejidad.
  • Soportar salida estructurada, app cards, herramientas personalizadas, credenciales y trazas de ejecución.

Esto hace que Mobilerun se parezca más a un “mobile agent runtime” que a un simple simulador de tocar pantallas enviando capturas a un modelo.

Marco Local y Servicio en la Nube

Mobilerun separa con claridad el marco local y Mobilerun Cloud. El marco local sirve para desarrolladores que ejecutan agentes en sus propias máquinas y dispositivos con mayor control a nivel de código. Cloud apunta a dispositivos hospedados, REST API, SDKs y flujos a escala.

Esta separación importa. Muchos escenarios empiezan como “ayúdame a ejecutar una tarea en el teléfono”, pero al entrar en uso de equipo aparecen gestión de dispositivos, concurrencia, logs, reintentos, permisos y llamadas API. Cloud no reemplaza el marco local; empuja la operación de dispositivos y la integración de flujos hacia servicios backend.

El README también distingue varios tipos de dispositivos en la nube: hardware del propio usuario, cloud phones hospedados y teléfonos físicos hospedados. La diferencia no es solo coste; afecta control de riesgo de apps, confianza de identidad y estabilidad de tareas. En ecommerce, redes sociales, finanzas o servicios locales, un dispositivo real y uno virtual pueden comportarse de forma muy distinta.

Por Qué Importa Ser Independiente del LLM

Los mobile GUI agents todavía cambian rápido, y es difícil decir qué modelo será mejor a largo plazo. Las tareas también exigen cosas distintas: algunas dependen más de visión, otras de planificación larga, otras del uso de herramientas y otras de ejecución masiva de bajo coste.

Mobilerun elige una ruta independiente del modelo. Su valor está en separar control de dispositivo, ejecución de tareas, trazado de logs y elección del modelo. Los desarrolladores pueden estabilizar primero el flujo del dispositivo y luego cambiar modelos según coste, precisión y latencia.

Esto ayuda al despliegue real. Una empresa no va a reescribir la capa de control de dispositivos solo porque un demo de modelo se vea bien. Es más razonable conservar un marco de ejecución unificado y tratar el modelo como un componente reemplazable.

Escenarios Adecuados

Mobilerun encaja actualmente con varias necesidades:

  • QA y pruebas de regresión de apps móviles.
  • Extraer datos de apps nativas y devolver resultados estructurados.
  • Ejecutar automáticamente tareas repetitivas en teléfonos.
  • Empaquetar flujos móviles en lenguaje natural para usuarios no técnicos.
  • Ejecutar automatizaciones en múltiples dispositivos.
  • Conectar agendas, notificaciones o disparadores personalizados a flujos móviles.

No es todavía un asistente de consumo que controle el móvil inmediatamente tras instalarlo. En Android hacen falta ADB, opciones de desarrollador, depuración USB y Portal app; iOS tiene su propio flujo de integración. Para funcionar de forma estable también hay que gestionar configuración del modelo, estado del dispositivo, ventanas de permisos y recuperación ante fallos.

Mi Lectura

El valor de Mobilerun es convertir el control de dispositivos móviles en un marco de agentes programable, observable y con modelos reemplazables. Reconoce que la automatización móvil no es solo un problema de modelo, sino un problema de sistema formado por modelos, dispositivos, ejecutores, logs, herramientas e infraestructura cloud.

A corto plazo, sirve para que desarrolladores construyan prototipos de automatización móvil y herramientas internas. A largo plazo, marcos como este podrían convertirse en “motores de flujos de IA en teléfonos”. Si los GUI agents van a entrar en negocios reales, proyectos que combinen ejecución local, dispositivos en la nube, salida estructurada y trazabilidad serán cada vez más importantes.

Enlace del proyecto: droidrun/mobilerun

记录并分享
Creado con Hugo
Tema Stack diseñado por Jimmy