Recientemente organicé cuatro proyectos de agentes GUI para móviles: MobiAgent, Mobile-Agent, Mobilerun y mobile-use. Todos tienen que ver con “hacer que la IA opere teléfonos o apps móviles”, pero no ocupan el mismo lugar.
En resumen: MobiAgent se parece más a un sistema de investigación personalizable para agentes en teléfonos; Mobile-Agent es el conjunto de trabajos de Tongyi Lab alrededor de GUI agent; Mobilerun está más orientado a un marco práctico de control de dispositivos móviles, local o en la nube; y mobile-use pone el foco en operar apps reales, descomponer tareas, extraer datos y evaluar con AndroidWorld.
Comparativa Básica
| Proyecto | Artículo del sitio | GitHub | Posicionamiento principal | Dispositivo/plataforma | Licencia | Más adecuado para |
|---|---|---|---|---|---|---|
| MobiAgent | Introducción | IPADS-SAI/MobiAgent | Sistema personalizable de agentes GUI para teléfonos, con modelos, runner, memoria, aceleración y evaluación | Principalmente teléfonos Android/Harmony | Apache-2.0 | Investigadores y equipos de experimentación con agentes móviles |
| Mobile-Agent | Introducción | X-PLUG/MobileAgent | Familia de agentes GUI de Tongyi Lab, cubriendo móvil, escritorio, navegador y uso de herramientas | Teléfonos, PC, web, teléfonos/escritorios en la nube | MIT | Personas que siguen la ruta técnica de GUI agent |
| Mobilerun | Introducción | droidrun/mobilerun | Marco de agentes para dispositivos móviles, independiente del LLM, con CLI, Python API y flujos con dispositivos en la nube | Android, iOS, dispositivos locales, dispositivos en la nube | MIT | Desarrolladores, QA y equipos de flujos de automatización |
| mobile-use | Introducción | minitap-ai/mobile-use | Operar apps móviles reales con lenguaje natural, con énfasis en descomposición de tareas, extracción estructurada y AndroidWorld | Dispositivos/emuladores Android, simuladores iOS | Apache-2.0 | Personas que crean agentes para apps móviles, extracción de datos y evaluaciones |
MobiAgent
MobiAgent viene de IPADS-SAI y se posiciona como un sistema personalizable de agentes para teléfonos. No ofrece solo un script de ejecución: reúne la familia de modelos MobiMind, grabación y reproducción de acciones con AgentRR, el benchmark MobiFlow, runners para teléfonos, recolección de datos y una app Android dentro de un mismo sistema.
Su punto fuerte es que el sistema de investigación está bastante completo. MobiAgent se centra en precisión, eficiencia, memoria y secuencias de acciones reutilizables en tareas reales con teléfonos. La memoria de perfil de usuario, memoria de experiencia, memoria de acciones y ejecución multitarea mencionadas en el README muestran que intenta manejar tareas largas y repetitivas.
También tiene una barrera de entrada relativamente alta. Una ejecución completa requiere dispositivos, ADB, despliegue de modelos, dependencias y configuración opcional de bases de datos vectoriales y de grafos. Encaja mejor con investigación o experimentos de ingeniería que con un asistente móvil de “instalar y usar” para usuarios comunes.
Mobile-Agent
Mobile-Agent viene de X-PLUG/Tongyi Lab. Este repositorio pasó de ser un agente temprano para operar teléfonos a una familia de agentes GUI: Mobile-Agent-v1/v2/v3/v3.5, Mobile-Agent-E, PC-Agent, GUI-Critic-R1, UI-S1, GUI-Owl, ToolCUA y otros están dentro de la misma línea técnica.
Su rasgo principal es la amplitud. Mobile-Agent no se preocupa solo por teléfonos; también cubre escritorio, navegador, teléfonos en la nube, escritorios en la nube, percepción GUI, grounding, diagnóstico de errores, aprendizaje por refuerzo y orquestación de rutas GUI/herramientas. La serie de modelos GUI-Owl hace que parezca más una ruta de modelos base para GUI agent multiplataforma que un único proyecto de automatización móvil.
Su debilidad viene de esa misma amplitud: el repositorio se parece más a una colección de resultados de investigación, y el usuario tiene que decidir primero qué subproyecto, modelo y escenario quiere ejecutar. Es bueno para seguir la evolución técnica y reproducir experimentos, pero no siempre será la forma más rápida de conectarlo a un flujo de negocio.
Mobilerun
Mobilerun viene de droidrun y tiene una orientación más de ingeniería: permite que LLM agents controlen dispositivos Android e iOS mediante lenguaje natural. Ofrece CLI, TUI, Docker, Python API, portal-based control, vision mode, reasoning mode, salida estructurada, herramientas personalizadas, app cards, trazas de ejecución y servicios de dispositivos en la nube.
Lo más destacado es su independencia del modelo y una forma de despliegue clara. Los desarrolladores pueden conectar OpenAI, Anthropic, Gemini, Ollama, DeepSeek, OpenRouter u OpenAI-compatible providers; también pueden elegir un marco local o Mobilerun Cloud. Para equipos reales, esta separación entre la capa de control del dispositivo y la capa del modelo es muy importante.
También conserva las barreras habituales de la automatización móvil. En Android hacen falta opciones de desarrollador, depuración USB y la Portal app; iOS tiene un flujo separado; las tareas complejas además requieren manejar ventanas de permisos, cambios de página, reintentos tras fallos e investigación de logs. Es más adecuado para quienes quieren incorporar mobile agent como componente de ingeniería.
mobile-use
mobile-use viene de minitap-ai y busca que AI agents usen apps reales de Android e iOS. Soporta control por lenguaje natural, UI-aware automation, extracción de datos y distintas configuraciones de LLM, y destaca su rendimiento en el benchmark AndroidWorld. El README también menciona que el proyecto es el primer agentic framework que alcanza 100% en AndroidWorld benchmark.
Su punto brillante es la descomposición de tareas y la extracción estructurada. Por ejemplo, encontrar correos no leídos en Gmail y devolver remitente y asunto en un formato JSON especificado está mucho más cerca de necesidades reales de producción que “abrir Ajustes y mirar la batería”. Lleva a los mobile GUI agents desde “pueden operar” hacia “pueden organizar información dentro de una app”.
Sus limitaciones están sobre todo en el soporte de dispositivos y el entorno de ejecución. Android puede usar teléfonos físicos o emuladores; iOS por ahora soporta principalmente simuladores en macOS, y los dispositivos físicos iOS todavía no están soportados. El arranque rápido con Docker también está orientado principalmente a Android. Al evaluarlo, conviene confirmar primero si el dispositivo objetivo y el escenario de la app quedan cubiertos por la ruta de ejecución actual.
Comparativa de Funciones
| Dimensión | MobiAgent | Mobile-Agent | Mobilerun | mobile-use |
|---|---|---|---|---|
| Tareas en lenguaje natural | Soportado | Soportado | Soportado | Soportado |
| Operación en teléfonos reales | Fuerte, orientado a Android/Harmony | Fuerte, incluye móvil y teléfonos en la nube | Fuerte, Android/iOS | Fuerte, Android; iOS se inclina a simulador |
| Extensión a escritorio/navegador | No es el foco | Fuerte, incluye PC-Agent, GUI-Owl, ToolCUA | No es el posicionamiento principal | No es el posicionamiento principal |
| Capa de modelos | Incluye la serie MobiMind | Series GUI-Owl y Mobile-Agent | Independiente del LLM, conecta múltiples modelos | Configurable con varios LLM |
| Ejecutor/runner | Fuerte, incluye ADB runner y runner multitarea | Cada subproyecto lo ofrece por separado | Fuerte, CLI/TUI/Python API/Docker | Código fuente, Docker y entradas de plataforma |
| Memoria | Perfil de usuario, experiencia y memoria de acciones | v3/v3.5 enfatizan memoria y reflexión | Más centrado en trazas, logs y depuración de ingeniería | Más centrado en descomposición de tareas y ejecución con estado |
| Evaluación | MobiFlow | Múltiples líneas de papers/benchmarks | Tiene entrada a resultados de benchmark | Rendimiento destacado en AndroidWorld |
| Dispositivos en la nube | No es el punto principal | Soporta experiencias de teléfono/escritorio en la nube | Mobilerun Cloud es un foco | Tiene entrada de plataforma |
| Salida estructurada | Puede implementarse mediante flujos de ingeniería | Depende del subproyecto | Soporte explícito | Soporte explícito |
Ventajas y Limitaciones
La ventaja de MobiAgent es que el sistema está completo y sirve para estudiar el ciclo cerrado de modelos, memoria, aceleración y evaluación en phone GUI agents. Su limitación es una cadena de despliegue larga, configuración de ingeniería pesada y un coste de entrada alto para desarrolladores comunes.
La ventaja de Mobile-Agent es que tiene la ruta técnica más amplia. Permite ver cómo GUI agent evoluciona desde teléfonos hacia escritorio, navegador, uso de herramientas y modelos base. Su limitación es que la familia de proyectos es compleja; si quieres aterrizar un escenario concreto directamente, primero hay que filtrar bastante.
La ventaja de Mobilerun es una interfaz de ingeniería clara, independencia del modelo y separación explícita entre marco local y servicio en la nube. Encaja con integrar automatización de dispositivos móviles en productos o herramientas internas. Su limitación es que todavía hay que lidiar con permisos, entorno, estado de apps y costes de nube.
La ventaja de mobile-use es su foco en apps reales, descomposición de tareas y extracción estructurada de datos. La dirección AndroidWorld también lo hace más fácil de evaluar. Su limitación es el soporte limitado para dispositivos iOS físicos, y el uso completo todavía requiere configurar modelos, dispositivos y entorno de ejecución.
Recomendaciones de Uso
Si quieres investigar agentes móviles, mira primero MobiAgent y Mobile-Agent. El primero se concentra más en el ciclo cerrado del sistema en el teléfono; el segundo es mejor para observar la evolución multiplataforma de GUI agent.
Si quieres automatización de apps móviles, QA, extracción de datos o flujos internos, mira primero Mobilerun y mobile-use. Mobilerun se parece más a un framework de ejecución que puede integrarse en sistemas de ingeniería, mientras que mobile-use es más adecuado para validar operación de apps en lenguaje natural y extracción estructurada.
Si te interesa la forma futura de los asistentes personales, vale la pena seguir los cuatro. MobiAgent representa investigación sistemática sobre phone agents, Mobile-Agent representa la ruta de GUI agent multiplataforma, Mobilerun representa infraestructura de control de dispositivos, y mobile-use representa descomposición de tareas en apps reales y desarrollo guiado por evaluación.
Mi Lectura
Las diferencias entre estos cuatro proyectos muestran que los mobile GUI agents ya no consisten solo en “hacer que el modelo mire capturas y toque botones”. Las preguntas reales son: cómo entiende el modelo la interfaz, cómo controla el ejecutor el dispositivo de forma estable, cómo se descomponen y evalúan las tareas, cómo se gestionan los dispositivos en la nube, cómo se devuelven resultados estructurados y cómo se limitan los riesgos.
A corto plazo, los escenarios más realistas serán QA, extracción de datos, automatización de flujos internos y pools de dispositivos controlados. A largo plazo, quien logre estabilizar el control del dispositivo, la capacidad del modelo, los límites de permisos, el seguimiento de logs y los mecanismos de confirmación del usuario estará más cerca de un asistente móvil de IA realmente usable.