¿Qué proyecto de IA para automatizar móviles es más fuerte? Comparativa de MobiAgent, Mobile-Agent, Mobilerun y mobile-use

Comparativa de cuatro proyectos de agentes GUI móviles: MobiAgent, Mobile-Agent, Mobilerun y mobile-use, con información básica, foco funcional, ventajas, limitaciones y casos de uso.

Recientemente organicé cuatro proyectos de agentes GUI para móviles: MobiAgent, Mobile-Agent, Mobilerun y mobile-use. Todos tienen que ver con “hacer que la IA opere teléfonos o apps móviles”, pero no ocupan el mismo lugar.

En resumen: MobiAgent se parece más a un sistema de investigación personalizable para agentes en teléfonos; Mobile-Agent es el conjunto de trabajos de Tongyi Lab alrededor de GUI agent; Mobilerun está más orientado a un marco práctico de control de dispositivos móviles, local o en la nube; y mobile-use pone el foco en operar apps reales, descomponer tareas, extraer datos y evaluar con AndroidWorld.

Comparativa Básica

Proyecto Artículo del sitio GitHub Posicionamiento principal Dispositivo/plataforma Licencia Más adecuado para
MobiAgent Introducción IPADS-SAI/MobiAgent Sistema personalizable de agentes GUI para teléfonos, con modelos, runner, memoria, aceleración y evaluación Principalmente teléfonos Android/Harmony Apache-2.0 Investigadores y equipos de experimentación con agentes móviles
Mobile-Agent Introducción X-PLUG/MobileAgent Familia de agentes GUI de Tongyi Lab, cubriendo móvil, escritorio, navegador y uso de herramientas Teléfonos, PC, web, teléfonos/escritorios en la nube MIT Personas que siguen la ruta técnica de GUI agent
Mobilerun Introducción droidrun/mobilerun Marco de agentes para dispositivos móviles, independiente del LLM, con CLI, Python API y flujos con dispositivos en la nube Android, iOS, dispositivos locales, dispositivos en la nube MIT Desarrolladores, QA y equipos de flujos de automatización
mobile-use Introducción minitap-ai/mobile-use Operar apps móviles reales con lenguaje natural, con énfasis en descomposición de tareas, extracción estructurada y AndroidWorld Dispositivos/emuladores Android, simuladores iOS Apache-2.0 Personas que crean agentes para apps móviles, extracción de datos y evaluaciones

MobiAgent

MobiAgent viene de IPADS-SAI y se posiciona como un sistema personalizable de agentes para teléfonos. No ofrece solo un script de ejecución: reúne la familia de modelos MobiMind, grabación y reproducción de acciones con AgentRR, el benchmark MobiFlow, runners para teléfonos, recolección de datos y una app Android dentro de un mismo sistema.

Su punto fuerte es que el sistema de investigación está bastante completo. MobiAgent se centra en precisión, eficiencia, memoria y secuencias de acciones reutilizables en tareas reales con teléfonos. La memoria de perfil de usuario, memoria de experiencia, memoria de acciones y ejecución multitarea mencionadas en el README muestran que intenta manejar tareas largas y repetitivas.

También tiene una barrera de entrada relativamente alta. Una ejecución completa requiere dispositivos, ADB, despliegue de modelos, dependencias y configuración opcional de bases de datos vectoriales y de grafos. Encaja mejor con investigación o experimentos de ingeniería que con un asistente móvil de “instalar y usar” para usuarios comunes.

Mobile-Agent

Mobile-Agent viene de X-PLUG/Tongyi Lab. Este repositorio pasó de ser un agente temprano para operar teléfonos a una familia de agentes GUI: Mobile-Agent-v1/v2/v3/v3.5, Mobile-Agent-E, PC-Agent, GUI-Critic-R1, UI-S1, GUI-Owl, ToolCUA y otros están dentro de la misma línea técnica.

Su rasgo principal es la amplitud. Mobile-Agent no se preocupa solo por teléfonos; también cubre escritorio, navegador, teléfonos en la nube, escritorios en la nube, percepción GUI, grounding, diagnóstico de errores, aprendizaje por refuerzo y orquestación de rutas GUI/herramientas. La serie de modelos GUI-Owl hace que parezca más una ruta de modelos base para GUI agent multiplataforma que un único proyecto de automatización móvil.

Su debilidad viene de esa misma amplitud: el repositorio se parece más a una colección de resultados de investigación, y el usuario tiene que decidir primero qué subproyecto, modelo y escenario quiere ejecutar. Es bueno para seguir la evolución técnica y reproducir experimentos, pero no siempre será la forma más rápida de conectarlo a un flujo de negocio.

Mobilerun

Mobilerun viene de droidrun y tiene una orientación más de ingeniería: permite que LLM agents controlen dispositivos Android e iOS mediante lenguaje natural. Ofrece CLI, TUI, Docker, Python API, portal-based control, vision mode, reasoning mode, salida estructurada, herramientas personalizadas, app cards, trazas de ejecución y servicios de dispositivos en la nube.

Lo más destacado es su independencia del modelo y una forma de despliegue clara. Los desarrolladores pueden conectar OpenAI, Anthropic, Gemini, Ollama, DeepSeek, OpenRouter u OpenAI-compatible providers; también pueden elegir un marco local o Mobilerun Cloud. Para equipos reales, esta separación entre la capa de control del dispositivo y la capa del modelo es muy importante.

También conserva las barreras habituales de la automatización móvil. En Android hacen falta opciones de desarrollador, depuración USB y la Portal app; iOS tiene un flujo separado; las tareas complejas además requieren manejar ventanas de permisos, cambios de página, reintentos tras fallos e investigación de logs. Es más adecuado para quienes quieren incorporar mobile agent como componente de ingeniería.

mobile-use

mobile-use viene de minitap-ai y busca que AI agents usen apps reales de Android e iOS. Soporta control por lenguaje natural, UI-aware automation, extracción de datos y distintas configuraciones de LLM, y destaca su rendimiento en el benchmark AndroidWorld. El README también menciona que el proyecto es el primer agentic framework que alcanza 100% en AndroidWorld benchmark.

Su punto brillante es la descomposición de tareas y la extracción estructurada. Por ejemplo, encontrar correos no leídos en Gmail y devolver remitente y asunto en un formato JSON especificado está mucho más cerca de necesidades reales de producción que “abrir Ajustes y mirar la batería”. Lleva a los mobile GUI agents desde “pueden operar” hacia “pueden organizar información dentro de una app”.

Sus limitaciones están sobre todo en el soporte de dispositivos y el entorno de ejecución. Android puede usar teléfonos físicos o emuladores; iOS por ahora soporta principalmente simuladores en macOS, y los dispositivos físicos iOS todavía no están soportados. El arranque rápido con Docker también está orientado principalmente a Android. Al evaluarlo, conviene confirmar primero si el dispositivo objetivo y el escenario de la app quedan cubiertos por la ruta de ejecución actual.

Comparativa de Funciones

Dimensión MobiAgent Mobile-Agent Mobilerun mobile-use
Tareas en lenguaje natural Soportado Soportado Soportado Soportado
Operación en teléfonos reales Fuerte, orientado a Android/Harmony Fuerte, incluye móvil y teléfonos en la nube Fuerte, Android/iOS Fuerte, Android; iOS se inclina a simulador
Extensión a escritorio/navegador No es el foco Fuerte, incluye PC-Agent, GUI-Owl, ToolCUA No es el posicionamiento principal No es el posicionamiento principal
Capa de modelos Incluye la serie MobiMind Series GUI-Owl y Mobile-Agent Independiente del LLM, conecta múltiples modelos Configurable con varios LLM
Ejecutor/runner Fuerte, incluye ADB runner y runner multitarea Cada subproyecto lo ofrece por separado Fuerte, CLI/TUI/Python API/Docker Código fuente, Docker y entradas de plataforma
Memoria Perfil de usuario, experiencia y memoria de acciones v3/v3.5 enfatizan memoria y reflexión Más centrado en trazas, logs y depuración de ingeniería Más centrado en descomposición de tareas y ejecución con estado
Evaluación MobiFlow Múltiples líneas de papers/benchmarks Tiene entrada a resultados de benchmark Rendimiento destacado en AndroidWorld
Dispositivos en la nube No es el punto principal Soporta experiencias de teléfono/escritorio en la nube Mobilerun Cloud es un foco Tiene entrada de plataforma
Salida estructurada Puede implementarse mediante flujos de ingeniería Depende del subproyecto Soporte explícito Soporte explícito

Ventajas y Limitaciones

La ventaja de MobiAgent es que el sistema está completo y sirve para estudiar el ciclo cerrado de modelos, memoria, aceleración y evaluación en phone GUI agents. Su limitación es una cadena de despliegue larga, configuración de ingeniería pesada y un coste de entrada alto para desarrolladores comunes.

La ventaja de Mobile-Agent es que tiene la ruta técnica más amplia. Permite ver cómo GUI agent evoluciona desde teléfonos hacia escritorio, navegador, uso de herramientas y modelos base. Su limitación es que la familia de proyectos es compleja; si quieres aterrizar un escenario concreto directamente, primero hay que filtrar bastante.

La ventaja de Mobilerun es una interfaz de ingeniería clara, independencia del modelo y separación explícita entre marco local y servicio en la nube. Encaja con integrar automatización de dispositivos móviles en productos o herramientas internas. Su limitación es que todavía hay que lidiar con permisos, entorno, estado de apps y costes de nube.

La ventaja de mobile-use es su foco en apps reales, descomposición de tareas y extracción estructurada de datos. La dirección AndroidWorld también lo hace más fácil de evaluar. Su limitación es el soporte limitado para dispositivos iOS físicos, y el uso completo todavía requiere configurar modelos, dispositivos y entorno de ejecución.

Recomendaciones de Uso

Si quieres investigar agentes móviles, mira primero MobiAgent y Mobile-Agent. El primero se concentra más en el ciclo cerrado del sistema en el teléfono; el segundo es mejor para observar la evolución multiplataforma de GUI agent.

Si quieres automatización de apps móviles, QA, extracción de datos o flujos internos, mira primero Mobilerun y mobile-use. Mobilerun se parece más a un framework de ejecución que puede integrarse en sistemas de ingeniería, mientras que mobile-use es más adecuado para validar operación de apps en lenguaje natural y extracción estructurada.

Si te interesa la forma futura de los asistentes personales, vale la pena seguir los cuatro. MobiAgent representa investigación sistemática sobre phone agents, Mobile-Agent representa la ruta de GUI agent multiplataforma, Mobilerun representa infraestructura de control de dispositivos, y mobile-use representa descomposición de tareas en apps reales y desarrollo guiado por evaluación.

Mi Lectura

Las diferencias entre estos cuatro proyectos muestran que los mobile GUI agents ya no consisten solo en “hacer que el modelo mire capturas y toque botones”. Las preguntas reales son: cómo entiende el modelo la interfaz, cómo controla el ejecutor el dispositivo de forma estable, cómo se descomponen y evalúan las tareas, cómo se gestionan los dispositivos en la nube, cómo se devuelven resultados estructurados y cómo se limitan los riesgos.

A corto plazo, los escenarios más realistas serán QA, extracción de datos, automatización de flujos internos y pools de dispositivos controlados. A largo plazo, quien logre estabilizar el control del dispositivo, la capacidad del modelo, los límites de permisos, el seguimiento de logs y los mecanismos de confirmación del usuario estará más cerca de un asistente móvil de IA realmente usable.

记录并分享
Creado con Hugo
Tema Stack diseñado por Jimmy