¿Puede la IA tocar el teléfono y usar el ordenador por sí sola? Lectura del proyecto Mobile-Agent

Un repaso de Mobile-Agent, el proyecto open source de X-PLUG que pasó de agente GUI para teléfonos a una familia de agentes GUI para móvil, escritorio, navegador y uso de herramientas.

Mobile-Agent, open source de X-PLUG, ya no es solo un proyecto de automatización de teléfonos. Según el posicionamiento actual del repositorio, se parece más a un conjunto de trabajos que Tongyi Lab ha ido acumulando alrededor de GUI agents: Mobile-Agent-v1/v2/v3/v3.5, Mobile-Agent-E, PC-Agent, GUI-Critic-R1, UI-S1, GUI-Owl, ToolCUA y otros aparecen dentro del mismo sistema de proyecto.

Esta línea merece atención. Antes, al hablar de GUI agent, la pregunta común era si el modelo podía entender una captura y tocar el lugar correcto. Mobile-Agent va más allá: intenta que el agente cambie entre móvil, escritorio, navegador y uso de herramientas para manejar tareas reales más largas y complejas.

Qué Problema Resuelve

Los GUI agents no se enfrentan a APIs estándar, sino a interfaces de aplicaciones. Necesitan entender la pantalla, localizar controles, planificar pasos, ejecutar toques o entradas de texto, y corregir la ruta cuando fallan. El móvil es especialmente complejo porque las tareas suelen cruzar varias apps, y el estado de la interfaz cambia con login, permisos, ventanas emergentes, red y recomendaciones personalizadas.

La serie Mobile-Agent divide este problema en varias direcciones:

  • Mobile-Agent-v1/v2 explora percepción visual y colaboración multiagente en GUI de teléfonos.
  • PC-Agent extiende la operación multiagente al PC.
  • Mobile-Agent-v3 y v3.5 avanzan un marco GUI agent multiplataforma.
  • Los modelos GUI-Owl ofrecen percepción GUI, grounding y operación end-to-end entre plataformas.
  • GUI-Critic-R1, UI-S1, ToolCUA y otros trabajos añaden diagnóstico de errores, aprendizaje por refuerzo y orquestación de rutas GUI/herramientas.

Así, se parece menos a una demo puntual y más a una ruta de investigación e ingeniería alrededor de “computer-use agents”.

El Foco de v3.5

El README del repositorio muestra que Mobile-Agent-v3.5 puede probarse mediante el demo online de ModelScope y el demo online de Alibaba Cloud Bailian; Bailian también ofrece una API v3.5. En marzo de 2026, v3.5 llegó además a los cloud phones Wuying de Alibaba Cloud, ofreciendo experiencia móvil en entornos Android en la nube.

Esto indica que el proyecto está completando formas de uso más allá de “correr experimentos en local”. Para GUI agents, los teléfonos y escritorios en la nube importan: ofrecen entornos de ejecución más estables y reproducibles, reduciendo diferencias de dispositivos locales, versiones del sistema, resolución y estado de apps.

Si quieres evaluar este tipo de agente, es fácil subestimar el entorno estable. Sin un entorno de ejecución controlable, cuesta saber si un fallo se debe a capacidad insuficiente del modelo, cambios de interfaz, problemas del dispositivo o una definición de tarea poco clara.

GUI-Owl Cambia la Capa de Base

Después de Mobile-Agent-v3, GUI-Owl se convirtió en una capa de modelo clave en esta ruta. El README describe GUI-Owl como un GUI VLM multimodal y multiplataforma con percepción GUI, grounding y operación end-to-end. Para GUI-Owl-1.5, la serie ya cubre 2B, 4B, 8B, 32B y 235B, y soporta automatización de escritorio, móvil y navegador.

La importancia de estos modelos es que no solo responden “qué hay en la pantalla”. Deben conectar el objetivo en lenguaje natural, el contenido de la captura, la posición de los elementos de interfaz y la siguiente acción. Para GUI agents, comprensión visual, grounding de coordenadas, planificación de acciones y memoria de estado son inseparables.

Por supuesto, cuanto más general sea el modelo, más importantes se vuelven los límites de ingeniería. En despliegues reales siguen haciendo falta ejecutores, control de permisos, logs de tareas, mecanismos de rollback y confirmación humana. En operaciones de alto riesgo como pagos, cuentas, archivos o envío de mensajes, un GUI agent no debe perseguir solo completar automáticamente; también debe explicar claramente qué va a hacer.

La Nueva Dirección que Sugiere ToolCUA

En mayo de 2026, las noticias del proyecto mencionaron ToolCUA, definido como un Computer Use Agent end-to-end para orquestar rutas óptimas entre GUI y herramientas. Esta dirección es interesante porque reconoce un hecho práctico: no todas las tareas deberían completarse tocando pantallas.

Algunas cosas encajan con GUI, como iniciar sesión en paneles, manejar formularios complejos o leer estados de apps sin API. Otras encajan mejor con herramientas, como buscar, calcular, analizar archivos o acceder a interfaces estructuradas. Un computer-use agent realmente usable debe aprender a cambiar entre ambas.

Por eso la serie Mobile-Agent merece más atención que los primeros proyectos de automatización móvil. Ya no pregunta solo si el agente puede tocar apps como una persona, sino cuándo debe mirar la pantalla, cuándo debe usar herramientas y cuándo debe detenerse para confirmar.

Quién Debería Seguirlo

Si solo buscas un asistente de automatización móvil listo para usar, Mobile-Agent sigue siendo un marco de investigación e ingeniería. Incluye modelos, entornos de ejecución, tareas de evaluación y ejecutores concretos, así que correrlo completo suele requerir configuración.

Pero si te interesan estas preguntas, vale la pena seguirlo:

  • Cómo los mobile GUI agents pasan de demos a ejecución estable.
  • Si la automatización de escritorio, navegador y teléfono puede unificarse en un mismo marco de agentes.
  • Cómo los modelos GUI manejan grounding, reflexión, memoria y diagnóstico de errores.
  • Cómo los agentes eligen entre operación GUI y uso de herramientas.
  • Si los cloud phones y cloud desktops serán entornos importantes para GUI agents.

Estas preguntas afectan directamente a asistentes personales, automatización de procesos empresariales, operación remota de escritorios, pruebas de apps e integración con sistemas sin API.

Mi Lectura

El valor de Mobile-Agent no está en la métrica de una versión concreta, sino en que empuja los GUI agents desde “mirar una captura de teléfono y tocar” hacia un problema de sistema más amplio: cómo cooperan modelos, entorno de ejecución, evaluación, uso de herramientas, diagnóstico de errores y tareas multiplataforma.

A corto plazo, es más adecuado para investigadores y desarrolladores que observan la ruta técnica de GUI agents. A largo plazo, proyectos como este podrían influir en la forma de los asistentes personales de IA y las herramientas de automatización empresarial. La dificultad real no es solo hacer que el agente opere interfaces, sino lograr que complete tareas en apps reales de forma estable, controlable y trazable.

Enlace del proyecto: X-PLUG/MobileAgent

记录并分享
Creado con Hugo
Tema Stack diseñado por Jimmy