Computer Use permite que Gemini no solo responda, sino que vea capturas de pantalla, decida dónde hacer clic o qué escribir y entregue esas acciones a tu cliente para ejecutarlas.
Sirve para agentes de automatización del navegador: pruebas de flujos web, formularios repetitivos, recopilación de información o investigación sencilla entre sitios. El modelo planifica; tu código ejecuta, devuelve capturas y controla cuándo detenerse.
Documentación oficial:
|
|
Cómo Funciona
- Envías a Gemini la tarea, configuración de herramientas y estado de pantalla.
- Gemini devuelve una acción: clic, escritura, scroll o abrir página.
- Tu programa ejecuta la acción con Playwright u otra automatización.
- Capturas la nueva pantalla y la devuelves.
- Repites hasta terminar o activar una regla de seguridad.
Gemini API no hace clic por ti. Devuelve operaciones sugeridas; la ejecución está en tu cliente.
Modelo e Interfaz
Modelo recomendado:
|
|
Configuración:
|
|
El navegador es el punto de partida más cómodo porque Playwright ya maneja clics, escritura, capturas y viewport.
Ejemplo en Python
|
|
|
|
Activa enable_prompt_injection_detection cuando puedas. Las páginas pueden contener instrucciones maliciosas dirigidas al agente.
Ejecutar con Playwright
|
|
Convierte coordenadas normalizadas:
|
|
Después de ejecutar cada function_call, captura pantalla y devuelve el resultado. Lo difícil es estabilizar el bucle: respuesta del modelo, ejecución, captura y nueva petición.
Empieza Pequeño
Usa tareas de bajo riesgo, como buscar en Google o probar una página local. Evita cuentas reales, pagos y paneles de producción al principio. Revisa si cada intent del modelo tiene sentido.
Seguridad
- Usa navegador aislado, contenedor o VM.
- Bloquea historial, autocompletado y contraseñas guardadas.
- Pide confirmación para login, pagos, envíos, publicaciones y aceptación de acuerdos.
- No permitas resolver CAPTCHAs ni evadir verificaciones humanas.
- Usa listas permitidas o bloqueadas.
- Registra prompts, capturas, acciones, decisiones de seguridad y acciones ejecutadas.
Diferencia con Function Calling
Function Calling elige una API y rellena parámetros. Computer Use opera una interfaz real. Si existe una API estable, úsala primero; reserva Computer Use para flujos que deban pasar por UI o pruebas end-to-end.
Errores Comunes
- Pensar que el modelo controla el navegador solo.
- No convertir coordenadas.
- Empezar desde páginas con pop-ups o banners.
- No limitar pasos, tiempo o acciones riesgosas.
- Usarlo para decisiones financieras, médicas, de cuenta o irreversibles.
Estructura Práctica
|
|
Separa llamadas API, ejecución de UI y reglas de seguridad.
Resumen
Gemini Computer Use lleva la automatización del navegador desde scripts fijos hacia decisiones basadas en el estado de la pantalla. Para usarlo bien, fija el entorno, construye un bucle estable y pon la seguridad delante.