Multimodal on KnightLi Blog

Qué es Gemini Omni: análisis completo del modelo de Google para edición de video con IA en múltiples turnos

Wed, 20 May 2026 23:11:58 +0800

Google DeepMind publicó la página de Gemini Omni. Su posición es directa: crear contenido a partir de cualquier entrada, con el foco inicial puesto en el video.

Si Nano Banana está más orientado a la generación y edición de imágenes, Gemini Omni se parece más a un modelo de edición multimodal para video. Los usuarios pueden modificar un video paso a paso con lenguaje natural, haciendo que cada cambio posterior se base en el anterior, mientras intenta mantener la coherencia de escenas, personas, acciones y lógica visual.

Página del proyecto: https://deepmind.google/models/gemini-omni/

El problema central que intenta resolver

La edición de video tradicional suele requerir líneas de tiempo, capas, máscaras, fotogramas clave, corrección de color, pistas de audio y mucho trabajo manual. Las herramientas de generación de video con IA ya pueden crear clips desde prompts, pero suelen tener dos problemas:

Después de una generación inicial, no es fácil hacer ajustes precisos.
En ediciones de múltiples turnos, los personajes, escenas, estilos y movimientos pueden desviarse.

Gemini Omni apunta al segundo paso: no solo generar un video, sino permitir que el usuario siga pidiendo cambios como si hablara con un editor.

La página lo describe como una forma de editar cualquier video mediante una conversación natural y por pasos. Cada edición se basa en el resultado anterior, con el objetivo de mantener una escena coherente y unificada.

Capacidades principales

Las capacidades de Gemini Omni se pueden agrupar en varias áreas.

La primera es la edición de video con lenguaje natural. El usuario puede pedir directamente al modelo que cambie el estilo visual, el movimiento o los efectos de un video. Por ejemplo, puede hacer que un espejo ondule como líquido, convertir a una persona en dibujo lineal, muñeco de fieltro o estructura holográfica transparente, o transformar todo el entorno en 3D voxel art.

La segunda es la reconstrucción de acciones. Puede cambiar lo que ocurre en un video, como agrandar el agujero formado por una mano, hacer que un juguete emita el sonido del animal correspondiente o lograr que las luces de un edificio reaccionen a la música.

La tercera es la edición de video real basada en imágenes de referencia. El usuario puede proporcionar una imagen de referencia y pedir al modelo que coloque un edificio, un sol, una aeronave u otro objeto dentro de una escena de video real.

La cuarta es mantener la coherencia en ediciones de múltiples turnos. La página muestra un flujo continuo: mover a una violinista a un entorno de referencia, hacer desaparecer el violín y después cambiar la cámara a un ángulo sobre el hombro. Esto se acerca más a un proceso creativo real que a un prompt de una sola vez.

La quinta es la referencia con múltiples entradas. Gemini Omni puede integrar imagen, texto, video y audio en una sola salida, con soporte para transferencia de estilo, transferencia de movimiento, reemplazo de personajes y conversión de bocetos a video.

Por qué enfatiza el conocimiento del mundo

Google subraya varias veces que Gemini Omni no solo busca que las imágenes se vean reales. También combina el conocimiento del mundo de Gemini, intuición física, historia, ciencia y lógica narrativa.

Esto es importante. Si un modelo de video solo optimiza la calidad visual, puede producir movimientos ilógicos, relaciones confusas entre objetos o falta de sincronía entre texto e imagen. El objetivo de Gemini Omni es que el video no solo parezca correcto, sino que también sea más coherente en historia, física y significado.

Algunos ejemplos de la página son:

Una canica rodando por una pista de reacción en cadena.
Una explicación de plegamiento de proteínas con claymation.
Una explicación estilo stop motion de cómo funciona el hipocampo.
Letras que aparecen asociadas a objetos dentro de la escena.
Palabras en pantalla que aparecen una por una siguiendo el ritmo.

Estos ejemplos muestran que no es solo una herramienta de efectos para videos cortos. Intenta unir expresión de conocimiento, narrativa y generación audiovisual.

Relación con Veo, Flow y Nano Banana

Dentro de la línea actual de productos de Google, Gemini Omni parece una capa de creación y edición multimodal.

Veo está más centrado en el modelo de generación de video en sí, con énfasis en video cinematográfico y generación de audio. Google Flow es un estudio creativo con IA para creadores, útil para organizar tomas, materiales y proyectos de video. Nano Banana se orienta más a creación de imágenes y edición detallada. Gemini Omni, en cambio, enfatiza la edición multimodal desde cualquier entrada hacia una salida coherente, especialmente el control de video en múltiples turnos mediante lenguaje natural.

Una forma simple de verlo:

Para generar video de alta calidad: mirar Veo.
Para organizar proyectos de video dentro de un flujo creativo: mirar Google Flow.
Para editar imágenes: mirar Nano Banana.
Para modificar video de forma conversacional usando imágenes, texto, video y audio como referencia: mirar Gemini Omni.

Formas de acceso

La página menciona estos puntos de acceso:

Gemini app.
Google Flow.
YouTube Shorts.

Sin embargo, también indica que se requiere una suscripción a Google AI, y que las funciones varían según el nivel de suscripción y la región. Es decir, no todos los usuarios de todas las regiones podrán usar de inmediato todas las capacidades.

Para creadores, la entrada más interesante probablemente sea Google Flow, porque está más cerca de un espacio creativo completo. Para usuarios generales, Gemini app y YouTube Shorts pueden ser formas más sencillas de probarlo.

Seguridad y etiquetado de contenido

La página de Gemini Omni dedica una sección al proceso de seguridad. El desarrollo de Gemini Omni Flash se realizó en colaboración con equipos internos de seguridad y responsabilidad, e incluyó evaluaciones automatizadas, evaluaciones humanas, red teaming humano, red teaming automatizado y revisión ética y de seguridad antes del lanzamiento.

En transparencia de contenido, la página señala que el contenido creado o editado con Omni en Gemini app, Google Flow o YouTube incluirá marcas de agua digitales imperceptibles SynthID y C2PA Content Credentials. Los usuarios podrán verificar contenido desde Gemini app, con expansión posterior a Chrome y Search.

Esto es especialmente relevante para modelos de video. Cuanto más realistas sean la generación y edición de video, más importantes serán el etiquetado de origen, la prevención de abuso y las herramientas de verificación.

Para quién sirve

Gemini Omni encaja con varios tipos de usuarios:

Creadores de contenido que quieren modificar video rápidamente con lenguaje natural.
Equipos de diseño que necesitan combinar bocetos, imágenes de referencia, audio y material de video en una pieza final.
Personas que crean videos cortos, conceptos publicitarios, explicadores educativos y borradores visuales de producto.
Creadores que quieren construir flujos de trabajo de video con IA en Google Flow.
Desarrolladores e investigadores que siguen los límites de la edición de video multimodal.

Pero no sirve para todos los escenarios. Películas comerciales serias, visuales principales de marca, producción audiovisual y videos de lanzamiento de producto siguen requiriendo revisión humana, control de derechos, verificación de hechos y gestión de materiales. La IA puede acelerar claramente la generación de conceptos y la iteración del primer borrador, pero no debe reemplazar la revisión final.

Cómo interpretar Gemini Omni

La importancia de Gemini Omni está en que mueve el video con IA desde la “generación de una sola vez” hacia la “edición conversacional”. Eso se acerca más al proceso creativo real que simplemente mejorar la calidad de imagen.

Si funciona de manera estable en edición de múltiples turnos, consistencia, control de referencias, sincronización de audio y video, y etiquetado de contenido, la forma de usar herramientas de video con IA cambiará. Los usuarios ya no escribirán solo un prompt largo esperando acertar; revisarán escenas, acciones, estilos y narrativas paso a paso como directores, editores y diseñadores.

Todavía habrá que observar disponibilidad real, precio, restricciones regionales, duración generable, resolución, política de derechos y reglas de uso comercial. Para creadores comunes, el punto más práctico será comprobar si Gemini Omni puede completar de forma estable ediciones de video en múltiples turnos dentro de Google Flow y Gemini app.

Referencias:

Google DeepMind: Gemini Omni

¿Dejar que la IA opere el ordenador? UI-TARS-desktop conecta escritorio, navegador y herramientas

Tue, 19 May 2026 10:56:50 +0800

bytedance/UI-TARS-desktop es el proyecto open source de ByteDance para AI Agents multimodales. No es solo una aplicación de escritorio, sino un stack de agentes. El README actual contiene principalmente dos direcciones: Agent TARS y UI-TARS Desktop.

URL del proyecto: https://github.com/bytedance/UI-TARS-desktop

Sitio oficial: https://agent-tars.com

En el momento de escribir este artículo, la API de GitHub mostraba unas 34k estrellas, TypeScript como lenguaje principal y licencia Apache-2.0. El README lo describe como “Open-Source Multimodal AI Agent Stack”.

Diferencia entre Agent TARS y UI-TARS Desktop

El README coloca ambos proyectos en una misma tabla comparativa:

Agent TARS: stack general de AI Agent multimodal que conecta GUI Agent, visión, terminal, navegador y flujos de producto.
UI-TARS Desktop: aplicación de escritorio basada en modelos UI-TARS, con capacidades nativas de GUI Agent para operar ordenadores locales o remotos y navegadores.

En pocas palabras, Agent TARS se parece más a un runtime general de agentes, mientras que UI-TARS Desktop es la entrada de operación GUI en escritorio.

Qué puede hacer Agent TARS

Agent TARS ofrece principalmente CLI y Web UI. Su objetivo es permitir que modelos multimodales completen flujos de tareas más cercanos a la operación humana mediante MCP y distintas herramientas.

El README lista capacidades como:

Arranque CLI con un comando, con Web UI headful y servidor headless.
Control híbrido de navegador mediante GUI Agent, DOM o estrategias mixtas.
Event Stream para trazado y depuración.
Integración MCP para montar MCP Servers y herramientas reales.

Inicio rápido:

`1`	`npx @agent-tars/cli@latest`

Instalación global:

`1`	`npm install @agent-tars/cli@latest -g`

Ejecución con proveedor de modelo:

1
2

agent-tars --provider volcengine --model doubao-1-5-thinking-vision-pro-250428 --apiKey your-api-key
agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey your-api-key

Qué puede hacer UI-TARS Desktop

UI-TARS Desktop es un GUI Agent de escritorio. Basado en UI-TARS y las familias Seed-1.5-VL / 1.6, se centra en que el modelo entienda la pantalla y ejecute acciones de ratón y teclado.

El README menciona:

Control con lenguaje natural.
Capturas de pantalla y reconocimiento visual.
Control preciso de ratón y teclado.
Soporte multiplataforma para Windows, macOS y navegador.
Feedback y estado en tiempo real.
Procesamiento local con énfasis en privacidad y seguridad.

Ejemplos de tareas incluyen cambiar ajustes de VS Code, revisar issues de GitHub y operar ordenadores o navegadores remotos.

Por qué importan los GUI Agents

La automatización tradicional depende de APIs, DOM o scripts. Un GUI Agent parte de la interfaz: ve botones, campos, menús y estado, y luego opera con ratón y teclado.

Tiene dos valores. Primero, muchas aplicaciones no tienen APIs estables o las APIs no cubren todo el flujo. Un GUI Agent puede actuar sobre la misma superficie que usa una persona.

Segundo, los modelos multimodales pueden manejar capturas, documentos, páginas web e interfaces de aplicaciones, combinando comprensión visual y ejecución.

También hay límites. Las operaciones GUI dependen de resolución, idioma, cambios de layout, pop-ups y latencia. En producción hacen falta permisos, confirmaciones y planes de reversión.

Relación con MCP

Agent TARS enfatiza la integración MCP. MCP ayuda porque da a los agentes una forma unificada de llamar navegadores, archivos, línea de comandos, bases de datos, servicios internos y otras herramientas.

Para tareas complejas, hacer clic en la GUI no basta. Un patrón más estable suele ser:

Usar APIs cuando existen.
Usar visión cuando hay que entender el estado de la página.
Usar control de navegador cuando se necesita interacción web real.
Usar GUI Agent cuando hay que operar software local.

Proyectos como UI-TARS-desktop exploran cómo juntar esas capacidades en un mismo stack de agentes.

Precauciones

Los agentes de escritorio tienen riesgo de ejecución. Pueden operar ratón, teclado y navegador, así que hay que limitar permisos para evitar cambios accidentales en archivos, cuentas, pagos o sistemas de producción.

El control de ordenadores y navegadores remotos necesita límites de seguridad claros. No se deben exponer endpoints de control sin autenticación a internet.

Los modelos multimodales pueden leer mal la interfaz. Operaciones críticas como borrar, enviar, pagar, publicar o ejecutar trades deberían requerir confirmación humana.

Para quién es

UI-TARS-desktop encaja con desarrolladores que exploran GUI Agents, equipos que construyen asistentes para flujos de escritorio e investigadores que comparan navegador, DOM, MCP y control visual. Todavía es más una base para desarrolladores que un asistente de consumo simple.

Resumen

UI-TARS-desktop merece atención porque mueve los AI Agents desde “responder en chat” hacia “ver la pantalla y operar herramientas”. Su valor no está solo en controlar el escritorio, sino en combinar GUI, navegador, terminal y MCP dentro de un mismo stack.

OpenAI presenta ChatGPT Images 2.0: la generación de imágenes comienza a avanzar hacia resultados entregables

Wed, 22 Apr 2026 14:21:45 +0800

OpenAI publicó Presentación de ChatGPT Images 2.0 el 21 de abril de 2026. A juzgar por la página del anuncio, el punto principal no es simplemente que las imágenes se vean mejor. El mensaje más importante es que la generación de imágenes está avanzando hacia algo más controlable, más consciente del diseño y más directamente utilizable.

Si nos fijamos únicamente en esta página de lanzamiento, se parece más a una muestra densa de capacidades que a un anuncio técnico tradicional. Hay muy poco sobre la arquitectura del modelo, los detalles de capacitación o los puntos de referencia. En cambio, OpenAI utiliza un gran conjunto de ejemplos para responder una pregunta más práctica: ¿puede ahora ChatGPT manejar más trabajo que antes requería correcciones manuales repetidas para el texto, el diseño y el pulido final?

01 Las señales más claras en este lanzamiento

Las frases más destacadas de la página ya resumen el enfoque:

Mayor precisión y control
Más fuerte en todos los idiomas
Sofisticación estilística y realismo

En conjunto, esas tres ideas dicen mucho.

En primer lugar, el énfasis se está alejando de la mera imaginación y acercándose al control. La página incluye muchos ejemplos, como carteles, folletos de revistas, páginas promocionales, infografías, hojas de personajes, páginas de cómics y diseños de marcadores listos para imprimir. Lo que comparten estos ejemplos no es sólo el atractivo visual. Requieren manejo de texto, jerarquía, espacios en blanco, composición, coherencia estilística y control de formato al mismo tiempo. Eso sugiere que OpenAI está impulsando intencionalmente el producto desde “generar una imagen” hacia “generar un activo visual que la gente realmente pueda usar”.

En segundo lugar, la representación de texto multilingüe se considera una característica de los titulares. La página incluye carteles multilingües, portadas de libros, una campaña de hospitalidad coreana, manga japonés y varios ejemplos centrados en la tipografía. Esto es importante porque uno de los puntos débiles más persistentes de los modelos de imágenes ha sido el texto largo, los diseños complejos y las escrituras no inglesas. Que OpenAI ponga esto al frente y al centro es en sí mismo una señal: la representación de texto y el diseño en varios idiomas son ahora capacidades que cree que vale la pena mostrar directamente.

En tercer lugar, la gama estilística es muy amplia. Los ejemplos abarcan imágenes fotorrealistas, carteles de collage retro, gráficos inspirados en la Bauhaus, editoriales de moda, estilos documentales en blanco y negro, ilustraciones de libros infantiles, manga, infografías educativas, cuadrículas de productos y hojas de referencia de personajes. El mensaje no es sólo que el modelo puede imitar muchos estilos visuales. Es que el sistema está intentando adaptarse a un conjunto más amplio de tareas visuales reales.

02 Por qué esto parece un paso hacia resultados entregables

Desde el anuncio en sí, ChatGPT Images 2.0 se parece menos a un modelo de conversión de texto a imagen más sólido y más a una herramienta de producción visual mejorada.

Los modelos anteriores podían producir imágenes impresionantes, pero la experiencia a menudo fallaba cuando la tarea cambiaba a cosas como estas:

crear un póster con un título completo, un subtítulo y un texto de respaldo
crear una revista o una página promocional con información densa
generar una página de cómic con continuidad entre personajes y paneles
producir activos de marketing con relaciones de aspecto fijas, restricciones de diseño claras y tono de marca
crear contenido visual pulido que incluya texto multilingüe Esta versión parece diseñada para responder directamente a esas limitaciones anteriores.

La página incluye infografías educativas, carteles de tendencias de diseño, diseños de marcadores listos para imprimir, un cartel de lanzamiento de una cafetería, material de promoción turística, maquetas de productos comerciales y un cartel académico rediseñado. Estas no son sólo imágenes que se ven bonitas de un vistazo. Están mucho más cerca de resultados semiacabados o incluso terminados de flujos de trabajo creativos reales.

En ese sentido, el cambio más importante aquí puede que no sea un simple aumento en la calidad de la imagen. Puede ser que el modelo esté empezando a parecerse más a un sistema para la producción de contenidos, materiales de marca, educación y trabajos de diseño ligero.

03 Qué significa esto para la dirección de productos de ChatGPT

La estructura del anuncio también sugiere un cambio de producto más amplio.

OpenAI no presenta ChatGPT Images 2.0 como una herramienta de nicho solo para artistas o creadores visuales. En cambio, enmarca repetidamente la característica a través de la investigación, el razonamiento, la transformación de fuentes, la organización del diseño, la comunicación de conocimientos y los resultados de marketing. La página incluso incluye ejemplos elaborados en torno a pruebas matemáticas, tendencias de diseño, notas históricas y artículos académicos.

Eso sugiere que la generación de imágenes dentro de ChatGPT ya no se trata solo de agregar una imagen a un chat o generar una sola ilustración. Se está acercando a ser una capa de expresión de uso general. El objetivo parece ser este: una vez que un usuario ya ha investigado, pensado, organizado y escrito algo en ChatGPT, el sistema también debería poder manejar el resultado visual final.

Si esa dirección continúa, la competencia en la generación de imágenes se basará menos en la pura estética o el realismo y más en capacidades como estas:

si el sistema puede manejar de forma fiable texto complejo
si puede preservar la coherencia entre páginas o paneles
si puede producir diseños más cercanos a los materiales de trabajo reales
si puede conectarse de forma natural con los flujos de trabajo de investigación, redacción, marketing y enseñanza

04 Lo que no dice el anuncio

Al mismo tiempo, el formato de la página también deja claros sus límites.

A partir de la página oficial publicada el 21 de abril de 2026, el anuncio se centra mucho más en los resultados que en los métodos. No entra en detalles sobre:

mejoras cuantificadas con respecto a la generación anterior
métricas explícitas para la precisión del texto o la representación multilingüe
límites de falla para tareas de diseño complejas
Detalles de API, precios, modos de acceso o detalles de integración empresarial
cambios concretos en las políticas de seguridad o límites de generación

Por lo tanto, es mejor leer la página como una señal de producto que como una especificación técnica completa.

05 Breve conclusión

Si tuviera que resumir ChatGPT Images 2.0 en una frase, la actualización clave no es que “dibuja mejor”, sino que está mejorando en la producción de trabajos terminados.

OpenAI claramente quiere que la generación de imágenes evolucione de una herramienta de inspiración a una herramienta de producción que sea más ejecutable, más consciente del diseño, más comunicativa y más directamente utilizable. El control de texto, la producción multilingüe, la estructura del diseño, la gama estilística y la organización visual de formato largo solían ser lugares donde los modelos de imágenes a menudo mostraban sus debilidades. En esta versión, esas mismas áreas se presentan como puntos de venta. Eso no significa que la generación de imágenes haya resuelto todos los problemas de diseño. Pero este anuncio sí sugiere un cambio en lo que importa. La próxima ventaja competitiva quizá no provenga de quién pueda generar la imagen más llamativa. Puede provenir de quién puede generar de manera más confiable contenido visual que esté realmente listo para usar.

Enlaces relacionados

Presentación de ChatGPT Images 2.0 - OpenAI