Explicación del paper Vision Banana: los generadores de imágenes se están convirtiendo en modelos visuales generalistas

Tue, 09 Jun 2026 23:22:08 +0800

El paper Image Generators are Generalist Vision Learners plantea una idea directa: los generadores de imágenes potentes no solo “dibujan”. Durante el entrenamiento generativo, ya aprenden parte de la comprensión visual transferible que se necesita para tareas de percepción. El equipo ajusta Nano Banana Pro con instruction-tuning ligero para crear Vision Banana y lo compara con modelos especializados en segmentación, estimación de profundidad, estimación de normales de superficie y otras tareas.

Este paper merece atención no porque introduzca otro nombre de modelo visual, sino porque vuelve a conectar dos líneas que la visión por computadora ha mantenido separadas durante mucho tiempo. Antes, los modelos generativos generaban y los modelos discriminativos o especializados entendían. Vision Banana intenta demostrar que el preentrenamiento generativo también puede convertirse en la base de las tareas de comprensión, de forma parecida al preentrenamiento en modelos de lenguaje.

Método: Reescribir la comprensión visual como generación de imágenes

El diseño clave de Vision Banana consiste en parametrizar las salidas de las tareas visuales como imágenes RGB.

Por ejemplo, la segmentación semántica ya no produce class logits, sino un mapa de segmentación coloreado por clase. La segmentación de instancias representa distintas instancias con distintos colores. La estimación de profundidad genera un mapa de profundidad en falso color e invertible, que luego se decodifica desde RGB de vuelta a valores reales de profundidad métrica. La estimación de normales de superficie también codifica los vectores de dirección mediante canales RGB.

Esto tiene tres ventajas.

Primero, todas las tareas pueden resolverse mediante la misma interfaz de “generar una imagen”. Los pesos del modelo se comparten, y las diferencias principales vienen de los prompts y de la forma de codificar la salida.

Segundo, el objetivo del ajuste fino se parece más a enseñar al modelo a expresar capacidades existentes en un formato específico que a entrenar desde cero a un nuevo experto visual. El paper subraya que los datos de tareas visuales se mezclan con los datos originales de generación en una proporción muy baja.

Tercero, el modelo conserva su capacidad original de generación de imágenes. El paper lo comprueba con GenAI-Bench e ImgEdit, donde Vision Banana queda básicamente a la par de Nano Banana Pro en generación texto-a-imagen y edición de imágenes.

Resultados: Se comprime la frontera de los modelos especializados

Según la tabla principal del paper, Vision Banana alcanza o se acerca al nivel de modelos especializados en varias tareas.

En comprensión 2D, alcanza 0.738 cIoU en referring segmentation sobre RefCOCOg UMD val, ligeramente por encima del 0.734 de SAM3 Agent. En ReasonSeg val llega a 0.793 gIoU, por encima del 0.770 de SAM3 Agent. En segmentación semántica sobre Cityscapes val alcanza 0.699 mIoU, frente al 0.652 de SAM3.

La segmentación de instancias no es una victoria total. En un subconjunto aleatorio de 500 consultas de SA-Co/Gold, Vision Banana obtiene 0.540, un poco por debajo del 0.552 de DINO-X. Ese detalle hace que la conclusión sea más creíble: el paper no fuerza una victoria en todas las tablas, sino que muestra tanto el techo como las debilidades actuales de una interfaz generativa unificada.

En comprensión 3D, el resultado es todavía más interesante. El paper informa que Vision Banana alcanza un promedio de 0.929 en cuatro datasets de estimación de profundidad, por encima del 0.918 de Depth Anything 3. En estimación de normales de superficie, su error angular medio es de 18.928 grados, por debajo de los 19.642 grados de Lotus-2. Para un modelo adaptado a partir de un generador de imágenes, esto sugiere que el preentrenamiento generativo puede aprender fuertes priors sobre escala de objetos, estructura espacial y geometría de escenas.

El cambio real: La generación como interfaz unificada

Lo más importante del paper no es cuánto gana una métrica concreta, sino la elección de interfaz: las tareas visuales no tienen por qué producir necesariamente boxes, masks, depth tensor o normal vector. También pueden producir imágenes decodificables.

Esto se parece al camino que siguieron los modelos de lenguaje. Muchas tareas de lenguaje terminaron reformuladas como “dado un contexto, generar texto”. Vision Banana intenta reformular las tareas visuales como “dada una imagen y una instrucción, generar una imagen en un formato verificable”.

Si esta dirección se mantiene, la forma de ingeniería de los modelos visuales puede cambiar. Antes, cada tarea tenía su propia cabeza, función de pérdida, pipeline de datos y método de evaluación. En el futuro, podríamos ver una base generativa fuerte junto con un protocolo de formato de tareas. La capacidad del modelo no solo se mediría por si una imagen se ve bien, sino por si puede producir resultados cuantificables en un formato restringido y verificable.

Puntos donde conviene ser prudente

Primero, Vision Banana sigue dependiendo de Nano Banana Pro, una base cerrada y muy potente. El paper puede demostrar que esa base contiene capacidad visual general, pero no demuestra directamente que todos los generadores de imágenes tengan el mismo nivel de capacidad.

Segundo, la comprensión visual generativa puede ser costosa. El propio paper señala que usar generadores como Nano Banana Pro para tareas visuales tiene un coste computacional claramente mayor que ejecutar modelos especializados ligeros. En móviles, robótica en tiempo real, conducción autónoma y escenarios similares, la latencia y el coste siguen siendo restricciones duras.

Tercero, codificar salidas como imágenes RGB ofrece una interfaz unificada elegante, pero también crea nuevos problemas de ingeniería. La decodificación de colores, el seguimiento de prompts, la precisión de bordes, la estabilidad numérica y la reproducibilidad de la evaluación pueden afectar el resultado final. Cuanta más libertad tenga un modelo generativo, más importantes serán las restricciones estrictas de salida.

Cuarto, la evaluación actual se concentra sobre todo en entradas de una sola imagen y tareas visuales fundamentales. Todavía hacen falta más experimentos para saber si el mismo paradigma se extiende bien a entradas multivista, video, comprensión física de largo horizonte y razonamiento multimodal.

Conclusión

Vision Banana envía una señal fuerte a la visión por computadora: el preentrenamiento de generación de imágenes quizá no sea solo una capacidad de producción de contenido. También puede ser una fuente de comprensión visual.

Su valor no está en reemplazar de inmediato todos los modelos visuales especializados, sino en señalar una dirección nueva: los futuros modelos fundacionales de visión podrían aprender primero la estructura del mundo mediante entrenamiento generativo a gran escala y luego, con instruction-tuning ligero, aprender a expresar esa estructura como mapas de segmentación, mapas de profundidad, mapas de normales y otros formatos de tarea.