Computer Vision on KnightLi Blog

Explicación del paper Vision Banana: los generadores de imágenes se están convirtiendo en modelos visuales generalistas

Tue, 09 Jun 2026 23:22:08 +0800

El paper Image Generators are Generalist Vision Learners plantea una idea directa: los generadores de imágenes potentes no solo “dibujan”. Durante el entrenamiento generativo, ya aprenden parte de la comprensión visual transferible que se necesita para tareas de percepción. El equipo ajusta Nano Banana Pro con instruction-tuning ligero para crear Vision Banana y lo compara con modelos especializados en segmentación, estimación de profundidad, estimación de normales de superficie y otras tareas.

Este paper merece atención no porque introduzca otro nombre de modelo visual, sino porque vuelve a conectar dos líneas que la visión por computadora ha mantenido separadas durante mucho tiempo. Antes, los modelos generativos generaban y los modelos discriminativos o especializados entendían. Vision Banana intenta demostrar que el preentrenamiento generativo también puede convertirse en la base de las tareas de comprensión, de forma parecida al preentrenamiento en modelos de lenguaje.

Método: Reescribir la comprensión visual como generación de imágenes

El diseño clave de Vision Banana consiste en parametrizar las salidas de las tareas visuales como imágenes RGB.

Por ejemplo, la segmentación semántica ya no produce class logits, sino un mapa de segmentación coloreado por clase. La segmentación de instancias representa distintas instancias con distintos colores. La estimación de profundidad genera un mapa de profundidad en falso color e invertible, que luego se decodifica desde RGB de vuelta a valores reales de profundidad métrica. La estimación de normales de superficie también codifica los vectores de dirección mediante canales RGB.

Esto tiene tres ventajas.

Primero, todas las tareas pueden resolverse mediante la misma interfaz de “generar una imagen”. Los pesos del modelo se comparten, y las diferencias principales vienen de los prompts y de la forma de codificar la salida.

Segundo, el objetivo del ajuste fino se parece más a enseñar al modelo a expresar capacidades existentes en un formato específico que a entrenar desde cero a un nuevo experto visual. El paper subraya que los datos de tareas visuales se mezclan con los datos originales de generación en una proporción muy baja.

Tercero, el modelo conserva su capacidad original de generación de imágenes. El paper lo comprueba con GenAI-Bench e ImgEdit, donde Vision Banana queda básicamente a la par de Nano Banana Pro en generación texto-a-imagen y edición de imágenes.

Resultados: Se comprime la frontera de los modelos especializados

Según la tabla principal del paper, Vision Banana alcanza o se acerca al nivel de modelos especializados en varias tareas.

En comprensión 2D, alcanza 0.738 cIoU en referring segmentation sobre RefCOCOg UMD val, ligeramente por encima del 0.734 de SAM3 Agent. En ReasonSeg val llega a 0.793 gIoU, por encima del 0.770 de SAM3 Agent. En segmentación semántica sobre Cityscapes val alcanza 0.699 mIoU, frente al 0.652 de SAM3.

La segmentación de instancias no es una victoria total. En un subconjunto aleatorio de 500 consultas de SA-Co/Gold, Vision Banana obtiene 0.540, un poco por debajo del 0.552 de DINO-X. Ese detalle hace que la conclusión sea más creíble: el paper no fuerza una victoria en todas las tablas, sino que muestra tanto el techo como las debilidades actuales de una interfaz generativa unificada.

En comprensión 3D, el resultado es todavía más interesante. El paper informa que Vision Banana alcanza un promedio de 0.929 en cuatro datasets de estimación de profundidad, por encima del 0.918 de Depth Anything 3. En estimación de normales de superficie, su error angular medio es de 18.928 grados, por debajo de los 19.642 grados de Lotus-2. Para un modelo adaptado a partir de un generador de imágenes, esto sugiere que el preentrenamiento generativo puede aprender fuertes priors sobre escala de objetos, estructura espacial y geometría de escenas.

El cambio real: La generación como interfaz unificada

Lo más importante del paper no es cuánto gana una métrica concreta, sino la elección de interfaz: las tareas visuales no tienen por qué producir necesariamente boxes, masks, depth tensor o normal vector. También pueden producir imágenes decodificables.

Esto se parece al camino que siguieron los modelos de lenguaje. Muchas tareas de lenguaje terminaron reformuladas como “dado un contexto, generar texto”. Vision Banana intenta reformular las tareas visuales como “dada una imagen y una instrucción, generar una imagen en un formato verificable”.

Si esta dirección se mantiene, la forma de ingeniería de los modelos visuales puede cambiar. Antes, cada tarea tenía su propia cabeza, función de pérdida, pipeline de datos y método de evaluación. En el futuro, podríamos ver una base generativa fuerte junto con un protocolo de formato de tareas. La capacidad del modelo no solo se mediría por si una imagen se ve bien, sino por si puede producir resultados cuantificables en un formato restringido y verificable.

Puntos donde conviene ser prudente

Primero, Vision Banana sigue dependiendo de Nano Banana Pro, una base cerrada y muy potente. El paper puede demostrar que esa base contiene capacidad visual general, pero no demuestra directamente que todos los generadores de imágenes tengan el mismo nivel de capacidad.

Segundo, la comprensión visual generativa puede ser costosa. El propio paper señala que usar generadores como Nano Banana Pro para tareas visuales tiene un coste computacional claramente mayor que ejecutar modelos especializados ligeros. En móviles, robótica en tiempo real, conducción autónoma y escenarios similares, la latencia y el coste siguen siendo restricciones duras.

Tercero, codificar salidas como imágenes RGB ofrece una interfaz unificada elegante, pero también crea nuevos problemas de ingeniería. La decodificación de colores, el seguimiento de prompts, la precisión de bordes, la estabilidad numérica y la reproducibilidad de la evaluación pueden afectar el resultado final. Cuanta más libertad tenga un modelo generativo, más importantes serán las restricciones estrictas de salida.

Cuarto, la evaluación actual se concentra sobre todo en entradas de una sola imagen y tareas visuales fundamentales. Todavía hacen falta más experimentos para saber si el mismo paradigma se extiende bien a entradas multivista, video, comprensión física de largo horizonte y razonamiento multimodal.

Conclusión

Vision Banana envía una señal fuerte a la visión por computadora: el preentrenamiento de generación de imágenes quizá no sea solo una capacidad de producción de contenido. También puede ser una fuente de comprensión visual.

Su valor no está en reemplazar de inmediato todos los modelos visuales especializados, sino en señalar una dirección nueva: los futuros modelos fundacionales de visión podrían aprender primero la estructura del mundo mediante entrenamiento generativo a gran escala y luego, con instruction-tuning ligero, aprender a expresar esa estructura como mapas de segmentación, mapas de profundidad, mapas de normales y otros formatos de tarea.

Si esta tendencia continúa, la visión por computadora se parecerá cada vez más al ecosistema actual de modelos de lenguaje. Los modelos base absorben conocimiento del mundo a gran escala, las interfaces de tarea formatean esa capacidad, y los modelos especializados se desplazan más hacia la eficiencia, el bajo coste y la optimización para escenarios concretos.

Qué es la vectorización de imágenes: de píxeles a representaciones vectoriales buscables y analizables

Thu, 23 Apr 2026 15:08:19 +0800

Ya hay una cantidad enorme de imágenes por todas partes, pero las imágenes no se convierten automáticamente en algo que un sistema pueda entender o usar bien.

Para las personas es fácil mirar una imagen y saber si contiene un gato, si muestra el mismo producto o si revela cierto defecto. Para un sistema, una imagen cruda empieza como una cuadrícula de píxeles. Sin procesamiento adicional, se parece más a una pila de puntos de colores que a un dato que pueda buscarse, agruparse, recomendarse o reconocerse directamente.

La vectorización de imágenes resuelve ese paso. Convierte imágenes desde archivos basados en píxeles a representaciones vectoriales que las máquinas pueden comparar y calcular eficientemente. Muchas capacidades como búsqueda imagen-a-imagen, recomendación de imágenes similares, recuperación visual, clustering y comprensión multimodal dependen de esta capa.

1. Qué significa realmente vectorizar una imagen

La forma más corta de decirlo:

la vectorización convierte una imagen en un vector numérico que captura sus características visuales.

Ese vector no está pensado para ser leído por humanos. Está pensado para modelos y sistemas de recuperación. Su valor es que una imagen deja de ser solo un archivo y se vuelve un objeto que puede participar en comparación de similitud, ranking y cómputo.

Toma una foto de un gato. En bruto, el archivo guarda píxeles. Tras vectorizar, el sistema obtiene un vector numérico de longitud fija. El vector no dice literalmente “esto es un gato”, pero codifica forma, textura, distribución de color, estructura local y semántica de nivel superior. Eso permite calcular distancias con otras imágenes y decidir cuáles son más similares.

La vectorización no cambia principalmente la imagen. Cambia cómo el sistema puede procesarla.

2. Por qué los píxeles crudos no bastan para búsqueda y análisis

Los píxeles crudos pueden compararse, pero con eficacia y eficiencia limitadas.

Problemas principales:

la dimensionalidad es alta, así que comparar directamente es caro
similitud de píxeles no equivale a similitud semántica
iluminación, recorte, fondo y resolución pueden distorsionar el resultado

Ejemplo típico: recuperación de imágenes de producto. Dos fotos pueden representar claramente el mismo artículo para una persona aunque cambien ángulo, fondo o tamaño. Si el sistema compara solo píxeles, puede juzgarlas como imágenes totalmente distintas.

El propósito de la vectorización es mover la definición de similitud desde píxeles crudos hacia similitud semántica y estructural.

3. Cómo suele hacerse

En la práctica, rara vez es un solo paso. Suele ser una pipeline:

preprocesar la imagen
extraer características
comprimirlas en un vector de longitud fija
guardar el vector en una base vectorial o sistema de recuperación

Cada etapa afecta la calidad final.

1. Preprocesamiento

Incluye cosas como:

redimensionar la imagen
normalizar la entrada
retirar parte del ruido
unificar formato de color o estructura de entrada

No busca embellecer visualmente. Busca estabilizar la entrada del modelo.

2. Extracción de características

Es el núcleo de la vectorización.

Enfoques anteriores dependían más de características diseñadas a mano como SIFT, SURF y HOG, buenas para bordes, esquinas y estructuras locales. Hoy se usan mucho más modelos deep learning:

ResNet
VGG
Inception
ViT
CLIP

Estos modelos codifican imágenes en características visuales más abstractas y de mayor nivel. Frente a feature engineering tradicional, expresan mejor la semántica y sirven más para búsqueda de similitud, comprensión multimodal y clustering a gran escala.

3. Generación del vector

Tras extraer características, el sistema suele comprimir la representación interna en un vector de longitud fija, por ejemplo 512, 768 o 1024 dimensiones.

Más dimensiones no siempre es mejor. El problema real es equilibrar poder representacional, coste de almacenamiento y velocidad de recuperación.

4. Almacenamiento y recuperación

Una vez generado, el vector ya no se gestiona como un archivo de imagen normal. Entra en un sistema con recuperación vectorial, como:

Faiss
Milvus
sistemas de búsqueda con capacidades vectoriales

Entonces la imagen puede participar en nearest-neighbor search aproximado, clustering y ranking por similitud.

4. Cómo evolucionó la ruta técnica

La vectorización de imágenes no es nueva. Lo que cambió en años recientes es calidad y amplitud de aplicaciones.

Tres etapas:

1. Feature engineering tradicional

El foco estaba en características definidas manualmente: bordes, texturas, esquinas y descriptores locales. Era maduro e interpretable, pero con comprensión semántica limitada en escenas complejas.

2. Etapa impulsada por CNN

Las redes convolucionales permitieron aprender características automáticamente. Frente a features manuales, capturaban representaciones visuales más ricas y estables para clasificación, reconocimiento y búsqueda de similitud.

3. Etapa Transformer y multimodal

Esta etapa empujó la vectorización más allá de features visuales hacia alineación semántica imagen-texto. Modelos como ViT y CLIP no solo reconocen imágenes. Permiten que imágenes entren en sistemas multimodales mayores y trabajen con texto, etiquetas y bases de conocimiento.

Por eso muchos sistemas actuales ya no se limitan a búsqueda imagen-a-imagen. También soportan text-to-image o recuperación mixta imagen-texto.

5. Escenarios de aplicación comunes

1. Recuperación de imágenes similares

Es el caso más intuitivo.

Con imágenes convertidas a vectores, los sistemas pueden hacer:

búsqueda imagen-a-imagen
detección de duplicados
matching de productos similares
deduplicación visual

Común en e-commerce, plataformas de contenido y sistemas de assets multimedia.

2. Sistemas de recomendación

Muchas recomendaciones preguntan si una imagen se parece a lo que el usuario acaba de ver.

Tras vectorizar, el contenido de la imagen puede entrar en la lógica de recomendación, no depender solo de etiquetas o categorías manuales. Es valioso para recomendación de productos, contenido y anuncios.

3. Clustering y clasificación automática

Cuando las colecciones crecen, organizar manualmente es lento.

Con vectorización, las imágenes pueden agruparse por similitud para:

archivado
agrupación de escenas
organización de materiales
sugerencias automáticas de tags

Común en manufactura, salud, educación y gestión de contenido.

4. Detección de anomalías e inspección de calidad

Si las muestras normales ya tienen representación vectorial estable, las imágenes que se desvían de la distribución normal son más fáciles de detectar.

Ejemplos:

detección de defectos industriales
reconocimiento de anomalías en vigilancia
screening anómalo de documentos o imágenes médicas

La vectorización no produce directamente el juicio final. Convierte la imagen en entrada más fácil de comparar y modelar.

5. Recuperación multimodal y comprensión imagen-texto

Es una de las áreas más importantes hoy.

Cuando imágenes y texto se codifican en espacios vectoriales cercanos, los sistemas pueden soportar:

búsqueda text-to-image
alineación imagen-texto
recuperación de contenido visual
recuperación multimodal de conocimiento

Estas capacidades conectan naturalmente con sistemas generativos actuales, pipelines de visual question answering y workflows empresariales RAG.

6. Qué deben manejar realmente las empresas

En teoría suena fluido, pero la parte difícil suele estar en detalles:

1. Equilibrar dimensión vectorial y coste

Si el vector es demasiado pequeño, representa peor. Si es demasiado grande, suben costes de almacenamiento y recuperación. No hay respuesta universal; depende del tamaño de datos, latencia y precisión objetivo.

2. Si el modelo generaliza entre escenarios

Un modelo que funciona en datasets públicos quizá no funcione igual con tus imágenes. Fotos de producto, imágenes industriales, médicas y vigilancia difieren mucho.

3. Si el sistema escala

Cuando las imágenes pasan de miles a millones, generar vectores es solo la primera mitad. Diseño de índices, estrategia de recall, actualizaciones y rendimiento online definen la experiencia.

4. La vectorización no es el loop de negocio completo

Convierte imágenes en objetos computables, pero no es solución completa. Luego necesitas:

lógica de recuperación
sistema de etiquetas
criterios de evaluación
revisión humana
integración con sistemas de negocio

Sin eso, los vectores no crean valor automáticamente.

7. Cómo pensar su valor real

Desde lo técnico puede sonar bajo nivel. Desde negocio, el valor es concreto:

da buscabilidad a imágenes
mueve similitud desde píxeles a semántica
permite que imágenes entren en recomendación, recuperación, clustering y reconocimiento
convierte datos visuales en algo que participa en análisis y automatización

Puedes verlo como la entrada estándar de datos visuales a sistemas AI. Sin ella, muchas capacidades se quedan en gestión de archivos. Con ella, las imágenes empiezan a ser activos de datos.

Conclusión

La vectorización de imágenes no es un truco aislado. Es una capa básica en sistemas modernos de visión.

Lo que hace no es misterioso: convierte imágenes desde píxeles a representaciones vectoriales que pueden buscarse, compararse y analizarse. Pero ese paso determina si las imágenes pueden entrar realmente en pipelines de AI, búsqueda, recomendación y aplicaciones multimodales.

Si recuerdas una frase:

la esencia de la vectorización de imágenes no es comprimir imágenes, sino convertirlas en una representación que las máquinas puedan usar.