Explicación del paper Vision Banana: los generadores de imágenes se están convirtiendo en modelos visuales generalistas