论文 Image Generators are Generalist Vision Learners 的核心判断很直接:强图像生成器不只是会“画图”,它们在生成训练中已经学到一部分可迁移的视觉理解能力。研究团队把 Nano Banana Pro 经过轻量指令微调后得到 Vision Banana,并让它在分割、深度估计、表面法线估计等任务上与专用模型对比。
这篇论文值得关注,不是因为它又提出了一个视觉模型名字,而是因为它把计算机视觉里长期分开的两条路线重新接到了一起:过去生成模型负责生成,判别式或专用模型负责理解;Vision Banana 试图证明,生成预训练也可以像语言模型预训练一样,成为理解任务的底座。
方法:把视觉理解改写成图像生成
Vision Banana 的关键设计,是把视觉任务的输出统一参数化为 RGB 图像。
例如语义分割不再输出类别 logits,而是生成一张按类别着色的分割图;实例分割让不同实例呈现不同颜色;深度估计则生成一张可逆的伪彩色深度图,再把 RGB 反解回真实深度数值;表面法线估计也用 RGB 通道编码方向向量。
这样做有三个好处。
第一,所有任务都可以通过同一个“生成图像”的接口完成,模型权重共享,变化主要来自提示词和输出编码方式。
第二,微调目标更像“教模型按指定格式表达已有能力”,而不是从零训练一个新的视觉专家。论文中特别强调,视觉任务数据只以很低比例混入原有生成训练数据。
第三,模型仍保留原来的图像生成能力。论文用 GenAI-Bench 和 ImgEdit 做了检查,Vision Banana 在文本生图和图像编辑上基本与 Nano Banana Pro 持平。
结果:专用模型的边界被压缩了
从论文给出的主表看,Vision Banana 在多个任务上达到或接近当时专用模型的水平。
在 2D 理解任务中,它在 RefCOCOg UMD val 的 referring segmentation 上达到 0.738 cIoU,略高于 SAM3 Agent 的 0.734;在 ReasonSeg val 上达到 0.793 gIoU,高于 SAM3 Agent 的 0.770;在 Cityscapes val 语义分割上达到 0.699 mIoU,高于 SAM3 的 0.652。
实例分割不是完全碾压。论文在 SA-Co/Gold 的随机 500 个查询子集上评估,Vision Banana 为 0.540,略低于 DINO-X 的 0.552。这一点反而让结论更可信:它不是在所有表格里强行赢,而是在展示统一生成接口的上限和短板。
在 3D 理解上,Vision Banana 的表现更有意思。论文报告它在 4 个深度估计数据集上的平均指标达到 0.929,高于 Depth Anything 3 的 0.918;表面法线估计平均角度误差为 18.928 度,低于 Lotus-2 的 19.642 度。对于一个从图像生成器改造来的模型,这说明生成预训练确实可能学到物体尺度、空间结构和场景几何的强先验。
真正的变化:生成成为统一接口
这篇论文最重要的地方,不是某个单项指标赢了多少,而是它给出了一个简单但激进的接口选择:视觉任务不一定要输出框、mask、depth tensor 或 normal vector,也可以统一输出可解码图像。
这和语言模型的发展有相似之处。很多语言任务最终都被改写成“给定上下文,生成文本”。Vision Banana 试图把视觉任务也改写成“给定图像和指令,生成一张符合格式的图像”。
如果这个方向继续成立,视觉模型的工程形态可能会改变。过去每个任务都有自己的头部、损失函数、数据管线和评估方式;未来更可能出现一个强生成底座,加上一套任务格式化协议。模型的能力不只体现在像不像、清不清晰,也体现在能不能按可验证格式输出可量化结果。
需要保持谨慎的地方
第一,Vision Banana 仍然依赖强大的闭源生成底座 Nano Banana Pro。论文能证明“这个底座里有通用视觉能力”,但不能直接证明所有图像生成器都有同等能力。
第二,生成式视觉理解的成本可能更高。论文也提到,使用 Nano Banana Pro 这类图像生成器做视觉任务,计算开销明显高于轻量专用模型。对于移动端、实时机器人、自动驾驶等场景,延迟和成本会成为硬约束。
第三,把输出编码成 RGB 图像带来了优雅的统一接口,也带来了新的工程问题。颜色解码、提示遵循、边界精度、数值稳定性和评估可重复性,都会影响最终结果。生成模型的自由度越大,越需要严格的输出约束。
第四,当前评估主要集中在单图像输入和基础视觉任务。多视角、视频、长时序物理理解、跨模态推理是否也能用同一范式扩展,还需要更多实验。
结论
Vision Banana 给计算机视觉提供了一个强信号:图像生成预训练可能不只是内容生产能力,也可能是视觉理解能力的来源。
它的价值不在于立刻替代所有专用视觉模型,而在于提示了一个新方向:未来的视觉基础模型可能先通过大规模生成训练学习世界结构,再通过轻量指令微调学会把这些结构以分割图、深度图、法线图等形式表达出来。
如果这个趋势继续推进,计算机视觉会越来越像今天的语言模型生态:底座模型负责吸收大规模世界知识,任务接口负责把能力格式化,专用模型则更多退到高效率、低成本和特定场景优化的位置。