Vision Banana 论文解读：图像生成器正在变成通用视觉模型

Tue, 09 Jun 2026 23:22:08 +0800

论文 Image Generators are Generalist Vision Learners 的核心判断很直接：强图像生成器不只是会“画图”，它们在生成训练中已经学到一部分可迁移的视觉理解能力。研究团队把 Nano Banana Pro 经过轻量指令微调后得到 Vision Banana，并让它在分割、深度估计、表面法线估计等任务上与专用模型对比。

这篇论文值得关注，不是因为它又提出了一个视觉模型名字，而是因为它把计算机视觉里长期分开的两条路线重新接到了一起：过去生成模型负责生成，判别式或专用模型负责理解；Vision Banana 试图证明，生成预训练也可以像语言模型预训练一样，成为理解任务的底座。

方法：把视觉理解改写成图像生成

Vision Banana 的关键设计，是把视觉任务的输出统一参数化为 RGB 图像。

例如语义分割不再输出类别 logits，而是生成一张按类别着色的分割图；实例分割让不同实例呈现不同颜色；深度估计则生成一张可逆的伪彩色深度图，再把 RGB 反解回真实深度数值；表面法线估计也用 RGB 通道编码方向向量。

这样做有三个好处。

第一，所有任务都可以通过同一个“生成图像”的接口完成，模型权重共享，变化主要来自提示词和输出编码方式。

第二，微调目标更像“教模型按指定格式表达已有能力”，而不是从零训练一个新的视觉专家。论文中特别强调，视觉任务数据只以很低比例混入原有生成训练数据。

第三，模型仍保留原来的图像生成能力。论文用 GenAI-Bench 和 ImgEdit 做了检查，Vision Banana 在文本生图和图像编辑上基本与 Nano Banana Pro 持平。

结果：专用模型的边界被压缩了

从论文给出的主表看，Vision Banana 在多个任务上达到或接近当时专用模型的水平。

在 2D 理解任务中，它在 RefCOCOg UMD val 的 referring segmentation 上达到 0.738 cIoU，略高于 SAM3 Agent 的 0.734；在 ReasonSeg val 上达到 0.793 gIoU，高于 SAM3 Agent 的 0.770；在 Cityscapes val 语义分割上达到 0.699 mIoU，高于 SAM3 的 0.652。

实例分割不是完全碾压。论文在 SA-Co/Gold 的随机 500 个查询子集上评估，Vision Banana 为 0.540，略低于 DINO-X 的 0.552。这一点反而让结论更可信：它不是在所有表格里强行赢，而是在展示统一生成接口的上限和短板。

在 3D 理解上，Vision Banana 的表现更有意思。论文报告它在 4 个深度估计数据集上的平均指标达到 0.929，高于 Depth Anything 3 的 0.918；表面法线估计平均角度误差为 18.928 度，低于 Lotus-2 的 19.642 度。对于一个从图像生成器改造来的模型，这说明生成预训练确实可能学到物体尺度、空间结构和场景几何的强先验。

真正的变化：生成成为统一接口

这篇论文最重要的地方，不是某个单项指标赢了多少，而是它给出了一个简单但激进的接口选择：视觉任务不一定要输出框、mask、depth tensor 或 normal vector，也可以统一输出可解码图像。

这和语言模型的发展有相似之处。很多语言任务最终都被改写成“给定上下文，生成文本”。Vision Banana 试图把视觉任务也改写成“给定图像和指令，生成一张符合格式的图像”。

如果这个方向继续成立，视觉模型的工程形态可能会改变。过去每个任务都有自己的头部、损失函数、数据管线和评估方式；未来更可能出现一个强生成底座，加上一套任务格式化协议。模型的能力不只体现在像不像、清不清晰，也体现在能不能按可验证格式输出可量化结果。

需要保持谨慎的地方

第一，Vision Banana 仍然依赖强大的闭源生成底座 Nano Banana Pro。论文能证明“这个底座里有通用视觉能力”，但不能直接证明所有图像生成器都有同等能力。

第二，生成式视觉理解的成本可能更高。论文也提到，使用 Nano Banana Pro 这类图像生成器做视觉任务，计算开销明显高于轻量专用模型。对于移动端、实时机器人、自动驾驶等场景，延迟和成本会成为硬约束。

第三，把输出编码成 RGB 图像带来了优雅的统一接口，也带来了新的工程问题。颜色解码、提示遵循、边界精度、数值稳定性和评估可重复性，都会影响最终结果。生成模型的自由度越大，越需要严格的输出约束。

第四，当前评估主要集中在单图像输入和基础视觉任务。多视角、视频、长时序物理理解、跨模态推理是否也能用同一范式扩展，还需要更多实验。

结论

Vision Banana 给计算机视觉提供了一个强信号：图像生成预训练可能不只是内容生产能力，也可能是视觉理解能力的来源。

它的价值不在于立刻替代所有专用视觉模型，而在于提示了一个新方向：未来的视觉基础模型可能先通过大规模生成训练学习世界结构，再通过轻量指令微调学会把这些结构以分割图、深度图、法线图等形式表达出来。

如果这个趋势继续推进，计算机视觉会越来越像今天的语言模型生态：底座模型负责吸收大规模世界知识，任务接口负责把能力格式化，专用模型则更多退到高效率、低成本和特定场景优化的位置。

多模态AI on KnightLi的博客

Vision Banana 论文解读：图像生成器正在变成通用视觉模型

方法：把视觉理解改写成图像生成

结果：专用模型的边界被压缩了

真正的变化：生成成为统一接口

需要保持谨慎的地方

结论