Vision Banana 論文解讀：圖像生成器正在變成通用視覺模型

論文 Image Generators are Generalist Vision Learners 的核心判斷很直接：強圖像生成器不只是會「畫圖」，它們在生成訓練中已經學到一部分可遷移的視覺理解能力。研究團隊把 Nano Banana Pro 經過輕量指令微調後得到 Vision Banana，並讓它在分割、深度估計、表面法線估計等任務上與專用模型對比。

這篇論文值得關注，不是因為它又提出了一個視覺模型名字，而是因為它把計算機視覺裡長期分開的兩條路線重新接到了一起：過去生成模型負責生成，判別式或專用模型負責理解；Vision Banana 試圖證明，生成預訓練也可以像語言模型預訓練一樣，成為理解任務的底座。

方法：把視覺理解改寫成圖像生成

Vision Banana 的關鍵設計，是把視覺任務的輸出統一參數化為 RGB 圖像。

例如語義分割不再輸出類別 logits，而是生成一張按類別著色的分割圖；實例分割讓不同實例呈現不同顏色；深度估計則生成一張可逆的偽彩色深度圖，再把 RGB 反解回真實深度數值；表面法線估計也用 RGB 通道編碼方向向量。

這樣做有三個好處。

第一，所有任務都可以透過同一個「生成圖像」的介面完成，模型權重共享，變化主要來自提示詞和輸出編碼方式。

第二，微調目標更像「教模型按指定格式表達已有能力」，而不是從零訓練一個新的視覺專家。論文中特別強調，視覺任務資料只以很低比例混入原有生成訓練資料。

第三，模型仍保留原來的圖像生成能力。論文用 GenAI-Bench 和 ImgEdit 做了檢查，Vision Banana 在文字生圖和圖像編輯上基本與 Nano Banana Pro 持平。

結果：專用模型的邊界被壓縮了

從論文給出的主表看，Vision Banana 在多個任務上達到或接近當時專用模型的水平。

在 2D 理解任務中，它在 RefCOCOg UMD val 的 referring segmentation 上達到 0.738 cIoU，略高於 SAM3 Agent 的 0.734；在 ReasonSeg val 上達到 0.793 gIoU，高於 SAM3 Agent 的 0.770；在 Cityscapes val 語義分割上達到 0.699 mIoU，高於 SAM3 的 0.652。

實例分割不是完全碾壓。論文在 SA-Co/Gold 的隨機 500 個查詢子集上評估，Vision Banana 為 0.540，略低於 DINO-X 的 0.552。這一點反而讓結論更可信：它不是在所有表格裡強行贏，而是在展示統一生成介面的上限和短板。

在 3D 理解上，Vision Banana 的表現更有意思。論文報告它在 4 個深度估計資料集上的平均指標達到 0.929，高於 Depth Anything 3 的 0.918；表面法線估計平均角度誤差為 18.928 度，低於 Lotus-2 的 19.642 度。對於一個從圖像生成器改造來的模型，這說明生成預訓練確實可能學到物體尺度、空間結構和場景幾何的強先驗。

真正的變化：生成成為統一介面

這篇論文最重要的地方，不是某個單項指標贏了多少，而是它給出了一個簡單但激進的介面選擇：視覺任務不一定要輸出框、mask、depth tensor 或 normal vector，也可以統一輸出可解碼圖像。

這和語言模型的發展有相似之處。很多語言任務最終都被改寫成「給定上下文，生成文字」。Vision Banana 試圖把視覺任務也改寫成「給定圖像和指令，生成一張符合格式的圖像」。

如果這個方向繼續成立，視覺模型的工程形態可能會改變。過去每個任務都有自己的頭部、損失函數、資料管線和評估方式；未來更可能出現一個強生成底座，加上一套任務格式化協議。模型的能力不只體現在像不像、清不清晰，也體現在能不能按可驗證格式輸出可量化結果。

需要保持謹慎的地方

第一，Vision Banana 仍然依賴強大的閉源生成底座 Nano Banana Pro。論文能證明「這個底座裡有通用視覺能力」，但不能直接證明所有圖像生成器都有同等能力。

第二，生成式視覺理解的成本可能更高。論文也提到，使用 Nano Banana Pro 這類圖像生成器做視覺任務，計算開銷明顯高於輕量專用模型。對於行動端、即時機器人、自動駕駛等場景，延遲和成本會成為硬約束。

第三，把輸出編碼成 RGB 圖像帶來了優雅的統一介面，也帶來了新的工程問題。顏色解碼、提示遵循、邊界精度、數值穩定性和評估可重複性，都會影響最終結果。生成模型的自由度越大，越需要嚴格的輸出約束。

第四，當前評估主要集中在單圖像輸入和基礎視覺任務。多視角、影片、長時序物理理解、跨模態推理是否也能用同一範式擴展，還需要更多實驗。

結論

Vision Banana 給計算機視覺提供了一個強訊號：圖像生成預訓練可能不只是內容生產能力，也可能是視覺理解能力的來源。

它的價值不在於立刻替代所有專用視覺模型，而在於提示了一個新方向：未來的視覺基礎模型可能先透過大規模生成訓練學習世界結構，再透過輕量指令微調學會把這些結構以分割圖、深度圖、法線圖等形式表達出來。

如果這個趨勢繼續推進，計算機視覺會越來越像今天的語言模型生態：底座模型負責吸收大規模世界知識，任務介面負責把能力格式化，專用模型則更多退到高效率、低成本和特定場景優化的位置。