論文 Image Generators are Generalist Vision Learners 的核心判斷很直接:強圖像生成器不只是會「畫圖」,它們在生成訓練中已經學到一部分可遷移的視覺理解能力。研究團隊把 Nano Banana Pro 經過輕量指令微調後得到 Vision Banana,並讓它在分割、深度估計、表面法線估計等任務上與專用模型對比。
這篇論文值得關注,不是因為它又提出了一個視覺模型名字,而是因為它把計算機視覺裡長期分開的兩條路線重新接到了一起:過去生成模型負責生成,判別式或專用模型負責理解;Vision Banana 試圖證明,生成預訓練也可以像語言模型預訓練一樣,成為理解任務的底座。
方法:把視覺理解改寫成圖像生成
Vision Banana 的關鍵設計,是把視覺任務的輸出統一參數化為 RGB 圖像。
例如語義分割不再輸出類別 logits,而是生成一張按類別著色的分割圖;實例分割讓不同實例呈現不同顏色;深度估計則生成一張可逆的偽彩色深度圖,再把 RGB 反解回真實深度數值;表面法線估計也用 RGB 通道編碼方向向量。
這樣做有三個好處。
第一,所有任務都可以透過同一個「生成圖像」的介面完成,模型權重共享,變化主要來自提示詞和輸出編碼方式。
第二,微調目標更像「教模型按指定格式表達已有能力」,而不是從零訓練一個新的視覺專家。論文中特別強調,視覺任務資料只以很低比例混入原有生成訓練資料。
第三,模型仍保留原來的圖像生成能力。論文用 GenAI-Bench 和 ImgEdit 做了檢查,Vision Banana 在文字生圖和圖像編輯上基本與 Nano Banana Pro 持平。
結果:專用模型的邊界被壓縮了
從論文給出的主表看,Vision Banana 在多個任務上達到或接近當時專用模型的水平。
在 2D 理解任務中,它在 RefCOCOg UMD val 的 referring segmentation 上達到 0.738 cIoU,略高於 SAM3 Agent 的 0.734;在 ReasonSeg val 上達到 0.793 gIoU,高於 SAM3 Agent 的 0.770;在 Cityscapes val 語義分割上達到 0.699 mIoU,高於 SAM3 的 0.652。
實例分割不是完全碾壓。論文在 SA-Co/Gold 的隨機 500 個查詢子集上評估,Vision Banana 為 0.540,略低於 DINO-X 的 0.552。這一點反而讓結論更可信:它不是在所有表格裡強行贏,而是在展示統一生成介面的上限和短板。
在 3D 理解上,Vision Banana 的表現更有意思。論文報告它在 4 個深度估計資料集上的平均指標達到 0.929,高於 Depth Anything 3 的 0.918;表面法線估計平均角度誤差為 18.928 度,低於 Lotus-2 的 19.642 度。對於一個從圖像生成器改造來的模型,這說明生成預訓練確實可能學到物體尺度、空間結構和場景幾何的強先驗。
真正的變化:生成成為統一介面
這篇論文最重要的地方,不是某個單項指標贏了多少,而是它給出了一個簡單但激進的介面選擇:視覺任務不一定要輸出框、mask、depth tensor 或 normal vector,也可以統一輸出可解碼圖像。
這和語言模型的發展有相似之處。很多語言任務最終都被改寫成「給定上下文,生成文字」。Vision Banana 試圖把視覺任務也改寫成「給定圖像和指令,生成一張符合格式的圖像」。
如果這個方向繼續成立,視覺模型的工程形態可能會改變。過去每個任務都有自己的頭部、損失函數、資料管線和評估方式;未來更可能出現一個強生成底座,加上一套任務格式化協議。模型的能力不只體現在像不像、清不清晰,也體現在能不能按可驗證格式輸出可量化結果。
需要保持謹慎的地方
第一,Vision Banana 仍然依賴強大的閉源生成底座 Nano Banana Pro。論文能證明「這個底座裡有通用視覺能力」,但不能直接證明所有圖像生成器都有同等能力。
第二,生成式視覺理解的成本可能更高。論文也提到,使用 Nano Banana Pro 這類圖像生成器做視覺任務,計算開銷明顯高於輕量專用模型。對於行動端、即時機器人、自動駕駛等場景,延遲和成本會成為硬約束。
第三,把輸出編碼成 RGB 圖像帶來了優雅的統一介面,也帶來了新的工程問題。顏色解碼、提示遵循、邊界精度、數值穩定性和評估可重複性,都會影響最終結果。生成模型的自由度越大,越需要嚴格的輸出約束。
第四,當前評估主要集中在單圖像輸入和基礎視覺任務。多視角、影片、長時序物理理解、跨模態推理是否也能用同一範式擴展,還需要更多實驗。
結論
Vision Banana 給計算機視覺提供了一個強訊號:圖像生成預訓練可能不只是內容生產能力,也可能是視覺理解能力的來源。
它的價值不在於立刻替代所有專用視覺模型,而在於提示了一個新方向:未來的視覺基礎模型可能先透過大規模生成訓練學習世界結構,再透過輕量指令微調學會把這些結構以分割圖、深度圖、法線圖等形式表達出來。
如果這個趨勢繼續推進,計算機視覺會越來越像今天的語言模型生態:底座模型負責吸收大規模世界知識,任務介面負責把能力格式化,專用模型則更多退到高效率、低成本和特定場景優化的位置。