<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>計算機視覺 on KnightLi的博客</title>
        <link>https://knightli.com/zh-tw/tags/%E8%A8%88%E7%AE%97%E6%A9%9F%E8%A6%96%E8%A6%BA/</link>
        <description>Recent content in 計算機視覺 on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-tw</language>
        <lastBuildDate>Tue, 09 Jun 2026 23:22:08 +0800</lastBuildDate><atom:link href="https://knightli.com/zh-tw/tags/%E8%A8%88%E7%AE%97%E6%A9%9F%E8%A6%96%E8%A6%BA/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>Vision Banana 論文解讀：圖像生成器正在變成通用視覺模型</title>
        <link>https://knightli.com/zh-tw/2026/06/09/vision-banana-image-generators-generalist-vision-learners/</link>
        <pubDate>Tue, 09 Jun 2026 23:22:08 +0800</pubDate>
        
        <guid>https://knightli.com/zh-tw/2026/06/09/vision-banana-image-generators-generalist-vision-learners/</guid>
        <description>&lt;p&gt;論文 &lt;a class=&#34;link&#34; href=&#34;https://arxiv.org/html/2604.20329v1&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Image Generators are Generalist Vision Learners&lt;/a&gt; 的核心判斷很直接：強圖像生成器不只是會「畫圖」，它們在生成訓練中已經學到一部分可遷移的視覺理解能力。研究團隊把 Nano Banana Pro 經過輕量指令微調後得到 Vision Banana，並讓它在分割、深度估計、表面法線估計等任務上與專用模型對比。&lt;/p&gt;
&lt;p&gt;這篇論文值得關注，不是因為它又提出了一個視覺模型名字，而是因為它把計算機視覺裡長期分開的兩條路線重新接到了一起：過去生成模型負責生成，判別式或專用模型負責理解；Vision Banana 試圖證明，生成預訓練也可以像語言模型預訓練一樣，成為理解任務的底座。&lt;/p&gt;
&lt;h2 id=&#34;方法把視覺理解改寫成圖像生成&#34;&gt;方法：把視覺理解改寫成圖像生成
&lt;/h2&gt;&lt;p&gt;Vision Banana 的關鍵設計，是把視覺任務的輸出統一參數化為 RGB 圖像。&lt;/p&gt;
&lt;p&gt;例如語義分割不再輸出類別 logits，而是生成一張按類別著色的分割圖；實例分割讓不同實例呈現不同顏色；深度估計則生成一張可逆的偽彩色深度圖，再把 RGB 反解回真實深度數值；表面法線估計也用 RGB 通道編碼方向向量。&lt;/p&gt;
&lt;p&gt;這樣做有三個好處。&lt;/p&gt;
&lt;p&gt;第一，所有任務都可以透過同一個「生成圖像」的介面完成，模型權重共享，變化主要來自提示詞和輸出編碼方式。&lt;/p&gt;
&lt;p&gt;第二，微調目標更像「教模型按指定格式表達已有能力」，而不是從零訓練一個新的視覺專家。論文中特別強調，視覺任務資料只以很低比例混入原有生成訓練資料。&lt;/p&gt;
&lt;p&gt;第三，模型仍保留原來的圖像生成能力。論文用 GenAI-Bench 和 ImgEdit 做了檢查，Vision Banana 在文字生圖和圖像編輯上基本與 Nano Banana Pro 持平。&lt;/p&gt;
&lt;h2 id=&#34;結果專用模型的邊界被壓縮了&#34;&gt;結果：專用模型的邊界被壓縮了
&lt;/h2&gt;&lt;p&gt;從論文給出的主表看，Vision Banana 在多個任務上達到或接近當時專用模型的水平。&lt;/p&gt;
&lt;p&gt;在 2D 理解任務中，它在 RefCOCOg UMD val 的 referring segmentation 上達到 0.738 cIoU，略高於 SAM3 Agent 的 0.734；在 ReasonSeg val 上達到 0.793 gIoU，高於 SAM3 Agent 的 0.770；在 Cityscapes val 語義分割上達到 0.699 mIoU，高於 SAM3 的 0.652。&lt;/p&gt;
&lt;p&gt;實例分割不是完全碾壓。論文在 SA-Co/Gold 的隨機 500 個查詢子集上評估，Vision Banana 為 0.540，略低於 DINO-X 的 0.552。這一點反而讓結論更可信：它不是在所有表格裡強行贏，而是在展示統一生成介面的上限和短板。&lt;/p&gt;
&lt;p&gt;在 3D 理解上，Vision Banana 的表現更有意思。論文報告它在 4 個深度估計資料集上的平均指標達到 0.929，高於 Depth Anything 3 的 0.918；表面法線估計平均角度誤差為 18.928 度，低於 Lotus-2 的 19.642 度。對於一個從圖像生成器改造來的模型，這說明生成預訓練確實可能學到物體尺度、空間結構和場景幾何的強先驗。&lt;/p&gt;
&lt;h2 id=&#34;真正的變化生成成為統一介面&#34;&gt;真正的變化：生成成為統一介面
&lt;/h2&gt;&lt;p&gt;這篇論文最重要的地方，不是某個單項指標贏了多少，而是它給出了一個簡單但激進的介面選擇：視覺任務不一定要輸出框、mask、depth tensor 或 normal vector，也可以統一輸出可解碼圖像。&lt;/p&gt;
&lt;p&gt;這和語言模型的發展有相似之處。很多語言任務最終都被改寫成「給定上下文，生成文字」。Vision Banana 試圖把視覺任務也改寫成「給定圖像和指令，生成一張符合格式的圖像」。&lt;/p&gt;
&lt;p&gt;如果這個方向繼續成立，視覺模型的工程形態可能會改變。過去每個任務都有自己的頭部、損失函數、資料管線和評估方式；未來更可能出現一個強生成底座，加上一套任務格式化協議。模型的能力不只體現在像不像、清不清晰，也體現在能不能按可驗證格式輸出可量化結果。&lt;/p&gt;
&lt;h2 id=&#34;需要保持謹慎的地方&#34;&gt;需要保持謹慎的地方
&lt;/h2&gt;&lt;p&gt;第一，Vision Banana 仍然依賴強大的閉源生成底座 Nano Banana Pro。論文能證明「這個底座裡有通用視覺能力」，但不能直接證明所有圖像生成器都有同等能力。&lt;/p&gt;
&lt;p&gt;第二，生成式視覺理解的成本可能更高。論文也提到，使用 Nano Banana Pro 這類圖像生成器做視覺任務，計算開銷明顯高於輕量專用模型。對於行動端、即時機器人、自動駕駛等場景，延遲和成本會成為硬約束。&lt;/p&gt;
&lt;p&gt;第三，把輸出編碼成 RGB 圖像帶來了優雅的統一介面，也帶來了新的工程問題。顏色解碼、提示遵循、邊界精度、數值穩定性和評估可重複性，都會影響最終結果。生成模型的自由度越大，越需要嚴格的輸出約束。&lt;/p&gt;
&lt;p&gt;第四，當前評估主要集中在單圖像輸入和基礎視覺任務。多視角、影片、長時序物理理解、跨模態推理是否也能用同一範式擴展，還需要更多實驗。&lt;/p&gt;
&lt;h2 id=&#34;結論&#34;&gt;結論
&lt;/h2&gt;&lt;p&gt;Vision Banana 給計算機視覺提供了一個強訊號：圖像生成預訓練可能不只是內容生產能力，也可能是視覺理解能力的來源。&lt;/p&gt;
&lt;p&gt;它的價值不在於立刻替代所有專用視覺模型，而在於提示了一個新方向：未來的視覺基礎模型可能先透過大規模生成訓練學習世界結構，再透過輕量指令微調學會把這些結構以分割圖、深度圖、法線圖等形式表達出來。&lt;/p&gt;
&lt;p&gt;如果這個趨勢繼續推進，計算機視覺會越來越像今天的語言模型生態：底座模型負責吸收大規模世界知識，任務介面負責把能力格式化，專用模型則更多退到高效率、低成本和特定場景優化的位置。&lt;/p&gt;
</description>
        </item>
        
    </channel>
</rss>
