Vision Banana 論文解説：画像生成器は汎用視覚モデルになりつつある

Tue, 09 Jun 2026 23:22:08 +0800

論文 Image Generators are Generalist Vision Learners の主張は明快だ。強力な画像生成器は、単に「絵を描く」だけではない。生成訓練の過程で、視覚理解タスクに転用できる能力の一部をすでに獲得している。研究チームは Nano Banana Pro を軽量な instruction-tuning によって Vision Banana に変え、セグメンテーション、深度推定、表面法線推定などのタスクで専門モデルと比較している。

この論文が興味深いのは、新しい視覚モデル名が出てきたからではない。長く分かれていたコンピュータビジョンの二つの流れを再接続している点にある。従来は、生成モデルは生成を担当し、判別型モデルや専門モデルが理解を担当していた。Vision Banana は、生成事前学習も言語モデルの事前学習と同じように、理解タスクの土台になり得ることを示そうとしている。

方法：視覚理解を画像生成として書き換える

Vision Banana の中心的な設計は、視覚タスクの出力を RGB 画像として統一的に表現することだ。

たとえばセマンティックセグメンテーションでは、クラス logits を出すのではなく、クラスごとに色分けされたセグメンテーション画像を生成する。インスタンスセグメンテーションでは、異なるインスタンスを異なる色で表す。深度推定では、可逆な疑似カラー深度マップを生成し、その RGB 画像を実際のメートル単位の深度値にデコードする。表面法線推定でも、方向ベクトルを RGB チャンネルにエンコードする。

この設計には三つの利点がある。

第一に、すべてのタスクを同じ「画像を生成する」インターフェースで扱える。モデルの重みは共有され、主な違いはプロンプトと出力エンコード方式にある。

第二に、微調整の目的は新しい視覚専門家をゼロから訓練することではなく、既存の能力を指定された形式で表現する方法を教えることに近い。論文では、視覚タスクデータは元の生成訓練データに非常に低い比率で混ぜられていると強調されている。

第三に、モデルは元の画像生成能力を保つ。論文は GenAI-Bench と ImgEdit でこれを確認しており、Vision Banana はテキストからの画像生成と画像編集で Nano Banana Pro とほぼ同等の性能を維持している。

結果：専門モデルの境界が狭まりつつある

論文の主表を見ると、Vision Banana は複数のタスクで当時の専門モデルに到達、または近い性能を示している。

2D 理解タスクでは、RefCOCOg UMD val の referring segmentation で 0.738 cIoU を達成し、SAM3 Agent の 0.734 をわずかに上回る。ReasonSeg val では 0.793 gIoU で、SAM3 Agent の 0.770 より高い。Cityscapes val のセマンティックセグメンテーションでは 0.699 mIoU で、SAM3 の 0.652 を上回っている。

ただし、インスタンスセグメンテーションでは完全に勝っているわけではない。SA-Co/Gold からランダムに抽出した 500 件のクエリで評価した結果、Vision Banana は 0.540 で、DINO-X の 0.552 を少し下回る。この点はむしろ結論の信頼性を高めている。すべての表で無理に勝っているのではなく、統一的な生成インターフェースの上限と弱点の両方を示しているからだ。

3D 理解では、結果はさらに興味深い。論文によれば、Vision Banana は 4 つの深度推定データセットの平均で 0.929 を達成し、Depth Anything 3 の 0.918 を上回る。表面法線推定の平均角度誤差は 18.928 度で、Lotus-2 の 19.642 度より低い。画像生成器を改造したモデルとしては、生成事前学習が物体のスケール、空間構造、シーン幾何について強い事前知識を学んでいる可能性を示している。

本当の変化：生成が統一インターフェースになる

この論文で最も重要なのは、個別の指標でどれだけ勝ったかではない。重要なのは、視覚タスクの出力が必ずしも boxes、masks、depth tensor、normal vector である必要はなく、デコード可能な画像として統一できるというインターフェース選択だ。

これは言語モデルの発展と似ている。多くの言語タスクは最終的に「文脈を与えて、テキストを生成する」という形式に書き換えられた。Vision Banana は視覚タスクを「画像と指示を与えて、検証可能な形式の画像を生成する」という形に書き換えようとしている。

この方向が続くなら、視覚モデルの工学的な形は変わるかもしれない。これまではタスクごとに専用のヘッド、損失関数、データパイプライン、評価方法があった。今後は、強力な生成ベースモデルとタスク形式化プロトコルの組み合わせが中心になる可能性がある。モデルの能力は、画像がきれいかどうかだけでなく、制約された検証可能な形式で定量結果を出せるかどうかにも表れる。

慎重に見るべき点

第一に、Vision Banana は依然として強力なクローズドソース基盤である Nano Banana Pro に依存している。論文は「この基盤の中に汎用的な視覚能力がある」ことを示せるが、すべての画像生成器が同じ能力を持つことまでは直接証明していない。

第二に、生成式の視覚理解は高コストになり得る。論文も、Nano Banana Pro のような画像生成器で視覚タスクを実行すると、軽量な専門モデルより計算コストが明らかに高いと述べている。モバイル、リアルタイムロボティクス、自動運転などでは、遅延とコストが強い制約になる。

第三に、出力を RGB 画像にエンコードすることは優雅な統一インターフェースをもたらす一方、新しい工学的問題も生む。色のデコード、プロンプト追従、境界精度、数値安定性、評価の再現性は、最終結果に影響する。生成モデルの自由度が高いほど、出力制約はより重要になる。

第四に、現在の評価は主に単一画像入力と基本的な視覚タスクに集中している。多視点、動画、長時間の物理理解、クロスモーダル推論にも同じ枠組みを拡張できるかは、さらに実験が必要だ。

結論

Vision Banana はコンピュータビジョンに強いシグナルを送っている。画像生成事前学習は、単なるコンテンツ生成能力ではなく、視覚理解能力の源にもなり得る。

その価値は、すべての専門視覚モデルをすぐに置き換えることではない。むしろ、未来の視覚基盤モデルは大規模な生成訓練で世界構造を学び、その後の軽量な instruction-tuning によって、その構造をセグメンテーションマップ、深度マップ、法線マップなどの形式で表現するようになるかもしれない、という方向を示している。

この流れが進むなら、コンピュータビジョンは現在の言語モデルエコシステムに近づいていく。基盤モデルが大規模な世界知識を吸収し、タスクインターフェースが能力を形式化し、専門モデルは高効率、低コスト、特定シナリオ最適化へ役割を移していく。

基盤モデル on KnightLiブログ

Vision Banana 論文解説：画像生成器は汎用視覚モデルになりつつある

方法：視覚理解を画像生成として書き換える

結果：専門モデルの境界が狭まりつつある

本当の変化：生成が統一インターフェースになる

慎重に見るべき点

結論