<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>多模態 on KnightLi的博客</title>
        <link>https://knightli.com/zh-tw/tags/%E5%A4%9A%E6%A8%A1%E6%85%8B/</link>
        <description>Recent content in 多模態 on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-tw</language>
        <lastBuildDate>Mon, 25 May 2026 08:00:37 +0800</lastBuildDate><atom:link href="https://knightli.com/zh-tw/tags/%E5%A4%9A%E6%A8%A1%E6%85%8B/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>WavFlow：Meta 開源原始波形空間音訊生成專案</title>
        <link>https://knightli.com/zh-tw/2026/05/25/wavflow-raw-waveform-audio-generation/</link>
        <pubDate>Mon, 25 May 2026 08:00:37 +0800</pubDate>
        
        <guid>https://knightli.com/zh-tw/2026/05/25/wavflow-raw-waveform-audio-generation/</guid>
        <description>&lt;p&gt;&lt;code&gt;facebookresearch/WavFlow&lt;/code&gt; 是 Meta AI 發布的多模態音訊生成專案，論文標題是 &lt;code&gt;WavFlow: Audio Generation in Waveform Space&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;專案地址：&lt;a class=&#34;link&#34; href=&#34;https://github.com/facebookresearch/WavFlow&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/facebookresearch/WavFlow&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;它關注的不是語音合成，也不是單純的音樂生成，而是從影片和文字條件生成同步、高保真的音訊。更特別的是，它不走常見的 latent compression 路線，而是嘗試直接在 raw waveform space 裡做端到端音訊生成。&lt;/p&gt;
&lt;p&gt;截至寫作時，GitHub 頁面顯示倉庫約有 55 star、3 fork，程式碼主要是 Python，專案沒有發布 release。倉庫 README 也明確提醒：由於組織政策限制，目前不能發布 production-trained checkpoints，團隊正在訓練基於完全開源資料的 foundation checkpoint。在那之前，使用者需要自己訓練模型。&lt;/p&gt;
&lt;h2 id=&#34;wavflow-想解決什麼問題&#34;&gt;WavFlow 想解決什麼問題
&lt;/h2&gt;&lt;p&gt;很多多模態音訊生成方法會先把音訊壓縮到 latent 空間，再在 latent 上做生成，最後還原成波形。這條路線效率高，但也會帶來一個問題：壓縮過程可能損失細節，最終音訊的質感、同步性和高頻資訊會受影響。&lt;/p&gt;
&lt;p&gt;WavFlow 的思路是繞開這一步，直接在原始波形空間生成音訊。&lt;/p&gt;
&lt;p&gt;README 裡提到，它透過 waveform patchifying 和 amplitude lifting，讓 flow matching 可以穩定地作用在 raw audio 上，並使用直接的 &lt;code&gt;x&lt;/code&gt;-prediction。直白一點說，它不是先把聲音壓成某種中間表示再生成，而是把音訊波形本身切成適合模型處理的 patch，並做幅度變換，讓模型能在波形層面學習生成。&lt;/p&gt;
&lt;p&gt;這也是它最值得關注的地方：如果端到端波形生成能穩定工作，就有機會減少編碼器/解碼器帶來的資訊瓶頸。&lt;/p&gt;
&lt;h2 id=&#34;支援哪些輸入模式&#34;&gt;支援哪些輸入模式
&lt;/h2&gt;&lt;p&gt;從 README 和訓練說明看，WavFlow 面向三類輸入。&lt;/p&gt;
&lt;p&gt;第一類是 VT2A，也就是 video + text to audio。給模型影片和文字描述，讓它生成與畫面和語義同步的音訊，比如森林、青蛙、鼓聲、滑板等場景。&lt;/p&gt;
&lt;p&gt;第二類是 T2A，也就是 text to audio。只有文字描述，沒有影片輸入。訓練時使用 CLIP text feature，推理時 CSV 裡可以把 &lt;code&gt;video_exist&lt;/code&gt; 設為 &lt;code&gt;0&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;第三類是 V2A，也就是 video to audio。只有影片，沒有文字。推理時可以把 &lt;code&gt;text_exist&lt;/code&gt; 設為 &lt;code&gt;0&lt;/code&gt;，模型會使用 learned empty CLIP-text token。&lt;/p&gt;
&lt;p&gt;這種設計比較實用。真實資料裡不一定每條樣本都有完整的影片、文字和音訊標註，WavFlow 用 &lt;code&gt;video_exist&lt;/code&gt; 和 &lt;code&gt;text_exist&lt;/code&gt; 這類欄位把缺失模態顯式表達出來，訓練和推理都能處理不同組合。&lt;/p&gt;
&lt;h2 id=&#34;評測和效果定位&#34;&gt;評測和效果定位
&lt;/h2&gt;&lt;p&gt;README 提到，WavFlow 在 VGGSound 的 VT2A 任務和 AudioCaps 的 T2A 任務上進行評測，表現可以和已有 latent-based 方法相當。&lt;/p&gt;
&lt;p&gt;這句話的意義不是說它已經全面碾壓現有模型，而是證明一件事：端到端 raw waveform generation 並不一定輸給傳統 latent 框架。至少在 acoustic richness、fidelity 和 synchronization 這些指標上，它可以達到同一檔水平。&lt;/p&gt;
&lt;p&gt;專案頁還提供了 forest、frog、drum、skateboard 等 demo，並在專案主頁放了 24 個以上樣例和並排 benchmark 對比。對音訊生成模型來說，demo 很重要，因為文字指標很難完整描述聲音的質感、空間感和同步感。&lt;/p&gt;
&lt;h2 id=&#34;安裝方式&#34;&gt;安裝方式
&lt;/h2&gt;&lt;p&gt;官方提供了自動安裝腳本：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;git clone https://github.com/facebookresearch/WavFlow.git
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;cd&lt;/span&gt; WavFlow
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;bash scripts/setup.sh
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;conda activate wavflow
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;&lt;code&gt;scripts/setup.sh&lt;/code&gt; 會建立名為 &lt;code&gt;wavflow&lt;/code&gt; 的 conda 環境，並安裝所需依賴。&lt;/p&gt;
&lt;p&gt;如果想手動安裝，可以按 README 裡的方式：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;5
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;conda create -n wavflow &lt;span class=&#34;nv&#34;&gt;python&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;3.10 -y
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;conda activate wavflow
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;pip install -r requirements.txt
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;pip install -e . --no-deps
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;conda install -n wavflow -c conda-forge &lt;span class=&#34;s2&#34;&gt;&amp;#34;ffmpeg&amp;lt;7&amp;#34;&lt;/span&gt; -y
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;這裡的 &lt;code&gt;ffmpeg&amp;lt;7&lt;/code&gt; 主要是為了 torio 影片解碼。README 還說明，CLIP、Synchformer、empty-string CFG embedding 等外部權重會在首次執行時自動下載或計算，並快取到 &lt;code&gt;~/.cache/wavflow/&lt;/code&gt;。&lt;/p&gt;
&lt;h2 id=&#34;推理怎麼跑&#34;&gt;推理怎麼跑
&lt;/h2&gt;&lt;p&gt;由於官方暫時沒有發布 production-trained checkpoints，下面的推理入口只適用於你已經有訓練好的 checkpoint 的情況。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;bash scripts/launch/predict.sh &lt;span class=&#34;o&#34;&gt;[&lt;/span&gt;--gpu N&lt;span class=&#34;o&#34;&gt;]&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;[&lt;/span&gt;--config PATH&lt;span class=&#34;o&#34;&gt;]&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;預設配置文件是：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;wavflow/configs/infer.yaml
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;輸入 CSV 由 &lt;code&gt;data.csv_path&lt;/code&gt; 指定，支援影片、文字，或者兩者同時存在：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;5
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-csv&#34; data-lang=&#34;csv&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s&#34;&gt;video_path&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;caption&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;video_exist&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;text_exist&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s&#34;&gt;/abs/path/sample1.mp4&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;a whistling rocket explodes&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;1&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;1&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s&#34;&gt;/abs/path/sample2.mp4&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;birds chirping in a forest&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;1&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;1&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;a whistling rocket explodes&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;0&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;1&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s&#34;&gt;/abs/path/sample3.mp4&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,,&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;1&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;0&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;其中 &lt;code&gt;video_exist=0&lt;/code&gt; 表示不解碼影片，使用 learned empty CLIP/Sync tokens；&lt;code&gt;text_exist=0&lt;/code&gt; 表示忽略 caption，使用 learned empty CLIP-text token。如果有逗號的 caption，需要加引號。&lt;/p&gt;
&lt;p&gt;常用啟動參數包括：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;--gpu N
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;--config PATH
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;WAVFLOW_ENV
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;關鍵配置項包括 &lt;code&gt;model.name&lt;/code&gt;、&lt;code&gt;model.ckpt_path&lt;/code&gt;、&lt;code&gt;model.use_ema&lt;/code&gt;、&lt;code&gt;inference.duration_sec&lt;/code&gt;、&lt;code&gt;target_sample_rate&lt;/code&gt;、&lt;code&gt;inference.cfg&lt;/code&gt;、&lt;code&gt;num_steps&lt;/code&gt;、&lt;code&gt;noise_scale&lt;/code&gt;、&lt;code&gt;noise_shift&lt;/code&gt;、&lt;code&gt;prediction_type&lt;/code&gt;、&lt;code&gt;seed&lt;/code&gt; 和輸出目錄。&lt;/p&gt;
&lt;h2 id=&#34;ema-的一個坑&#34;&gt;EMA 的一個坑
&lt;/h2&gt;&lt;p&gt;README 特別提醒了 &lt;code&gt;model.use_ema&lt;/code&gt; 的問題。&lt;/p&gt;
&lt;p&gt;WavFlow 的 checkpoint 裡可能有 &lt;code&gt;model_ema1&lt;/code&gt;，它按 &lt;code&gt;ema_decay = 0.9999&lt;/code&gt; 更新。如果訓練只跑了幾百或幾千步，EMA 裡可能還包含大量隨機初始化值，推理時會產生噪聲。&lt;/p&gt;
&lt;p&gt;所以，如果你只是做短跑、過擬合小樣本或 smoke test，採樣時應該考慮：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-yaml&#34; data-lang=&#34;yaml&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nt&#34;&gt;model.use_ema&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt;&lt;span class=&#34;w&#34;&gt; &lt;/span&gt;&lt;span class=&#34;kc&#34;&gt;false&lt;/span&gt;&lt;span class=&#34;w&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;或者使用訓練足夠久之後保存的 &lt;code&gt;ema_epoch_*.pth&lt;/code&gt;。這個細節很實用，否則很容易誤以為模型壞了，其實只是 EMA 還沒穩定。&lt;/p&gt;
&lt;h2 id=&#34;訓練流程&#34;&gt;訓練流程
&lt;/h2&gt;&lt;p&gt;官方的 &lt;code&gt;TRAINING.md&lt;/code&gt; 把訓練分成兩步。&lt;/p&gt;
&lt;p&gt;第一步是特徵提取。&lt;/p&gt;
&lt;p&gt;T2A 只提取 CLIP text feature；VT2A 會提取 CLIP frame feature、Synchformer feature 和 CLIP text feature。示例 CSV 大致是：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-csv&#34; data-lang=&#34;csv&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s&#34;&gt;id&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;audio_path&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;video_path&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;caption&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s&#34;&gt;sample1&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;/abs/or/relative/wav/sample1.wav&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;/abs/or/relative/video/sample1.mp4&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;a whistling rocket explodes&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;影片長度需要大於等於 &lt;code&gt;extraction.duration_sec&lt;/code&gt;，預設是 8 秒；更短的片段會被跳過。特徵提取可以這樣執行：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;bash scripts/launch/extract_t2a.sh
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;bash scripts/launch/extract_vt2a.sh
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;如果要用更多 GPU 或自訂配置：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nv&#34;&gt;NPROC_PER_NODE&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;m&#34;&gt;4&lt;/span&gt; bash scripts/launch/extract_vt2a.sh
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nv&#34;&gt;CONFIG_PATH&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;path/to/your_extract.yaml bash scripts/launch/extract_t2a.sh
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;第二步是訓練。&lt;/p&gt;
&lt;p&gt;單機多卡可以用：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;bash scripts/launch/train_single_node.sh
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;多節點訓練需要設定 &lt;code&gt;NNODES&lt;/code&gt;、&lt;code&gt;NODE_RANK&lt;/code&gt;、&lt;code&gt;MASTER_ADDR&lt;/code&gt;、&lt;code&gt;MASTER_PORT&lt;/code&gt; 和 &lt;code&gt;NPROC_PER_NODE&lt;/code&gt;。訓練輸出包括 &lt;code&gt;checkpoint_latest.pth&lt;/code&gt;、&lt;code&gt;checkpoint_epoch_*.pth&lt;/code&gt;、&lt;code&gt;ema_epoch_*.pth&lt;/code&gt;、生成音訊樣本和 &lt;code&gt;training.log&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;訓練可以自動 resume：如果實驗目錄裡存在 &lt;code&gt;checkpoint_latest.pth&lt;/code&gt;，訓練會從那裡繼續。&lt;/p&gt;
&lt;h2 id=&#34;適合誰關注&#34;&gt;適合誰關注
&lt;/h2&gt;&lt;p&gt;WavFlow 更適合研究者和工程團隊關注，而不是普通使用者直接拿來做成品音效。&lt;/p&gt;
&lt;p&gt;適合關注它的人包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;研究 video-to-audio、text-to-audio 或 multimodal audio generation 的人。&lt;/li&gt;
&lt;li&gt;想比較 raw waveform generation 和 latent-based audio generation 的團隊。&lt;/li&gt;
&lt;li&gt;需要訓練自有音訊生成模型，並能準備資料和 GPU 資源的使用者。&lt;/li&gt;
&lt;li&gt;對影片畫面和聲音同步要求高的應用團隊。&lt;/li&gt;
&lt;li&gt;想研究 flow matching 在原始音訊波形上是否可行的人。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果你只是想找一個網頁工具，輸入 prompt 直接生成音效，WavFlow 現在不是最省事的選擇。它暫時沒有公開 production checkpoint，部署路徑也更接近研究程式碼。&lt;/p&gt;
&lt;h2 id=&#34;使用時要注意什麼&#34;&gt;使用時要注意什麼
&lt;/h2&gt;&lt;p&gt;第一，不能把它當成「下載即用」的音訊生成模型。官方目前沒有發布生產訓練 checkpoint，真正推理前需要自己訓練，或者等待後續開放資料 checkpoint。&lt;/p&gt;
&lt;p&gt;第二，許可證不是寬鬆商用預設選項。README 說明，WavFlow 大部分程式碼採用 CC-BY-NC 4.0，部分 vendored 元件沿用 MIT、Apache 2.0、CC BY-NC 4.0 和 Stability AI Community License 等原始許可證。商業使用前要仔細讀 &lt;code&gt;LICENSE&lt;/code&gt; 和 &lt;code&gt;NOTICE.txt&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;第三，訓練資料很關鍵。WavFlow 的優勢建立在音訊、影片和文字對齊資料之上。如果資料品質差、caption 不準確、音畫不同步，模型很難學到穩定的聲音生成。&lt;/p&gt;
&lt;p&gt;第四，raw waveform generation 雖然減少 latent bottleneck，但也可能帶來更高的訓練和推理成本。實際專案裡仍然要在音質、速度、顯存、採樣率和輸出時長之間取捨。&lt;/p&gt;
&lt;h2 id=&#34;小結&#34;&gt;小結
&lt;/h2&gt;&lt;p&gt;WavFlow 的價值在於提出了一個清晰問題：多模態音訊生成一定要先壓縮到 latent 空間嗎？&lt;/p&gt;
&lt;p&gt;它用 waveform patchifying、amplitude lifting 和 flow matching，嘗試直接在 raw waveform space 裡生成同步高保真音訊。評測結果說明，這條路線至少有機會和成熟的 latent-based 方法站在同一水平線上。&lt;/p&gt;
&lt;p&gt;不過，現階段它更像一套研究和訓練框架，而不是開箱即用的產品模型。沒有公開生產 checkpoint、許可證偏非商用、訓練需要音影片文字對齊資料，這些都決定了它更適合研究、復現和二次訓練。如果你關注下一代 video-to-audio 或 text-to-audio 模型，WavFlow 值得認真看一眼。&lt;/p&gt;
&lt;h2 id=&#34;參考資料&#34;&gt;參考資料
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;facebookresearch/WavFlow：&lt;a class=&#34;link&#34; href=&#34;https://github.com/facebookresearch/WavFlow&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/facebookresearch/WavFlow&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;WavFlow Project Page：&lt;a class=&#34;link&#34; href=&#34;https://facebookresearch.github.io/WavFlow/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://facebookresearch.github.io/WavFlow/&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;WavFlow arXiv：&lt;a class=&#34;link&#34; href=&#34;https://arxiv.org/abs/2605.18749&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://arxiv.org/abs/2605.18749&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;WavFlow Training Guide：&lt;a class=&#34;link&#34; href=&#34;https://github.com/facebookresearch/WavFlow/blob/main/TRAINING.md&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/facebookresearch/WavFlow/blob/main/TRAINING.md&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>Gemini 3.5 Flash 的定位及優勢：為什麼它更適合高頻、多模態和低延遲場景</title>
        <link>https://knightli.com/zh-tw/2026/05/24/gemini-35-flash-positioning-advantages-low-latency-multimodal/</link>
        <pubDate>Sun, 24 May 2026 08:43:24 +0800</pubDate>
        
        <guid>https://knightli.com/zh-tw/2026/05/24/gemini-35-flash-positioning-advantages-low-latency-multimodal/</guid>
        <description>&lt;p&gt;&lt;code&gt;Gemini 3.5 Flash&lt;/code&gt; 的關鍵詞不是「最強」，而是「高頻、快速、便宜、好接入」。它更像是 Gemini 系列裡的主力工作模型：不一定負責最難的推理題，但適合承接大量真實業務請求，例如問答、摘要、客服、內容處理、多模態理解、輕量程式碼輔助和自動化工作流。&lt;/p&gt;
&lt;p&gt;理解 Flash 的關鍵，是不要把它當成 Pro 類旗艦模型的替代品，而要把它當成一個面向吞吐量和響應速度優化的模型層。對開發者和企業來說，很多 AI 應用真正的成本不在單次最強能力，而在每天成千上萬次請求的延遲、穩定性、價格和上下文處理能力。&lt;/p&gt;
&lt;h2 id=&#34;flash-的產品定位&#34;&gt;Flash 的產品定位
&lt;/h2&gt;&lt;p&gt;Gemini 系列通常會把模型拆成不同層級：旗艦模型負責更複雜的推理、規劃和高難度任務；Flash 模型則強調速度、成本和規模化呼叫。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;Gemini 3.5 Flash&lt;/code&gt; 的定位可以概括為：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;比 Pro 更適合高頻呼叫。&lt;/li&gt;
&lt;li&gt;比輕量小模型更適合複雜輸入。&lt;/li&gt;
&lt;li&gt;面向低延遲和高吞吐。&lt;/li&gt;
&lt;li&gt;適合多模態輸入和長上下文處理。&lt;/li&gt;
&lt;li&gt;更適合作為應用裡的預設模型，而不是只在少數困難任務中呼叫。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這類模型最適合做「每天都要跑很多次」的任務。它的價值不只是單次回答品質，而是能否在成本可控的前提下穩定處理大量文字、圖片、音訊、影片或結構化資訊。&lt;/p&gt;
&lt;h2 id=&#34;為什麼-flash-很重要&#34;&gt;為什麼 Flash 很重要
&lt;/h2&gt;&lt;p&gt;AI 產品落地時，經常會遇到一個現實問題：最強模型很好，但不是每個請求都值得用最強模型。&lt;/p&gt;
&lt;p&gt;例如：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;使用者問一個普通客服問題。&lt;/li&gt;
&lt;li&gt;系統要總結一段會議記錄。&lt;/li&gt;
&lt;li&gt;後台要分類一批工單。&lt;/li&gt;
&lt;li&gt;App 要解釋一張圖片。&lt;/li&gt;
&lt;li&gt;自動化流程要從郵件裡抽取欄位。&lt;/li&gt;
&lt;li&gt;Agent 要先讀一批文件，再決定下一步。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這些任務需要模型可靠、便宜、快，但不一定需要旗艦模型的全部推理能力。Flash 的意義就在這裡：它把「夠強」和「夠快」放在同一個位置上。&lt;/p&gt;
&lt;p&gt;如果一個 AI 應用要面向大量使用者，預設模型往往不能只看峰值能力，而要看平均請求成本、響應速度、併發能力和失敗率。Flash 就是這種應用層模型。&lt;/p&gt;
&lt;h2 id=&#34;主要優勢一低延遲和高吞吐&#34;&gt;主要優勢一：低延遲和高吞吐
&lt;/h2&gt;&lt;p&gt;Flash 最直觀的優勢是速度。&lt;/p&gt;
&lt;p&gt;對聊天產品、搜尋增強、客服機器人、即時寫作輔助和 Agent 工作流來說，延遲會直接影響體驗。使用者不一定知道模型參數或 benchmark，但能感覺到「是不是等得煩」。&lt;/p&gt;
&lt;p&gt;低延遲帶來的價值包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;對話更像即時互動。&lt;/li&gt;
&lt;li&gt;多輪工具呼叫更不容易拖慢。&lt;/li&gt;
&lt;li&gt;Agent 可以更頻繁地做中間判斷。&lt;/li&gt;
&lt;li&gt;後台批處理能更快跑完。&lt;/li&gt;
&lt;li&gt;產品可以把 AI 能力放進更多細小流程裡。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;尤其是 Agent 類應用，模型不是只回答一次，而是要反覆判斷、呼叫工具、讀上下文、生成下一步動作。單次延遲降低後，整條鏈路的體驗會明顯改善。&lt;/p&gt;
&lt;h2 id=&#34;主要優勢二成本更適合規模化&#34;&gt;主要優勢二：成本更適合規模化
&lt;/h2&gt;&lt;p&gt;Flash 的另一個核心價值是成本。&lt;/p&gt;
&lt;p&gt;企業和開發者真正上線 AI 應用時，通常會關心三個問題：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;每次呼叫多少錢。&lt;/li&gt;
&lt;li&gt;每天總呼叫量是多少。&lt;/li&gt;
&lt;li&gt;峰值併發時成本和延遲是否可控。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果一個任務每天跑幾十萬次，哪怕單次差價很小，長期成本也會被放大。Flash 這類模型的定位，就是讓更多請求不必直接打到最貴、最重的模型上。&lt;/p&gt;
&lt;p&gt;常見做法是分層呼叫：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;普通請求預設走 Flash。&lt;/li&gt;
&lt;li&gt;難題、複雜規劃、長鏈路推理再升級到 Pro。&lt;/li&gt;
&lt;li&gt;簡單分類、固定格式抽取也可以進一步下沉到更輕量模型。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這樣可以讓 AI 系統既保留上限，又控制日常成本。&lt;/p&gt;
&lt;h2 id=&#34;主要優勢三多模態輸入更適合真實應用&#34;&gt;主要優勢三：多模態輸入更適合真實應用
&lt;/h2&gt;&lt;p&gt;Gemini 系列一直強調多模態能力。Flash 的優勢在於，它不是只服務文字請求，也適合處理圖片、音訊、影片和文件等輸入。&lt;/p&gt;
&lt;p&gt;這對真實產品很重要。很多業務資料並不是純文字：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;使用者上傳截圖諮詢問題。&lt;/li&gt;
&lt;li&gt;客服要理解一張故障照片。&lt;/li&gt;
&lt;li&gt;教育產品要看題目圖片。&lt;/li&gt;
&lt;li&gt;內容平台要處理影片片段。&lt;/li&gt;
&lt;li&gt;辦公場景要讀取 PDF、表格和簡報。&lt;/li&gt;
&lt;li&gt;電商場景要分析商品圖和使用者描述。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果多模態能力只能依賴昂貴的旗艦模型，很多高頻場景就很難鋪開。Flash 的意義在於，把多模態理解下放到更適合規模化呼叫的模型層。&lt;/p&gt;
&lt;h2 id=&#34;主要優勢四長上下文讓它適合讀材料&#34;&gt;主要優勢四：長上下文讓它適合讀材料
&lt;/h2&gt;&lt;p&gt;長上下文是 Gemini 系列的重要能力之一。對 Flash 來說，長上下文的價值不是「把所有東西塞進去就完事」，而是讓它能承擔更多資訊整理型任務。&lt;/p&gt;
&lt;p&gt;例如：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;總結長文件。&lt;/li&gt;
&lt;li&gt;閱讀產品手冊。&lt;/li&gt;
&lt;li&gt;分析會議紀要。&lt;/li&gt;
&lt;li&gt;整理多頁 PDF。&lt;/li&gt;
&lt;li&gt;對比多份合約或方案。&lt;/li&gt;
&lt;li&gt;給 Agent 提供較大的任務背景。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;長上下文和低成本結合起來，適合做「先讀大量材料，再給出可操作結果」的工作流。它不一定每次都要做極難推理，但能把更多上下文納入同一次處理，這對辦公、客服、知識庫、研發輔助都很有用。&lt;/p&gt;
&lt;h2 id=&#34;主要優勢五適合作為預設模型&#34;&gt;主要優勢五：適合作為預設模型
&lt;/h2&gt;&lt;p&gt;很多 AI 產品需要一個「預設模型」。這個模型不一定是最貴最強，但要滿足幾個條件：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;大多數問題回答品質穩定。&lt;/li&gt;
&lt;li&gt;響應足夠快。&lt;/li&gt;
&lt;li&gt;成本可控。&lt;/li&gt;
&lt;li&gt;多模態輸入能處理。&lt;/li&gt;
&lt;li&gt;長上下文能力夠用。&lt;/li&gt;
&lt;li&gt;容易接入 API 和既有產品鏈路。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;code&gt;Gemini 3.5 Flash&lt;/code&gt; 的優勢正是在這裡。它適合做預設入口：先承接大多數請求，如果遇到複雜任務，再路由到更強模型。&lt;/p&gt;
&lt;p&gt;這種模式會越來越常見。未來很多 AI 系統不是「只選一個模型」，而是「Flash 做主力，Pro 做升級，輕量模型做邊緣任務」。&lt;/p&gt;
&lt;h2 id=&#34;適合哪些場景&#34;&gt;適合哪些場景
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;Gemini 3.5 Flash&lt;/code&gt; 更適合這些場景：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;客服問答和知識庫檢索後的回答生成。&lt;/li&gt;
&lt;li&gt;長文件摘要、報告整理、會議紀要。&lt;/li&gt;
&lt;li&gt;圖片、截圖、PDF、影片片段的多模態理解。&lt;/li&gt;
&lt;li&gt;App 內即時 AI 助手。&lt;/li&gt;
&lt;li&gt;內容審核、分類、標籤生成。&lt;/li&gt;
&lt;li&gt;郵件、工單、表單的資訊抽取。&lt;/li&gt;
&lt;li&gt;Agent 工作流中的中間判斷和上下文壓縮。&lt;/li&gt;
&lt;li&gt;程式碼解釋、輕量修復建議、文件生成。&lt;/li&gt;
&lt;li&gt;教育產品裡的題目解析和學習輔助。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這些場景共同特點是：請求量大、使用者等待時間敏感、輸入類型複雜，但不一定每次都需要旗艦級深度推理。&lt;/p&gt;
&lt;h2 id=&#34;不適合只用-flash-的場景&#34;&gt;不適合只用 Flash 的場景
&lt;/h2&gt;&lt;p&gt;Flash 不是萬能模型。它更適合高頻和低延遲，不代表所有問題都應該只用它。&lt;/p&gt;
&lt;p&gt;以下場景仍然更適合使用更強的 Pro 類模型，或至少採用分層路由：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;複雜數學和嚴謹證明。&lt;/li&gt;
&lt;li&gt;長鏈路規劃和多步驟策略推理。&lt;/li&gt;
&lt;li&gt;高風險法律、醫療、金融判斷。&lt;/li&gt;
&lt;li&gt;大型程式碼庫的深度重構方案。&lt;/li&gt;
&lt;li&gt;需要極高可靠性的複雜 Agent 任務。&lt;/li&gt;
&lt;li&gt;對幻覺容忍度極低的專業報告。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;更穩妥的策略是：Flash 先處理、判斷和整理；當任務複雜度升高時，再升級到更強模型。&lt;/p&gt;
&lt;h2 id=&#34;和-pro-類模型的關係&#34;&gt;和 Pro 類模型的關係
&lt;/h2&gt;&lt;p&gt;Flash 和 Pro 的關係，不應該理解成「誰取代誰」，而應該理解成「分工不同」。&lt;/p&gt;
&lt;p&gt;Flash 更像日常主力：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;快。&lt;/li&gt;
&lt;li&gt;成本友好。&lt;/li&gt;
&lt;li&gt;適合高併發。&lt;/li&gt;
&lt;li&gt;適合多模態和長上下文應用。&lt;/li&gt;
&lt;li&gt;適合放在產品預設鏈路裡。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Pro 更像高難任務模型：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;更適合複雜推理。&lt;/li&gt;
&lt;li&gt;更適合困難規劃。&lt;/li&gt;
&lt;li&gt;更適合高價值請求。&lt;/li&gt;
&lt;li&gt;更適合少量但重要的深度分析。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;好的 AI 產品通常會把兩者組合起來，而不是二選一。&lt;/p&gt;
&lt;h2 id=&#34;開發者應該怎麼用&#34;&gt;開發者應該怎麼用
&lt;/h2&gt;&lt;p&gt;如果要在產品裡接入 Gemini 3.5 Flash，可以考慮這幾種用法：&lt;/p&gt;
&lt;p&gt;第一，把它作為預設模型。大部分普通請求先走 Flash，既保證速度，也控制成本。&lt;/p&gt;
&lt;p&gt;第二，設計模型路由。當 Flash 判斷任務複雜、風險高、需要深度推理時，再把請求升級到 Pro。&lt;/p&gt;
&lt;p&gt;第三，用它做上下文壓縮。Agent 在執行任務前，可以先讓 Flash 總結文件、抽取關鍵事實、生成結構化上下文。&lt;/p&gt;
&lt;p&gt;第四，把多模態輸入納入常規流程。圖片、截圖、PDF、音訊、影片不要只作為邊緣功能，而可以成為產品預設輸入的一部分。&lt;/p&gt;
&lt;p&gt;第五，用評測來決定邊界。不要只看官方 benchmark，要拿自己的客服問題、文件、程式碼、圖片和業務流程做測試，判斷哪些任務 Flash 足夠，哪些必須升級。&lt;/p&gt;
&lt;h2 id=&#34;小結&#34;&gt;小結
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;Gemini 3.5 Flash&lt;/code&gt; 的核心定位，是一個面向高頻真實應用的多模態主力模型。它的優勢不在於取代 Pro 類旗艦模型，而在於把速度、成本、長上下文和多模態能力放到一個更適合規模化呼叫的位置上。&lt;/p&gt;
&lt;p&gt;對開發者來說，Flash 最值得關注的不是單個 benchmark，而是產品架構變化：預設模型可以更快、更便宜、更能讀複雜輸入；複雜任務再升級給更強模型。這樣既能保證體驗，也能控制成本。&lt;/p&gt;
&lt;p&gt;如果說 Pro 是處理難題的重型工具，那麼 Flash 更像每天都在生產線上運轉的主力工具。真正做 AI 產品時，後者往往更接近使用者每天實際感受到的體驗。&lt;/p&gt;
&lt;p&gt;參考資料：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Google 官方部落格：&lt;a class=&#34;link&#34; href=&#34;https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5/&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;Google DeepMind Gemini Flash：&lt;a class=&#34;link&#34; href=&#34;https://deepmind.google/en/models/gemini/flash/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://deepmind.google/en/models/gemini/flash/&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;使用者提供的知乎討論連結：&lt;a class=&#34;link&#34; href=&#34;https://www.zhihu.com/question/2040529179641385344/answer/2040531897613285214&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://www.zhihu.com/question/2040529179641385344/answer/2040531897613285214&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>RTX 3070 8GB 本地運行 Qwen3.6-35B：llama.cpp 部署要點與最佳化參數</title>
        <link>https://knightli.com/zh-tw/2026/05/22/rtx-3070-8gb-qwen36-35b-llama-cpp-local-deployment/</link>
        <pubDate>Fri, 22 May 2026 22:44:16 +0800</pubDate>
        
        <guid>https://knightli.com/zh-tw/2026/05/22/rtx-3070-8gb-qwen36-35b-llama-cpp-local-deployment/</guid>
        <description>&lt;p&gt;8GB 顯存能不能跑 35B 級別模型，關鍵不只看模型總參數量，還要看模型結構、量化格式和推理框架的調度方式。&lt;/p&gt;
&lt;p&gt;這次案例的核心思路是：使用 Qwen3.6-35B-A3B 這類 MoE 模型的 GGUF 量化版本，再透過 llama.cpp 的 CUDA 加速、CPU Offload、MoE 參數調度和 KV Cache 量化，把顯存壓力分攤到 GPU 與記憶體之間。這樣一來，RTX 3070 8GB 這類老顯卡也有機會跑起 35B 級別的本地多模態模型。&lt;/p&gt;
&lt;p&gt;需要先說明一點：這不是「8GB 顯存完整裝下 35B 模型」。更準確的理解是，顯卡負責更適合 GPU 的計算部分，部分專家層和快取壓力由系統記憶體承擔。實際體驗會受到記憶體容量、CPU 效能、模型量化格式、上下文長度和參數設定影響。&lt;/p&gt;
&lt;h2 id=&#34;測試環境&#34;&gt;測試環境
&lt;/h2&gt;&lt;p&gt;這類配置對記憶體比較敏感。參考環境如下：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;CPU：Intel Core i7-12700 級別&lt;/li&gt;
&lt;li&gt;GPU：NVIDIA RTX 3070 8GB&lt;/li&gt;
&lt;li&gt;記憶體：64GB&lt;/li&gt;
&lt;li&gt;系統：Windows 11&lt;/li&gt;
&lt;li&gt;推理框架：llama.cpp CUDA 版本&lt;/li&gt;
&lt;li&gt;模型格式：GGUF&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果只有 16GB 或 32GB 記憶體，也不是完全不能嘗試，但 35B MoE 模型在載入和長上下文推理時更容易觸發記憶體壓力。想要穩定使用，64GB 記憶體會更穩。&lt;/p&gt;
&lt;h2 id=&#34;為什麼-8gb-顯存也有機會跑-35b&#34;&gt;為什麼 8GB 顯存也有機會跑 35B
&lt;/h2&gt;&lt;p&gt;Qwen3.6-35B-A3B 的關鍵點在於 MoE 架構。它的總參數規模是 35B，但每次推理並不是所有參數都同時啟用，而是只啟用其中一部分專家參數。&lt;/p&gt;
&lt;p&gt;這會帶來兩個結果：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;總模型檔案仍然很大，需要足夠磁碟和記憶體承載。&lt;/li&gt;
&lt;li&gt;單次推理的活躍計算量低於完整 35B Dense 模型。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;llama.cpp 的 CPU Offload 和 MoE 相關參數可以進一步降低顯存門檻。GPU 主要承擔注意力和部分高收益計算，CPU 與記憶體承擔一部分專家層權重。代價是速度、回應延遲和穩定性會更依賴整機配置，而不是只看顯卡型號。&lt;/p&gt;
&lt;h2 id=&#34;準備-llamacpp&#34;&gt;準備 llama.cpp
&lt;/h2&gt;&lt;p&gt;Windows 使用者可以直接下載 llama.cpp 的預編譯 CUDA 版本。需要注意三點：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;顯卡驅動要足夠新，CUDA 執行環境要和下載的 llama.cpp 套件匹配。&lt;/li&gt;
&lt;li&gt;下載後建議放在一個不含中文和特殊字元的路徑下，方便批次腳本呼叫。&lt;/li&gt;
&lt;li&gt;模型檔案統一放到 &lt;code&gt;models&lt;/code&gt; 目錄，避免命令裡寫太長路徑。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;如果是 AMD、Intel 顯卡或純 CPU 環境，也可以選擇 Vulkan、HIP、SYCL 或 CPU 版本，但參數和效能表現會不同。本文重點仍然是 NVIDIA 顯卡上的 CUDA 路線。&lt;/p&gt;
&lt;h2 id=&#34;下載模型和多模態投影檔案&#34;&gt;下載模型和多模態投影檔案
&lt;/h2&gt;&lt;p&gt;本次使用的模型是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Qwen3.6-35B-A3B-UD-Q4_K_M.gguf&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;量化格式選擇 &lt;code&gt;Q4_K_M&lt;/code&gt;，主要是為了在精度、體積和速度之間取得平衡。顯存較小的機器不建議一開始就嘗試更高精度版本，否則載入失敗或系統頻繁換頁的機率會明顯上升。&lt;/p&gt;
&lt;p&gt;如果要使用圖片理解能力，還需要同時準備多模態投影檔案，例如：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;mmproj-BF16.gguf&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這個檔案非常重要。只下載主模型通常只能完成文字推理；如果缺少 &lt;code&gt;mmproj&lt;/code&gt;，網頁 UI 裡可能看不到正常的圖片上傳能力，或者上傳後無法完成視覺理解。&lt;/p&gt;
&lt;p&gt;建議目錄結構保持簡單：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;5
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;llama.cpp/
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;├─ llama-server.exe
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;└─ models/
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;   ├─ Qwen3.6-35B-A3B-UD-Q4_K_M.gguf
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;   └─ mmproj-BF16.gguf
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h2 id=&#34;rtx-3070-8gb-啟動參數&#34;&gt;RTX 3070 8GB 啟動參數
&lt;/h2&gt;&lt;p&gt;下面是一份面向 RTX 3070 8GB 的啟動腳本範例。路徑需要改成你自己的 llama.cpp 所在目錄。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt; 1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 8
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 9
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;10
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;11
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;12
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;13
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;14
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;15
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;16
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;17
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;18
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;19
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;20
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;21
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;22
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bat&#34; data-lang=&#34;bat&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;p&#34;&gt;@&lt;/span&gt;&lt;span class=&#34;k&#34;&gt;echo&lt;/span&gt; off
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;chcp 65001 &lt;span class=&#34;p&#34;&gt;&amp;gt;&lt;/span&gt;nul
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;k&#34;&gt;cd&lt;/span&gt; /d D:\AI\llama.cpp
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;llama-server.exe &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; -m &lt;span class=&#34;s2&#34;&gt;&amp;#34;models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf&amp;#34;&lt;/span&gt; &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; --mmproj &lt;span class=&#34;s2&#34;&gt;&amp;#34;models\mmproj-BF16.gguf&amp;#34;&lt;/span&gt; &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; -ngl 99 &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; --n-cpu-moe 999 &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; --flash-attn on &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; --jinja &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; -c 32768 &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; -t 12 &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; -b 512 &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; -ub 128 &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; --cache-type-k q4_0 &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; --cache-type-v q4_0 &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; --mlock &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; --host 127.0.0.1 &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; --port 8080
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;k&#34;&gt;pause&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;啟動後在瀏覽器訪問：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;http://127.0.0.1:8080
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;如果頁面可以打開，並且模型能正常回覆，就說明服務已經啟動成功。首次載入模型可能會比較慢，期間不要急著重複運行多個實例，否則更容易把記憶體占滿。&lt;/p&gt;
&lt;h2 id=&#34;關鍵參數怎麼理解&#34;&gt;關鍵參數怎麼理解
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;-ngl 99&lt;/code&gt; 表示盡量把可放到 GPU 的層放到顯卡上。實際能放多少，取決於模型結構、量化格式和顯存占用。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;--n-cpu-moe 999&lt;/code&gt; 用來讓 MoE 專家層更多走 CPU 側，降低顯存壓力。它是這類小顯存運行大 MoE 模型的關鍵參數之一。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;--flash-attn on&lt;/code&gt; 開啟 Flash Attention，有助於降低注意力計算的開銷。是否可用取決於目前 llama.cpp 版本和顯卡支援情況。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;-c 32768&lt;/code&gt; 設定上下文長度。長上下文會顯著增加 KV Cache 壓力，如果啟動失敗或推理很慢，可以先降到 &lt;code&gt;8192&lt;/code&gt; 或 &lt;code&gt;16384&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;--cache-type-k q4_0&lt;/code&gt; 和 &lt;code&gt;--cache-type-v q4_0&lt;/code&gt; 用於量化 KV Cache，能節省記憶體和顯存，但可能對輸出品質和速度有輕微影響。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;-b 512&lt;/code&gt; 與 &lt;code&gt;-ub 128&lt;/code&gt; 控制批次處理相關參數。小顯存環境下，不要一開始就把批次參數設得太激進。&lt;/p&gt;
&lt;h2 id=&#34;常見問題&#34;&gt;常見問題
&lt;/h2&gt;&lt;p&gt;如果啟動時提示顯存不足，可以先降低上下文長度，例如把 &lt;code&gt;-c 32768&lt;/code&gt; 改成 &lt;code&gt;-c 8192&lt;/code&gt;，再嘗試減小 &lt;code&gt;-b&lt;/code&gt; 和 &lt;code&gt;-ub&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;如果圖片上傳按鈕不可用，優先檢查 &lt;code&gt;--mmproj&lt;/code&gt; 路徑是否正確，以及使用的 &lt;code&gt;mmproj&lt;/code&gt; 是否和模型匹配。&lt;/p&gt;
&lt;p&gt;如果模型載入後回應很慢，通常不是顯卡完全沒工作，而是大量權重或專家層由 CPU 與記憶體承擔。可以觀察工作管理員裡的 GPU、CPU、記憶體和磁碟占用，判斷瓶頸在哪裡。&lt;/p&gt;
&lt;p&gt;如果輸出格式異常，確認是否啟用了 &lt;code&gt;--jinja&lt;/code&gt;，並檢查目前模型是否需要對應聊天模板。&lt;/p&gt;
&lt;p&gt;如果服務啟動後瀏覽器打不開，檢查 &lt;code&gt;--host&lt;/code&gt; 和 &lt;code&gt;--port&lt;/code&gt; 設定，確認 8080 端口沒有被其他程式占用。&lt;/p&gt;
&lt;h2 id=&#34;適合誰嘗試&#34;&gt;適合誰嘗試
&lt;/h2&gt;&lt;p&gt;這套方案適合手上已有 RTX 3070、RTX 4060 Laptop、RTX 3060 8GB 這類 8GB 顯存設備，但又想嘗試更大 MoE 模型的使用者。&lt;/p&gt;
&lt;p&gt;它不適合追求極致速度的人。小顯存運行 35B MoE 本質上是在用記憶體和 CPU 換顯存門檻，能跑起來是一回事，是否足夠流暢是另一回事。&lt;/p&gt;
&lt;p&gt;如果目標是日常高頻聊天，7B、8B、14B 模型可能更舒服。如果目標是體驗更大 MoE 模型、多模態能力和本地部署邊界，那麼 RTX 3070 8GB 加 64GB 記憶體仍然有嘗試價值。&lt;/p&gt;
&lt;h2 id=&#34;小結&#34;&gt;小結
&lt;/h2&gt;&lt;p&gt;RTX 3070 8GB 能運行 Qwen3.6-35B-A3B 的關鍵，不是顯存突然變大，而是 MoE 架構、GGUF 量化、llama.cpp CPU Offload 和 KV Cache 最佳化共同降低了門檻。&lt;/p&gt;
&lt;p&gt;這類方案最值得關注的地方，是它讓舊顯卡仍然能參與本地大模型實驗。只要接受速度和穩定性上的取捨，8GB 顯存機器也可以成為本地 AI 模型測試平台，而不只是運行小模型的入門設備。&lt;/p&gt;
&lt;p&gt;參考資料：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;原文連結：https://www.freedidi.com/24267.html&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>Gemini Omni 是什麼？Google AI 影片多輪編輯模型完整解析</title>
        <link>https://knightli.com/zh-tw/2026/05/20/google-gemini-omni-video-editing/</link>
        <pubDate>Wed, 20 May 2026 23:11:58 +0800</pubDate>
        
        <guid>https://knightli.com/zh-tw/2026/05/20/google-gemini-omni-video-editing/</guid>
        <description>&lt;p&gt;Google DeepMind 公布了 &lt;code&gt;Gemini Omni&lt;/code&gt; 頁面。它的定位很直接：從任意輸入創作內容，目前重點從影片開始。&lt;/p&gt;
&lt;p&gt;如果說 Nano Banana 更偏向圖像生成和編輯，那麼 Gemini Omni 更像是面向影片的多模態編輯模型。使用者可以透過自然語言一步步修改影片，讓後一次修改建立在前一次修改之上，並盡量保持場景、人物、動作和畫面邏輯的一致性。&lt;/p&gt;
&lt;p&gt;專案頁面：&lt;a class=&#34;link&#34; href=&#34;https://deepmind.google/models/gemini-omni/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://deepmind.google/models/gemini-omni/&lt;/a&gt;&lt;/p&gt;
&lt;h2 id=&#34;它解決的核心問題&#34;&gt;它解決的核心問題
&lt;/h2&gt;&lt;p&gt;傳統影片編輯往往需要時間軸、圖層、遮罩、關鍵影格、調色、音軌和大量手動操作。AI 影片生成工具雖然可以從提示詞生成片段，但經常存在兩個問題：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;一次生成後不容易精細修改。&lt;/li&gt;
&lt;li&gt;多輪修改時人物、場景、風格和動作容易漂移。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Gemini Omni 想解決的是第二步：不是只生成一段影片，而是讓使用者像和剪輯師溝通一樣，持續提出修改要求。&lt;/p&gt;
&lt;p&gt;頁面給出的說法是，它可以透過自然、分步驟的對話編輯任何影片。每次編輯都建立在前一次結果上，目標是保持一個連貫、統一的場景。&lt;/p&gt;
&lt;h2 id=&#34;主要能力&#34;&gt;主要能力
&lt;/h2&gt;&lt;p&gt;Gemini Omni 的能力可以分成幾類。&lt;/p&gt;
&lt;p&gt;第一類是自然語言影片編輯。使用者可以直接要求模型改變影片裡的美學風格、動作或特效。例如讓鏡子像液體一樣泛起波紋，讓人物變成線稿、毛氈玩偶、透明全息線框，或者讓整個環境變成 3D voxel art。&lt;/p&gt;
&lt;p&gt;第二類是重構動作。它可以改變影片中發生的事情，例如放大手部形成的孔洞、讓玩具發出對應動物聲音、讓建築燈光隨音樂點亮。&lt;/p&gt;
&lt;p&gt;第三類是基於參考圖像編輯真實影片。使用者可以給出圖像參考，再要求模型把某種建築、太陽、飛行器或其他物體放進真實影片場景裡。&lt;/p&gt;
&lt;p&gt;第四類是多輪編輯保持一致性。頁面展示了把小提琴手移動到參考圖像環境、讓小提琴消失、再把鏡頭改成越肩角度的連續編輯流程。這比一次性提示詞更接近真實創作過程。&lt;/p&gt;
&lt;p&gt;第五類是多輸入引用。Gemini Omni 可以把圖像、文字、影片、音訊等輸入整合成一個輸出，支援風格遷移、動作遷移、角色替換、草圖轉影片等任務。&lt;/p&gt;
&lt;h2 id=&#34;為什麼它強調世界知識&#34;&gt;為什麼它強調世界知識
&lt;/h2&gt;&lt;p&gt;Google 在頁面裡反覆強調，Gemini Omni 不只是「畫面變得真實」，而是結合 Gemini 的世界知識、物理直覺、歷史、科學和敘事邏輯。&lt;/p&gt;
&lt;p&gt;這點很重要。影片模型如果只追求畫面質感，容易出現動作不合邏輯、物體關係混亂、文字和畫面不同步的問題。Gemini Omni 的目標是讓影片不僅看起來像，還要在故事、物理和語義上更連貫。&lt;/p&gt;
&lt;p&gt;頁面中的例子包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;大理石在連鎖反應軌道上滾動。&lt;/li&gt;
&lt;li&gt;用 claymation 解釋蛋白質折疊。&lt;/li&gt;
&lt;li&gt;用擬物化 stop motion 解釋海馬體工作方式。&lt;/li&gt;
&lt;li&gt;讓字母和畫面裡的物體對應出現。&lt;/li&gt;
&lt;li&gt;讓螢幕文字按節奏逐詞出現。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這些例子說明它不是單純的短影片特效工具，而是試圖把知識表達、敘事和視聽生成放在一起。&lt;/p&gt;
&lt;h2 id=&#34;和-veoflownano-banana-的關係&#34;&gt;和 Veo、Flow、Nano Banana 的關係
&lt;/h2&gt;&lt;p&gt;從 Google 目前產品線看，Gemini Omni 更像是多模態創作和編輯能力的一層入口。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;Veo&lt;/code&gt; 更偏影片生成模型本身，強調電影感影片和音訊生成。&lt;code&gt;Google Flow&lt;/code&gt; 是面向創作者的 AI 創意工作室，適合組織鏡頭、素材和影片專案。&lt;code&gt;Nano Banana&lt;/code&gt; 更偏圖像建立和細節編輯。Gemini Omni 則強調「從任意輸入到一致輸出」的多模態編輯，尤其是影片上的多輪自然語言控制。&lt;/p&gt;
&lt;p&gt;簡單理解：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;想生成高品質影片：關注 Veo。&lt;/li&gt;
&lt;li&gt;想在創作工作流裡組織影片專案：關注 Google Flow。&lt;/li&gt;
&lt;li&gt;想編輯圖像：關注 Nano Banana。&lt;/li&gt;
&lt;li&gt;想用對話方式修改影片，並引用圖片、文字、影片、音訊：關注 Gemini Omni。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;使用入口&#34;&gt;使用入口
&lt;/h2&gt;&lt;p&gt;頁面給出的入口包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Gemini app。&lt;/li&gt;
&lt;li&gt;Google Flow。&lt;/li&gt;
&lt;li&gt;YouTube Shorts。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;不過頁面也說明，需要 Google AI 訂閱，功能會因訂閱層級和地區而不同。也就是說，並不是所有使用者在所有地區都能立即使用完整能力。&lt;/p&gt;
&lt;p&gt;對創作者來說，最值得關注的入口可能是 Google Flow，因為它更接近完整創意工作台。對普通使用者來說，Gemini app 和 YouTube Shorts 可能是更低門檻的體驗入口。&lt;/p&gt;
&lt;h2 id=&#34;安全和內容標記&#34;&gt;安全和內容標記
&lt;/h2&gt;&lt;p&gt;Gemini Omni 頁面專門提到安全流程。Gemini Omni Flash 的開發與內部安全、安全責任團隊合作，並進行了自動化評估、人工評估、人工紅隊、自動化紅隊和發布前倫理安全審查。&lt;/p&gt;
&lt;p&gt;內容透明度方面，頁面說明透過 Omni 在 Gemini app、Google Flow 或 YouTube 建立或編輯的內容，會包含不可感知的 &lt;code&gt;SynthID&lt;/code&gt; 數位浮水印和 &lt;code&gt;C2PA Content Credentials&lt;/code&gt;。使用者可以透過 Gemini app 驗證內容，後續也會擴展到 Chrome 和搜尋。&lt;/p&gt;
&lt;p&gt;這部分對影片模型尤其關鍵。影片生成和影片編輯越真實，越需要內容來源標識、濫用防護和驗證工具。&lt;/p&gt;
&lt;h2 id=&#34;適合哪些人&#34;&gt;適合哪些人
&lt;/h2&gt;&lt;p&gt;Gemini Omni 適合幾類使用者：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;想用自然語言快速修改影片的內容創作者。&lt;/li&gt;
&lt;li&gt;需要把草圖、參考圖、音訊、影片素材整合成成片的設計團隊。&lt;/li&gt;
&lt;li&gt;做短影片、廣告概念、教育解釋影片和產品視覺稿的人。&lt;/li&gt;
&lt;li&gt;想在 Google Flow 中構建 AI 影片工作流的創作者。&lt;/li&gt;
&lt;li&gt;關注多模態影片編輯能力邊界的開發者和研究者。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;但它也不一定適合所有場景。嚴肅商業片、品牌主視覺、影視製作、產品發布影片仍然需要人工審片、版權檢查、事實校對和素材管理。AI 可以明顯加速概念生成和初稿迭代，但不應替代最終審核。&lt;/p&gt;
&lt;h2 id=&#34;怎麼看-gemini-omni&#34;&gt;怎麼看 Gemini Omni
&lt;/h2&gt;&lt;p&gt;Gemini Omni 的意義在於，它把 AI 影片從「一次性生成」推進到「可對話修改」。這比單純提升畫質更接近真實創作流程。&lt;/p&gt;
&lt;p&gt;如果它在多輪編輯、一致性、參考素材控制、音畫同步和內容標記上表現穩定，AI 影片工具的使用方式會發生變化：使用者不再只寫一條長提示詞賭結果，而是像導演、剪輯師、設計師一樣，逐輪修改場景、動作、風格和敘事。&lt;/p&gt;
&lt;p&gt;目前仍要看實際開放範圍、價格、地區限制、生成時長、解析度、版權策略和商用規則。對於普通創作者，最實用的觀察點是：它在 Google Flow 和 Gemini app 裡能不能穩定完成多輪影片修改。&lt;/p&gt;
&lt;p&gt;參考來源：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://deepmind.google/models/gemini-omni/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Google DeepMind：Gemini Omni&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>讓 AI 自己操作電腦？UI-TARS-desktop 把桌面、瀏覽器和工具都接了起來</title>
        <link>https://knightli.com/zh-tw/2026/05/19/ui-tars-desktop-multimodal-ai-agent-stack/</link>
        <pubDate>Tue, 19 May 2026 10:56:50 +0800</pubDate>
        
        <guid>https://knightli.com/zh-tw/2026/05/19/ui-tars-desktop-multimodal-ai-agent-stack/</guid>
        <description>&lt;p&gt;&lt;code&gt;bytedance/UI-TARS-desktop&lt;/code&gt; 是字節開源的多模態 AI Agent 項目。它不是單一桌面應用，而是一套 Agent 棧，當前 README 中主要包含兩個方向：&lt;code&gt;Agent TARS&lt;/code&gt; 和 &lt;code&gt;UI-TARS Desktop&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;項目地址：&lt;a class=&#34;link&#34; href=&#34;https://github.com/bytedance/UI-TARS-desktop&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/bytedance/UI-TARS-desktop&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;官網地址：&lt;a class=&#34;link&#34; href=&#34;https://agent-tars.com&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://agent-tars.com&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;截至寫作時，GitHub API 顯示這個倉庫已有約 3.4 萬 star，主要語言是 TypeScript，許可證爲 Apache-2.0。README 對它的描述是“Open-Source Multimodal AI Agent Stack”。&lt;/p&gt;
&lt;h2 id=&#34;agent-tars-和-ui-tars-desktop-的區別&#34;&gt;Agent TARS 和 UI-TARS Desktop 的區別
&lt;/h2&gt;&lt;p&gt;README 把兩個項目放在同一個表格裏：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Agent TARS&lt;/code&gt;：通用多模態 AI Agent 棧，把 GUI Agent、視覺能力、終端、瀏覽器和產品工作流連接起來。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;UI-TARS Desktop&lt;/code&gt;：桌面應用，基於 UI-TARS 模型提供原生 GUI Agent 能力，可以操作本地或遠程電腦、瀏覽器。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;簡單說，Agent TARS 更像通用 Agent 運行棧，UI-TARS Desktop 更像桌面端 GUI 操作入口。&lt;/p&gt;
&lt;h2 id=&#34;agent-tars-能做什麼&#34;&gt;Agent TARS 能做什麼
&lt;/h2&gt;&lt;p&gt;Agent TARS 主要提供 CLI 和 Web UI。它的目標是讓多模態模型通過 MCP 和各種工具完成更接近真人的任務流。&lt;/p&gt;
&lt;p&gt;README 中列出的核心能力包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;一鍵啓動 CLI，支持 headful Web UI 和 headless server。&lt;/li&gt;
&lt;li&gt;混合瀏覽器 Agent，可以用 GUI Agent、DOM 或混合策略控制瀏覽器。&lt;/li&gt;
&lt;li&gt;Event Stream，用於數據流追蹤和調試。&lt;/li&gt;
&lt;li&gt;MCP 集成，可以掛載 MCP Server 接入真實工具。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;快速啓動示例：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;npx @agent-tars/cli@latest
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;也可以全局安裝：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;npm install @agent-tars/cli@latest -g
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;使用模型提供商運行：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;agent-tars --provider volcengine --model doubao-1-5-thinking-vision-pro-250428 --apiKey your-api-key
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey your-api-key
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h2 id=&#34;ui-tars-desktop-能做什麼&#34;&gt;UI-TARS Desktop 能做什麼
&lt;/h2&gt;&lt;p&gt;UI-TARS Desktop 是桌面 GUI Agent。它基於 UI-TARS 和 Seed-1.5-VL / 1.6 系列模型，重點是讓模型看懂屏幕並執行鼠標、鍵盤操作。&lt;/p&gt;
&lt;p&gt;README 中列出的能力包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;自然語言控制。&lt;/li&gt;
&lt;li&gt;截圖和視覺識別。&lt;/li&gt;
&lt;li&gt;精確鼠標與鍵盤控制。&lt;/li&gt;
&lt;li&gt;跨平臺支持：Windows、macOS、Browser。&lt;/li&gt;
&lt;li&gt;實時反饋和狀態顯示。&lt;/li&gt;
&lt;li&gt;本地處理，強調隱私和安全。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;示例任務包括修改 VS Code 設置、查看 GitHub issue、遠程控制電腦或瀏覽器等。&lt;/p&gt;
&lt;h2 id=&#34;爲什麼-gui-agent-重要&#34;&gt;爲什麼 GUI Agent 重要
&lt;/h2&gt;&lt;p&gt;傳統自動化依賴 API、DOM 或腳本。GUI Agent 的目標是直接面對屏幕：看見按鈕、輸入框、菜單和狀態，再通過鼠標鍵盤完成操作。&lt;/p&gt;
&lt;p&gt;這有兩個價值：&lt;/p&gt;
&lt;p&gt;第一，很多軟件沒有穩定 API，或者 API 覆蓋不到完整流程。GUI Agent 可以像人一樣從界面入手。&lt;/p&gt;
&lt;p&gt;第二，多模態模型可以處理截圖、文檔、網頁和應用界面，把視覺理解和操作結合起來。&lt;/p&gt;
&lt;p&gt;但它也有侷限。GUI 操作容易受分辨率、語言、佈局變化、彈窗、網絡延遲影響。對生產流程來說，仍然需要權限控制、執行確認和錯誤回滾。&lt;/p&gt;
&lt;h2 id=&#34;和-mcp-的關係&#34;&gt;和 MCP 的關係
&lt;/h2&gt;&lt;p&gt;Agent TARS 強調 MCP 集成。MCP 的價值在於把瀏覽器、文件、命令行、數據庫、內部服務等工具統一給 Agent 調用。&lt;/p&gt;
&lt;p&gt;對複雜任務來說，單靠 GUI 點擊不夠穩定。更好的方式往往是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;能用 API 的地方走 API。&lt;/li&gt;
&lt;li&gt;需要看頁面狀態時用視覺。&lt;/li&gt;
&lt;li&gt;需要真實網頁交互時用瀏覽器。&lt;/li&gt;
&lt;li&gt;需要本地軟件操作時用 GUI Agent。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;UI-TARS-desktop 這類項目正在探索的，就是把這些能力放到同一個 Agent 棧裏。&lt;/p&gt;
&lt;h2 id=&#34;使用前要注意什麼&#34;&gt;使用前要注意什麼
&lt;/h2&gt;&lt;p&gt;第一，桌面 Agent 有執行風險。它能操作鼠標、鍵盤和瀏覽器，就必須限制權限，避免誤操作文件、賬號、支付或生產系統。&lt;/p&gt;
&lt;p&gt;第二，遠程電腦和遠程瀏覽器操作要注意安全邊界。不要把未認證的控制入口暴露到公網。&lt;/p&gt;
&lt;p&gt;第三，多模態模型可能誤識別界面。關鍵操作前最好有人確認，尤其是刪除、提交、支付、發帖、交易等不可逆操作。&lt;/p&gt;
&lt;p&gt;第四，模型供應商、API key 和本地數據要分開管理，不要把敏感憑據寫進公開配置。&lt;/p&gt;
&lt;h2 id=&#34;適合誰&#34;&gt;適合誰
&lt;/h2&gt;&lt;p&gt;UI-TARS-desktop 適合這些場景：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;想研究 GUI Agent 和 Computer Use 的開發者。&lt;/li&gt;
&lt;li&gt;需要讓 AI 操作桌面應用或瀏覽器的團隊。&lt;/li&gt;
&lt;li&gt;想把 MCP 工具、瀏覽器操作和視覺模型組合起來的 Agent 開發者。&lt;/li&gt;
&lt;li&gt;需要遠程電腦 / 遠程瀏覽器操作實驗環境的用戶。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果只是簡單網頁自動化，普通 Playwright 或 Selenium 可能更直接。如果任務涉及桌面軟件、多模態理解和複雜工具鏈，UI-TARS-desktop 更值得看。&lt;/p&gt;
&lt;h2 id=&#34;小結&#34;&gt;小結
&lt;/h2&gt;&lt;p&gt;UI-TARS-desktop 的看點在於它不是隻做一個“會點按鈕”的桌面助手，而是把 GUI Agent、視覺模型、瀏覽器、CLI、MCP 和遠程操作放進同一套多模態 Agent 棧。&lt;/p&gt;
&lt;p&gt;這類項目代表了 AI Agent 的一個重要方向：從文本對話走向真實軟件環境。但越接近真實操作，越需要權限管理、執行審計和人工確認。試用時建議先從低風險任務開始。&lt;/p&gt;
&lt;p&gt;參考項目：&lt;a class=&#34;link&#34; href=&#34;https://github.com/bytedance/UI-TARS-desktop&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/bytedance/UI-TARS-desktop&lt;/a&gt;&lt;/p&gt;
</description>
        </item>
        <item>
        <title>什麼是圖像向量化：從像素圖到可搜尋可分析的向量表示</title>
        <link>https://knightli.com/zh-tw/2026/04/23/what-is-image-vectorization-vector-search-vision-workflow/</link>
        <pubDate>Thu, 23 Apr 2026 15:08:19 +0800</pubDate>
        
        <guid>https://knightli.com/zh-tw/2026/04/23/what-is-image-vectorization-vector-search-vision-workflow/</guid>
        <description>&lt;p&gt;圖片一直很多，但圖片真正能被系統「理解」和「利用」，並不是一件自然而然就會發生的事。&lt;/p&gt;
&lt;p&gt;對人來說，一張圖裡有沒有貓、是不是同一件商品、是不是某種異常缺陷，往往一眼就能看出來。可對系統來說，原始圖片首先只是像素排列。沒有額外處理時，它更像一堆顏色點，而不是一份可以直接拿來做檢索、分群、推薦和識別的資料。&lt;/p&gt;
&lt;p&gt;圖像向量化解決的就是這一步。它把原本以像素形式存在的圖片，轉換成一組可以被機器高效比較和計算的向量表示。很多「以圖搜圖」、相似圖片推薦、視覺檢索、圖像聚類和多模態理解，真正的底層都在這裡。&lt;/p&gt;
&lt;h2 id=&#34;一圖像向量化到底是什麼&#34;&gt;一、圖像向量化到底是什麼
&lt;/h2&gt;&lt;p&gt;先把概念壓成一句話：&lt;/p&gt;
&lt;p&gt;圖像向量化，就是把圖片轉成一串能表示圖像特徵的數字向量。&lt;/p&gt;
&lt;p&gt;這個向量通常不是給人看的，而是給模型和檢索系統用的。它的價值在於，圖片從此不再只是檔案，而變成一種可以參與計算、排序和相似度比較的資料物件。&lt;/p&gt;
&lt;p&gt;例如一張貓的照片，原始檔案裡保存的是像素資訊；做完向量化之後，系統拿到的是一個固定長度的數值向量。這個向量不會直接寫著「這是貓」，但它會把輪廓、紋理、顏色分布、局部結構、語義資訊等特徵編碼進去。這樣系統就能拿它去和其他圖片做距離計算，判斷哪些更相似，哪些差得更遠。&lt;/p&gt;
&lt;p&gt;所以圖像向量化真正改變的，不是圖片本身，而是圖片被系統處理的方式。&lt;/p&gt;
&lt;h2 id=&#34;二為什麼不能直接用原始像素做檢索和分析&#34;&gt;二、為什麼不能直接用原始像素做檢索和分析
&lt;/h2&gt;&lt;p&gt;原始像素當然也能算，但效果和效率都很受限。&lt;/p&gt;
&lt;p&gt;問題主要有三類：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;資料維度高，直接比較成本很高&lt;/li&gt;
&lt;li&gt;像素接近不等於語義接近&lt;/li&gt;
&lt;li&gt;光線、裁切、背景、解析度變化都可能干擾結果&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;最典型的例子就是商品圖檢索。兩張商品圖片就算拍攝角度不同、背景不同、尺寸不同，人看時還是知道它們是同一類商品；但如果只是逐像素比對，系統很容易把它們判成完全不同的圖片。&lt;/p&gt;
&lt;p&gt;向量化的意義，就是把「像不像」從像素層面的比較，提升到更接近語義和特徵層面的比較。&lt;/p&gt;
&lt;h2 id=&#34;三圖像向量化一般是怎麼做出來的&#34;&gt;三、圖像向量化一般是怎麼做出來的
&lt;/h2&gt;&lt;p&gt;從流程上看，圖像向量化通常不是一步完成，而是一條比較標準的處理鏈：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;先做前處理&lt;/li&gt;
&lt;li&gt;再提取圖像特徵&lt;/li&gt;
&lt;li&gt;把特徵壓成固定長度向量&lt;/li&gt;
&lt;li&gt;存進向量庫或檢索系統&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;其中每一步都會影響最後效果。&lt;/p&gt;
&lt;h3 id=&#34;1-前處理&#34;&gt;1. 前處理
&lt;/h3&gt;&lt;p&gt;前處理一般包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;縮放圖片尺寸&lt;/li&gt;
&lt;li&gt;歸一化輸入&lt;/li&gt;
&lt;li&gt;去除部分噪聲&lt;/li&gt;
&lt;li&gt;統一顏色或輸入格式&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;它的目的不是「讓畫面更好看」，而是讓後面的模型輸入更穩定。&lt;/p&gt;
&lt;h3 id=&#34;2-特徵提取&#34;&gt;2. 特徵提取
&lt;/h3&gt;&lt;p&gt;這裡是圖像向量化的核心。&lt;/p&gt;
&lt;p&gt;早期方法更依賴人工設計特徵，例如 &lt;code&gt;SIFT&lt;/code&gt;、&lt;code&gt;SURF&lt;/code&gt;、&lt;code&gt;HOG&lt;/code&gt; 這一類演算法，擅長提取邊緣、角點、局部結構等低層特徵。現在更常見的是用深度學習模型來做這件事，例如：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;ResNet&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;VGG&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Inception&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;ViT&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;CLIP&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這些模型會把圖片編碼成更高層、更抽象的視覺特徵。和傳統特徵工程相比，它們更擅長表達語義，也更適合做相似度檢索、多模態理解和大規模聚類。&lt;/p&gt;
&lt;h3 id=&#34;3-向量生成&#34;&gt;3. 向量生成
&lt;/h3&gt;&lt;p&gt;特徵提取之後，系統通常會把中間表示進一步壓縮成固定長度的向量，例如 &lt;code&gt;512&lt;/code&gt; 維、&lt;code&gt;768&lt;/code&gt; 維、&lt;code&gt;1024&lt;/code&gt; 維。&lt;/p&gt;
&lt;p&gt;這一步的關鍵，不是維度越高越好，而是要在表達能力、儲存成本和檢索速度之間找到平衡。&lt;/p&gt;
&lt;h3 id=&#34;4-儲存與檢索&#34;&gt;4. 儲存與檢索
&lt;/h3&gt;&lt;p&gt;向量生成之後，通常不會再像普通圖片檔那樣管理，而是會進入支援向量檢索的系統，例如：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Faiss&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Milvus&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;具備向量能力的搜尋系統&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這時圖片就可以參與近似最近鄰檢索、聚類分析和相似度排序。&lt;/p&gt;
&lt;h2 id=&#34;四技術路線是怎麼演進的&#34;&gt;四、技術路線是怎麼演進的
&lt;/h2&gt;&lt;p&gt;圖像向量化不是這兩年才有，只是近幾年效果和應用場景擴展得更快。&lt;/p&gt;
&lt;p&gt;大致可以分成三段來看：&lt;/p&gt;
&lt;h3 id=&#34;1-傳統特徵工程階段&#34;&gt;1. 傳統特徵工程階段
&lt;/h3&gt;&lt;p&gt;這個階段的重點是人工定義圖像特徵，例如邊緣、紋理、角點和局部描述子。優點是成熟、可解釋，缺點是對複雜場景和語義理解能力有限。&lt;/p&gt;
&lt;h3 id=&#34;2-cnn-主導階段&#34;&gt;2. CNN 主導階段
&lt;/h3&gt;&lt;p&gt;卷積神經網路讓圖像向量化進入自動學習特徵的階段。和手工特徵相比，它能學到更複雜、更穩定的視覺表示，適合分類、識別和相似檢索。&lt;/p&gt;
&lt;h3 id=&#34;3-transformer-和多模態階段&#34;&gt;3. Transformer 和多模態階段
&lt;/h3&gt;&lt;p&gt;這一步把圖像向量化從「看圖特徵」進一步推向「圖文語義對齊」。像 &lt;code&gt;ViT&lt;/code&gt; 和 &lt;code&gt;CLIP&lt;/code&gt; 這類模型，已經不只是拿來識別圖片本身，而是在讓圖片進入更大的多模態系統裡，和文字、標籤、知識庫一起工作。&lt;/p&gt;
&lt;p&gt;這也是為什麼現在很多圖像檢索系統，不只是「以圖搜圖」，而是已經能做「文本搜圖」或圖文混合檢索。&lt;/p&gt;
&lt;h2 id=&#34;五它最常見的應用場景有哪些&#34;&gt;五、它最常見的應用場景有哪些
&lt;/h2&gt;&lt;p&gt;圖像向量化並不是只服務於學術研究，它在業務裡非常實用。&lt;/p&gt;
&lt;h3 id=&#34;1-相似圖片檢索&#34;&gt;1. 相似圖片檢索
&lt;/h3&gt;&lt;p&gt;這是最直觀的場景。&lt;/p&gt;
&lt;p&gt;系統把圖片轉成向量之後，就可以做：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;以圖搜圖&lt;/li&gt;
&lt;li&gt;重複圖片識別&lt;/li&gt;
&lt;li&gt;相似商品匹配&lt;/li&gt;
&lt;li&gt;視覺去重&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;電商、內容平台、素材管理系統裡，這類需求都很常見。&lt;/p&gt;
&lt;h3 id=&#34;2-推薦系統&#34;&gt;2. 推薦系統
&lt;/h3&gt;&lt;p&gt;很多推薦問題，本質上都是「這張圖和使用者剛看過的內容像不像」。&lt;/p&gt;
&lt;p&gt;向量化之後，系統可以把圖片內容本身也納入推薦邏輯，而不是只依賴文字標籤或人工分類。對商品推薦、內容推薦和廣告匹配來說，這一步很有價值。&lt;/p&gt;
&lt;h3 id=&#34;3-圖像聚類和自動分類&#34;&gt;3. 圖像聚類和自動分類
&lt;/h3&gt;&lt;p&gt;當圖片規模很大時，人工整理會非常慢。&lt;/p&gt;
&lt;p&gt;向量化之後，可以先按相似度把圖片自動聚成若干組，再做：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;圖片歸檔&lt;/li&gt;
&lt;li&gt;場景分組&lt;/li&gt;
&lt;li&gt;素材整理&lt;/li&gt;
&lt;li&gt;自動標籤建議&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這在製造、醫療、教育和媒體內容管理裡都很常見。&lt;/p&gt;
&lt;h3 id=&#34;4-異常檢測和質檢&#34;&gt;4. 異常檢測和質檢
&lt;/h3&gt;&lt;p&gt;如果「正常樣本」已經能被穩定向量化，那麼偏離正常分布的圖片就更容易被識別出來。&lt;/p&gt;
&lt;p&gt;典型場景包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;工業缺陷檢測&lt;/li&gt;
&lt;li&gt;監控異常識別&lt;/li&gt;
&lt;li&gt;票據或影像異常篩查&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這裡向量化的作用，不是直接給出最終判斷，而是先把圖像變成適合比較和建模的輸入。&lt;/p&gt;
&lt;h3 id=&#34;5-多模態檢索和圖文理解&#34;&gt;5. 多模態檢索和圖文理解
&lt;/h3&gt;&lt;p&gt;這是現在更值得關注的一塊。&lt;/p&gt;
&lt;p&gt;當圖像和文字都能被編碼到相近的向量空間裡，系統就可以做：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;文本搜圖&lt;/li&gt;
&lt;li&gt;圖文對齊&lt;/li&gt;
&lt;li&gt;圖像內容檢索&lt;/li&gt;
&lt;li&gt;多模態知識檢索&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這類能力和現在很多生成式 AI、視覺問答、企業知識庫增強檢索都能接起來。&lt;/p&gt;
&lt;h2 id=&#34;六企業落地時真正要面對哪些問題&#34;&gt;六、企業落地時真正要面對哪些問題
&lt;/h2&gt;&lt;p&gt;圖像向量化聽起來很順，但真正落地時，難點通常不在「知不知道這個概念」，而在下面這些細節：&lt;/p&gt;
&lt;h3 id=&#34;1-向量維度和成本怎麼平衡&#34;&gt;1. 向量維度和成本怎麼平衡
&lt;/h3&gt;&lt;p&gt;維度太低，表達不夠；維度太高，儲存和檢索成本就會上升。這個問題沒有統一答案，必須結合資料規模、回應時間和準確率一起看。&lt;/p&gt;
&lt;h3 id=&#34;2-模型效果能不能跨場景複用&#34;&gt;2. 模型效果能不能跨場景複用
&lt;/h3&gt;&lt;p&gt;一個模型在公開資料集上表現不錯，不代表它在你的業務圖片上也一樣有效。商品圖、工業圖、醫學影像、監控截圖，這些分布差異很大，很多時候都要重新評估。&lt;/p&gt;
&lt;h3 id=&#34;3-檢索系統能不能跟上規模增長&#34;&gt;3. 檢索系統能不能跟上規模增長
&lt;/h3&gt;&lt;p&gt;當圖片量從幾萬變成幾百萬、幾千萬時，向量生成只是前半段，後面的索引、召回、更新策略和線上查詢能力，才是真正決定體驗的部分。&lt;/p&gt;
&lt;h3 id=&#34;4-圖像向量化不是業務閉環本身&#34;&gt;4. 圖像向量化不是業務閉環本身
&lt;/h3&gt;&lt;p&gt;這一點特別容易被忽略。&lt;/p&gt;
&lt;p&gt;向量化解決的是「把圖片變成可計算物件」的問題，但它不等於完整方案。後面你還需要：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;檢索邏輯&lt;/li&gt;
&lt;li&gt;標籤體系&lt;/li&gt;
&lt;li&gt;結果評估&lt;/li&gt;
&lt;li&gt;人工校驗流程&lt;/li&gt;
&lt;li&gt;和業務系統的連接方式&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果這些沒有接上，向量本身並不會自動產生價值。&lt;/p&gt;
&lt;h2 id=&#34;七怎麼看它的實際價值&#34;&gt;七、怎麼看它的實際價值
&lt;/h2&gt;&lt;p&gt;如果只看技術定義，圖像向量化像是一個底層術語；但從業務角度看，它的價值其實很具體：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;讓圖片第一次具備可搜尋性&lt;/li&gt;
&lt;li&gt;讓相似度比較從像素層走向語義層&lt;/li&gt;
&lt;li&gt;讓圖像能接進推薦、檢索、聚類和識別鏈路&lt;/li&gt;
&lt;li&gt;讓視覺資料真正進入企業分析和自動化流程&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;可以把它理解成視覺資料進入 AI 系統的「標準化入口」。沒有這一步，很多圖片相關能力都只能停留在檔案管理層；有了這一步，圖片才開始變成能參與決策和自動化處理的資料資產。&lt;/p&gt;
&lt;h2 id=&#34;結語&#34;&gt;結語
&lt;/h2&gt;&lt;p&gt;圖像向量化不是一個孤立的小技巧，而是現代視覺系統裡非常基礎的一層。&lt;/p&gt;
&lt;p&gt;它做的事並不神祕：把圖片從「像素集合」變成「可檢索、可比較、可分析的向量表示」。但就是這一步，決定了圖片能不能真正進入 AI、搜尋、推薦和多模態應用鏈路裡。&lt;/p&gt;
&lt;p&gt;如果只記一句話，可以先記住這個判斷：&lt;/p&gt;
&lt;p&gt;圖像向量化的本質，不是壓縮圖片，而是把圖片變成機器真正能用的資料表示。&lt;/p&gt;
</description>
        </item>
        <item>
        <title>OpenAI 發布 ChatGPT Images 2.0：圖像生成開始走向可直接交付</title>
        <link>https://knightli.com/zh-tw/2026/04/22/openai-chatgpt-images-2-0-deliverable-image-generation/</link>
        <pubDate>Wed, 22 Apr 2026 14:21:45 +0800</pubDate>
        
        <guid>https://knightli.com/zh-tw/2026/04/22/openai-chatgpt-images-2-0-deliverable-image-generation/</guid>
        <description>&lt;p&gt;OpenAI 在 2026 年 4 月 21 日發布了 &lt;a class=&#34;link&#34; href=&#34;https://openai.com/index/introducing-chatgpt-images-2-0/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Introducing ChatGPT Images 2.0&lt;/a&gt;。從官方頁面來看，這次更新想強調的並不只是「圖片更好看了」，而是圖像生成正在往「更可控、可排版、可直接交付」的方向走。&lt;/p&gt;
&lt;p&gt;如果只看這篇發布頁，它更像一組高密度能力展示，而不是傳統意義上的技術說明。頁面幾乎沒有展開模型結構、訓練細節或基準測試，而是用大量示例圖直接回答一個問題：現在的 ChatGPT 圖像生成，能不能把過去還要靠設計師反覆修圖、補字、調版式的工作，進一步前移到生成階段。&lt;/p&gt;
&lt;h2 id=&#34;01-這次更新最明顯的訊號&#34;&gt;01 這次更新最明顯的訊號
&lt;/h2&gt;&lt;p&gt;官方頁面裡最醒目的幾個關鍵詞，其實已經把重點說得很清楚：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Greater precision and control&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Stronger across languages&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Stylistic sophistication and realism&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這三點放在一起看，含義很明確。&lt;/p&gt;
&lt;p&gt;第一，不再只強調「想像力」，而是強調控制力。頁面裡出現了大量海報、雜誌頁、宣傳頁、資訊圖、角色設定頁、分鏡漫畫、印刷書籤這類示例。它們的共同點不是單張視覺衝擊力，而是需要同時處理文字、層級、留白、構圖、風格統一和輸出比例。這說明 OpenAI 在刻意把產品定位從「生成一張圖」往「生成一份可以拿去用的視覺成品」推進。&lt;/p&gt;
&lt;p&gt;第二，多語言文字能力被單獨拎出來做展示。頁面裡不僅有多語種海報、書籍封面、韓文旅宿宣傳頁、日文漫畫，還有專門強調 typography 的示例。這很關鍵，因為過去圖像模型最容易翻車的地方之一，就是一旦涉及長文本、複雜版式或非英文文字，穩定性會明顯下降。現在 OpenAI 把它放到發布頁核心位置，本身就是在傳遞一個訊號：文字渲染和跨語言排版，已經成為它們認為值得正面展示的能力。&lt;/p&gt;
&lt;p&gt;第三，風格覆蓋面被拉得很寬。官方示例同時覆蓋了寫實攝影、復古拼貼、Bauhaus 海報、時尚大片、黑白紀實、兒童繪本、日漫、青年漫畫、教育資訊圖、產品網格圖、角色設定頁等多種形式。這裡想表達的不是「模型能模仿很多畫風」這麼簡單，而是它正在嘗試從單一美術風格輸出，走向更完整的視覺任務適配。&lt;/p&gt;
&lt;h2 id=&#34;02-為什麼說它在走向可直接交付&#34;&gt;02 為什麼說它在走向「可直接交付」
&lt;/h2&gt;&lt;p&gt;從這頁內容來看，ChatGPT Images 2.0 更像一個「圖像製作工作台」能力升級，而不只是更強的文生圖模型。&lt;/p&gt;
&lt;p&gt;過去很多模型雖然也能生成漂亮圖片，但一旦使用者需求變成下面這些任務，體驗就會迅速下降：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;做一張帶完整標題、副標題和說明文字的海報&lt;/li&gt;
&lt;li&gt;做一頁資訊密度較高的雜誌或宣傳頁&lt;/li&gt;
&lt;li&gt;做帶連續角色和連續敘事的漫畫頁&lt;/li&gt;
&lt;li&gt;做需要固定比例、特定版式和明確品牌感的行銷物料&lt;/li&gt;
&lt;li&gt;做包含多語言文字的正式視覺內容&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;而 OpenAI 這次展示的例子，幾乎都在正面回應這些老問題。&lt;/p&gt;
&lt;p&gt;例如頁面裡有教育資訊圖、設計趨勢海報、書籤印刷稿、咖啡店開業海報、旅遊宣傳頁、產品周邊展示圖、論文海報重製圖。這類內容有一個共同特徵：它們不是「給人看一眼覺得不錯」就結束，而是更接近真實工作流裡的半成品甚至成品。&lt;/p&gt;
&lt;p&gt;換句話說，這次更新真正重要的地方，可能不是單張圖品質又提升了多少，而是模型開始更像一套可用於內容生產、品牌物料、教育傳播和輕量設計工作的生成系統。&lt;/p&gt;
&lt;h2 id=&#34;03-這對-chatgpt-產品定位意味著什麼&#34;&gt;03 這對 ChatGPT 產品定位意味著什麼
&lt;/h2&gt;&lt;p&gt;從發布頁的組織方式，也能看出一些產品層面的變化。&lt;/p&gt;
&lt;p&gt;OpenAI 沒有把 ChatGPT Images 2.0 包裝成一個只服務創意圈的圖像模型，而是不斷用「研究、推理、資料轉化、版面整理、知識表達、行銷輸出」這些場景去展示它。頁面裡甚至還有把數學證明、設計趨勢、歷史筆記、學術論文可視化的例子。&lt;/p&gt;
&lt;p&gt;這意味著圖像生成在 ChatGPT 裡的角色，已經不只是「給聊天配圖」或「生成一張插畫」，而是在向更通用的表達層靠攏。它想做的是：當使用者已經在 ChatGPT 裡思考、查資料、整理內容、寫文案之後，最後一步連視覺產出也一起完成。&lt;/p&gt;
&lt;p&gt;如果這個方向繼續推進，圖像功能的競爭點就不再只是審美和寫實程度，而會越來越依賴下面這些能力：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;是否能穩定處理複雜文字&lt;/li&gt;
&lt;li&gt;是否能維持跨頁面或多面板的一致性&lt;/li&gt;
&lt;li&gt;是否能生成更接近真實工作物料的版式&lt;/li&gt;
&lt;li&gt;是否能在研究、寫作、行銷、教學這些任務裡自然接上前面的上下文&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;04-這篇發布頁沒有說什麼&#34;&gt;04 這篇發布頁沒有說什麼
&lt;/h2&gt;&lt;p&gt;當然，發布頁的寫法也決定了它更適合「看方向」，不太適合「看細節」。&lt;/p&gt;
&lt;p&gt;截至官方頁面 2026 年 4 月 21 日的內容，它主要展示的是結果，而不是方法。頁面沒有詳細展開：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;模型與上一代相比的量化提升&lt;/li&gt;
&lt;li&gt;文字準確率或多語言渲染的明確指標&lt;/li&gt;
&lt;li&gt;複雜版式任務的失敗邊界&lt;/li&gt;
&lt;li&gt;API、價格、調用方式或企業側接入細節&lt;/li&gt;
&lt;li&gt;安全策略和生成限制的具體更新&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;所以更準確地說，這篇文章傳遞的是產品訊號，而不是完整技術規格。&lt;/p&gt;
&lt;h2 id=&#34;05-簡單結論&#34;&gt;05 簡單結論
&lt;/h2&gt;&lt;p&gt;如果只用一句話概括 ChatGPT Images 2.0，這次更新最值得注意的不是「更會畫」，而是「更會做成品」。&lt;/p&gt;
&lt;p&gt;OpenAI 顯然希望把圖像生成從靈感型工具，往可執行、可排版、可溝通、可交付的生產工具推進。文字控制、多語言、版式、風格跨度、長頁面內容組織，這些原本最容易暴露短板的地方，現在反而成了它主動展示的賣點。&lt;/p&gt;
&lt;p&gt;這不代表圖像生成已經完全解決了設計工作裡的所有問題，但至少從這次發布頁可以看出，競爭重心正在變化。未來誰更強，可能不只是看誰能出一張更驚豔的圖，而是看誰能更穩定地做出一份真的能拿去用的視覺內容。&lt;/p&gt;
&lt;h2 id=&#34;相關連結&#34;&gt;相關連結
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://openai.com/index/introducing-chatgpt-images-2-0/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Introducing ChatGPT Images 2.0 - OpenAI&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        
    </channel>
</rss>
