<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>多模态 on KnightLi的博客</title>
        <link>https://knightli.com/tags/%E5%A4%9A%E6%A8%A1%E6%80%81/</link>
        <description>Recent content in 多模态 on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <lastBuildDate>Mon, 25 May 2026 08:00:37 +0800</lastBuildDate><atom:link href="https://knightli.com/tags/%E5%A4%9A%E6%A8%A1%E6%80%81/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>WavFlow：Meta 开源原始波形空间音频生成项目</title>
        <link>https://knightli.com/2026/05/25/wavflow-raw-waveform-audio-generation/</link>
        <pubDate>Mon, 25 May 2026 08:00:37 +0800</pubDate>
        
        <guid>https://knightli.com/2026/05/25/wavflow-raw-waveform-audio-generation/</guid>
        <description>&lt;p&gt;&lt;code&gt;facebookresearch/WavFlow&lt;/code&gt; 是 Meta AI 发布的多模态音频生成项目，论文标题是 &lt;code&gt;WavFlow: Audio Generation in Waveform Space&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;项目地址：&lt;a class=&#34;link&#34; href=&#34;https://github.com/facebookresearch/WavFlow&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/facebookresearch/WavFlow&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;它关注的不是语音合成，也不是单纯的音乐生成，而是从视频和文本条件生成同步、高保真的音频。更特别的是，它不走常见的 latent compression 路线，而是尝试直接在 raw waveform space 里做端到端音频生成。&lt;/p&gt;
&lt;p&gt;截至写作时，GitHub 页面显示仓库约有 55 star、3 fork，代码主要是 Python，项目没有发布 release。仓库 README 也明确提醒：由于组织政策限制，目前不能发布 production-trained checkpoints，团队正在训练基于完全开源数据的 foundation checkpoint。在那之前，用户需要自己训练模型。&lt;/p&gt;
&lt;h2 id=&#34;wavflow-想解决什么问题&#34;&gt;WavFlow 想解决什么问题
&lt;/h2&gt;&lt;p&gt;很多多模态音频生成方法会先把音频压缩到 latent 空间，再在 latent 上做生成，最后还原成波形。这条路线效率高，但也会带来一个问题：压缩过程可能损失细节，最终音频的质感、同步性和高频信息会受影响。&lt;/p&gt;
&lt;p&gt;WavFlow 的思路是绕开这一步，直接在原始波形空间生成音频。&lt;/p&gt;
&lt;p&gt;README 里提到，它通过 waveform patchifying 和 amplitude lifting，让 flow matching 可以稳定地作用在 raw audio 上，并使用直接的 &lt;code&gt;x&lt;/code&gt;-prediction。直白一点说，它不是先把声音压成某种中间表示再生成，而是把音频波形本身切成适合模型处理的 patch，并做幅度变换，让模型能在波形层面学习生成。&lt;/p&gt;
&lt;p&gt;这也是它最值得关注的地方：如果端到端波形生成能稳定工作，就有机会减少编码器/解码器带来的信息瓶颈。&lt;/p&gt;
&lt;h2 id=&#34;支持哪些输入模式&#34;&gt;支持哪些输入模式
&lt;/h2&gt;&lt;p&gt;从 README 和训练说明看，WavFlow 面向三类输入。&lt;/p&gt;
&lt;p&gt;第一类是 VT2A，也就是 video + text to audio。给模型视频和文本描述，让它生成与画面和语义同步的音频，比如森林、青蛙、鼓声、滑板等场景。&lt;/p&gt;
&lt;p&gt;第二类是 T2A，也就是 text to audio。只有文本描述，没有视频输入。训练时使用 CLIP text feature，推理时 CSV 里可以把 &lt;code&gt;video_exist&lt;/code&gt; 设为 &lt;code&gt;0&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;第三类是 V2A，也就是 video to audio。只有视频，没有文本。推理时可以把 &lt;code&gt;text_exist&lt;/code&gt; 设为 &lt;code&gt;0&lt;/code&gt;，模型会使用 learned empty CLIP-text token。&lt;/p&gt;
&lt;p&gt;这种设计比较实用。真实数据里不一定每条样本都有完整的视频、文本和音频标注，WavFlow 用 &lt;code&gt;video_exist&lt;/code&gt; 和 &lt;code&gt;text_exist&lt;/code&gt; 这类字段把缺失模态显式表达出来，训练和推理都能处理不同组合。&lt;/p&gt;
&lt;h2 id=&#34;评测和效果定位&#34;&gt;评测和效果定位
&lt;/h2&gt;&lt;p&gt;README 提到，WavFlow 在 VGGSound 的 VT2A 任务和 AudioCaps 的 T2A 任务上进行评测，表现可以和已有 latent-based 方法相当。&lt;/p&gt;
&lt;p&gt;这句话的意义不是说它已经全面碾压现有模型，而是证明一件事：端到端 raw waveform generation 并不一定输给传统 latent 框架。至少在 acoustic richness、fidelity 和 synchronization 这些指标上，它可以达到同一档水平。&lt;/p&gt;
&lt;p&gt;项目页还提供了 forest、frog、drum、skateboard 等 demo，并在项目主页放了 24 个以上样例和并排 benchmark 对比。对音频生成模型来说，demo 很重要，因为文字指标很难完整描述声音的质感、空间感和同步感。&lt;/p&gt;
&lt;h2 id=&#34;安装方式&#34;&gt;安装方式
&lt;/h2&gt;&lt;p&gt;官方提供了自动安装脚本：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;git clone https://github.com/facebookresearch/WavFlow.git
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;cd&lt;/span&gt; WavFlow
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;bash scripts/setup.sh
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;conda activate wavflow
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;&lt;code&gt;scripts/setup.sh&lt;/code&gt; 会创建名为 &lt;code&gt;wavflow&lt;/code&gt; 的 conda 环境，并安装所需依赖。&lt;/p&gt;
&lt;p&gt;如果想手动安装，可以按 README 里的方式：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;5
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;conda create -n wavflow &lt;span class=&#34;nv&#34;&gt;python&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;3.10 -y
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;conda activate wavflow
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;pip install -r requirements.txt
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;pip install -e . --no-deps
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;conda install -n wavflow -c conda-forge &lt;span class=&#34;s2&#34;&gt;&amp;#34;ffmpeg&amp;lt;7&amp;#34;&lt;/span&gt; -y
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;这里的 &lt;code&gt;ffmpeg&amp;lt;7&lt;/code&gt; 主要是为了 torio 视频解码。README 还说明，CLIP、Synchformer、empty-string CFG embedding 等外部权重会在首次运行时自动下载或计算，并缓存到 &lt;code&gt;~/.cache/wavflow/&lt;/code&gt;。&lt;/p&gt;
&lt;h2 id=&#34;推理怎么跑&#34;&gt;推理怎么跑
&lt;/h2&gt;&lt;p&gt;由于官方暂时没有发布 production-trained checkpoints，下面的推理入口只适用于你已经有训练好的 checkpoint 的情况。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;bash scripts/launch/predict.sh &lt;span class=&#34;o&#34;&gt;[&lt;/span&gt;--gpu N&lt;span class=&#34;o&#34;&gt;]&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;[&lt;/span&gt;--config PATH&lt;span class=&#34;o&#34;&gt;]&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;默认配置文件是：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;wavflow/configs/infer.yaml
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;输入 CSV 由 &lt;code&gt;data.csv_path&lt;/code&gt; 指定，支持视频、文本，或者两者同时存在：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;5
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-csv&#34; data-lang=&#34;csv&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s&#34;&gt;video_path&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;caption&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;video_exist&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;text_exist&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s&#34;&gt;/abs/path/sample1.mp4&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;a whistling rocket explodes&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;1&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;1&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s&#34;&gt;/abs/path/sample2.mp4&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;birds chirping in a forest&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;1&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;1&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;a whistling rocket explodes&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;0&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;1&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s&#34;&gt;/abs/path/sample3.mp4&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,,&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;1&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;0&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;其中 &lt;code&gt;video_exist=0&lt;/code&gt; 表示不解码视频，使用 learned empty CLIP/Sync tokens；&lt;code&gt;text_exist=0&lt;/code&gt; 表示忽略 caption，使用 learned empty CLIP-text token。如果有逗号的 caption，需要加引号。&lt;/p&gt;
&lt;p&gt;常用启动参数包括：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;--gpu N
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;--config PATH
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;WAVFLOW_ENV
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;关键配置项包括 &lt;code&gt;model.name&lt;/code&gt;、&lt;code&gt;model.ckpt_path&lt;/code&gt;、&lt;code&gt;model.use_ema&lt;/code&gt;、&lt;code&gt;inference.duration_sec&lt;/code&gt;、&lt;code&gt;target_sample_rate&lt;/code&gt;、&lt;code&gt;inference.cfg&lt;/code&gt;、&lt;code&gt;num_steps&lt;/code&gt;、&lt;code&gt;noise_scale&lt;/code&gt;、&lt;code&gt;noise_shift&lt;/code&gt;、&lt;code&gt;prediction_type&lt;/code&gt;、&lt;code&gt;seed&lt;/code&gt; 和输出目录。&lt;/p&gt;
&lt;h2 id=&#34;ema-的一个坑&#34;&gt;EMA 的一个坑
&lt;/h2&gt;&lt;p&gt;README 特别提醒了 &lt;code&gt;model.use_ema&lt;/code&gt; 的问题。&lt;/p&gt;
&lt;p&gt;WavFlow 的 checkpoint 里可能有 &lt;code&gt;model_ema1&lt;/code&gt;，它按 &lt;code&gt;ema_decay = 0.9999&lt;/code&gt; 更新。如果训练只跑了几百或几千步，EMA 里可能还包含大量随机初始化值，推理时会产生噪声。&lt;/p&gt;
&lt;p&gt;所以，如果你只是做短跑、过拟合小样本或 smoke test，采样时应该考虑：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-yaml&#34; data-lang=&#34;yaml&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nt&#34;&gt;model.use_ema&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt;&lt;span class=&#34;w&#34;&gt; &lt;/span&gt;&lt;span class=&#34;kc&#34;&gt;false&lt;/span&gt;&lt;span class=&#34;w&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;或者使用训练足够久之后保存的 &lt;code&gt;ema_epoch_*.pth&lt;/code&gt;。这个细节很实用，否则很容易误以为模型坏了，其实只是 EMA 还没稳定。&lt;/p&gt;
&lt;h2 id=&#34;训练流程&#34;&gt;训练流程
&lt;/h2&gt;&lt;p&gt;官方的 &lt;code&gt;TRAINING.md&lt;/code&gt; 把训练分成两步。&lt;/p&gt;
&lt;p&gt;第一步是特征提取。&lt;/p&gt;
&lt;p&gt;T2A 只提取 CLIP text feature；VT2A 会提取 CLIP frame feature、Synchformer feature 和 CLIP text feature。示例 CSV 大致是：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-csv&#34; data-lang=&#34;csv&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s&#34;&gt;id&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;audio_path&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;video_path&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;caption&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s&#34;&gt;sample1&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;/abs/or/relative/wav/sample1.wav&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;/abs/or/relative/video/sample1.mp4&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;a whistling rocket explodes&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;视频长度需要大于等于 &lt;code&gt;extraction.duration_sec&lt;/code&gt;，默认是 8 秒；更短的片段会被跳过。特征提取可以这样运行：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;bash scripts/launch/extract_t2a.sh
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;bash scripts/launch/extract_vt2a.sh
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;如果要用更多 GPU 或自定义配置：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nv&#34;&gt;NPROC_PER_NODE&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;m&#34;&gt;4&lt;/span&gt; bash scripts/launch/extract_vt2a.sh
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nv&#34;&gt;CONFIG_PATH&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;path/to/your_extract.yaml bash scripts/launch/extract_t2a.sh
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;第二步是训练。&lt;/p&gt;
&lt;p&gt;单机多卡可以用：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;bash scripts/launch/train_single_node.sh
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;多节点训练需要设置 &lt;code&gt;NNODES&lt;/code&gt;、&lt;code&gt;NODE_RANK&lt;/code&gt;、&lt;code&gt;MASTER_ADDR&lt;/code&gt;、&lt;code&gt;MASTER_PORT&lt;/code&gt; 和 &lt;code&gt;NPROC_PER_NODE&lt;/code&gt;。训练输出包括 &lt;code&gt;checkpoint_latest.pth&lt;/code&gt;、&lt;code&gt;checkpoint_epoch_*.pth&lt;/code&gt;、&lt;code&gt;ema_epoch_*.pth&lt;/code&gt;、生成音频样本和 &lt;code&gt;training.log&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;训练可以自动 resume：如果实验目录里存在 &lt;code&gt;checkpoint_latest.pth&lt;/code&gt;，训练会从那里继续。&lt;/p&gt;
&lt;h2 id=&#34;适合谁关注&#34;&gt;适合谁关注
&lt;/h2&gt;&lt;p&gt;WavFlow 更适合研究者和工程团队关注，而不是普通用户直接拿来做成品音效。&lt;/p&gt;
&lt;p&gt;适合关注它的人包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;研究 video-to-audio、text-to-audio 或 multimodal audio generation 的人。&lt;/li&gt;
&lt;li&gt;想比较 raw waveform generation 和 latent-based audio generation 的团队。&lt;/li&gt;
&lt;li&gt;需要训练自有音频生成模型，并能准备数据和 GPU 资源的用户。&lt;/li&gt;
&lt;li&gt;对视频画面和声音同步要求高的应用团队。&lt;/li&gt;
&lt;li&gt;想研究 flow matching 在原始音频波形上是否可行的人。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果你只是想找一个网页工具，输入 prompt 直接生成音效，WavFlow 现在不是最省事的选择。它暂时没有公开 production checkpoint，部署路径也更接近研究代码。&lt;/p&gt;
&lt;h2 id=&#34;使用时要注意什么&#34;&gt;使用时要注意什么
&lt;/h2&gt;&lt;p&gt;第一，不能把它当成“下载即用”的音频生成模型。官方目前没有发布生产训练 checkpoint，真正推理前需要自己训练，或者等待后续开放数据 checkpoint。&lt;/p&gt;
&lt;p&gt;第二，许可证不是宽松商用默认选项。README 说明，WavFlow 大部分代码采用 CC-BY-NC 4.0，部分 vendored 组件沿用 MIT、Apache 2.0、CC BY-NC 4.0 和 Stability AI Community License 等原始许可证。商业使用前要仔细读 &lt;code&gt;LICENSE&lt;/code&gt; 和 &lt;code&gt;NOTICE.txt&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;第三，训练数据很关键。WavFlow 的优势建立在音频、视频和文本对齐数据之上。如果数据质量差、caption 不准确、音画不同步，模型很难学到稳定的声音生成。&lt;/p&gt;
&lt;p&gt;第四，raw waveform generation 虽然减少 latent bottleneck，但也可能带来更高的训练和推理成本。实际项目里仍然要在音质、速度、显存、采样率和输出时长之间取舍。&lt;/p&gt;
&lt;h2 id=&#34;小结&#34;&gt;小结
&lt;/h2&gt;&lt;p&gt;WavFlow 的价值在于提出了一个清晰问题：多模态音频生成一定要先压缩到 latent 空间吗？&lt;/p&gt;
&lt;p&gt;它用 waveform patchifying、amplitude lifting 和 flow matching，尝试直接在 raw waveform space 里生成同步高保真音频。评测结果说明，这条路线至少有机会和成熟的 latent-based 方法站在同一水平线上。&lt;/p&gt;
&lt;p&gt;不过，现阶段它更像一套研究和训练框架，而不是开箱即用的产品模型。没有公开生产 checkpoint、许可证偏非商用、训练需要音视频文本对齐数据，这些都决定了它更适合研究、复现和二次训练。如果你关注下一代 video-to-audio 或 text-to-audio 模型，WavFlow 值得认真看一眼。&lt;/p&gt;
&lt;h2 id=&#34;参考资料&#34;&gt;参考资料
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;facebookresearch/WavFlow：&lt;a class=&#34;link&#34; href=&#34;https://github.com/facebookresearch/WavFlow&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/facebookresearch/WavFlow&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;WavFlow Project Page：&lt;a class=&#34;link&#34; href=&#34;https://facebookresearch.github.io/WavFlow/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://facebookresearch.github.io/WavFlow/&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;WavFlow arXiv：&lt;a class=&#34;link&#34; href=&#34;https://arxiv.org/abs/2605.18749&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://arxiv.org/abs/2605.18749&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;WavFlow Training Guide：&lt;a class=&#34;link&#34; href=&#34;https://github.com/facebookresearch/WavFlow/blob/main/TRAINING.md&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/facebookresearch/WavFlow/blob/main/TRAINING.md&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>Gemini 3.5 Flash 的定位及优势：为什么它更适合高频、多模态和低延迟场景</title>
        <link>https://knightli.com/2026/05/24/gemini-35-flash-positioning-advantages-low-latency-multimodal/</link>
        <pubDate>Sun, 24 May 2026 08:43:24 +0800</pubDate>
        
        <guid>https://knightli.com/2026/05/24/gemini-35-flash-positioning-advantages-low-latency-multimodal/</guid>
        <description>&lt;p&gt;&lt;code&gt;Gemini 3.5 Flash&lt;/code&gt; 的关键词不是“最强”，而是“高频、快速、便宜、好接入”。它更像是 Gemini 系列里的主力工作模型：不一定负责最难的推理题，但适合承接大量真实业务请求，例如问答、摘要、客服、内容处理、多模态理解、轻量代码辅助和自动化工作流。&lt;/p&gt;
&lt;p&gt;理解 Flash 的关键，是不要把它当成 Pro 类旗舰模型的替代品，而要把它当成一个面向吞吐量和响应速度优化的模型层。对开发者和企业来说，很多 AI 应用真正的成本不在单次最强能力，而在每天成千上万次请求的延迟、稳定性、价格和上下文处理能力。&lt;/p&gt;
&lt;h2 id=&#34;flash-的产品定位&#34;&gt;Flash 的产品定位
&lt;/h2&gt;&lt;p&gt;Gemini 系列通常会把模型拆成不同层级：旗舰模型负责更复杂的推理、规划和高难度任务；Flash 模型则强调速度、成本和规模化调用。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;Gemini 3.5 Flash&lt;/code&gt; 的定位可以概括为：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;比 Pro 更适合高频调用。&lt;/li&gt;
&lt;li&gt;比轻量小模型更适合复杂输入。&lt;/li&gt;
&lt;li&gt;面向低延迟和高吞吐。&lt;/li&gt;
&lt;li&gt;适合多模态输入和长上下文处理。&lt;/li&gt;
&lt;li&gt;更适合作为应用里的默认模型，而不是只在少数困难任务中调用。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这类模型最适合做“每天都要跑很多次”的任务。它的价值不只是单次回答质量，而是能否在成本可控的前提下稳定处理大量文本、图片、音频、视频或结构化信息。&lt;/p&gt;
&lt;h2 id=&#34;为什么-flash-很重要&#34;&gt;为什么 Flash 很重要
&lt;/h2&gt;&lt;p&gt;AI 产品落地时，经常会遇到一个现实问题：最强模型很好，但不是每个请求都值得用最强模型。&lt;/p&gt;
&lt;p&gt;例如：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;用户问一个普通客服问题。&lt;/li&gt;
&lt;li&gt;系统要总结一段会议记录。&lt;/li&gt;
&lt;li&gt;后台要分类一批工单。&lt;/li&gt;
&lt;li&gt;App 要解释一张图片。&lt;/li&gt;
&lt;li&gt;自动化流程要从邮件里抽取字段。&lt;/li&gt;
&lt;li&gt;Agent 要先读一批文档，再决定下一步。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这些任务需要模型可靠、便宜、快，但不一定需要旗舰模型的全部推理能力。Flash 的意义就在这里：它把“够强”和“够快”放在同一个位置上。&lt;/p&gt;
&lt;p&gt;如果一个 AI 应用要面向大量用户，默认模型往往不能只看峰值能力，而要看平均请求成本、响应速度、并发能力和失败率。Flash 就是这种应用层模型。&lt;/p&gt;
&lt;h2 id=&#34;主要优势一低延迟和高吞吐&#34;&gt;主要优势一：低延迟和高吞吐
&lt;/h2&gt;&lt;p&gt;Flash 最直观的优势是速度。&lt;/p&gt;
&lt;p&gt;对聊天产品、搜索增强、客服机器人、实时写作辅助和 Agent 工作流来说，延迟会直接影响体验。用户不一定知道模型参数或 benchmark，但能感觉到“是不是等得烦”。&lt;/p&gt;
&lt;p&gt;低延迟带来的价值包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;对话更像实时交互。&lt;/li&gt;
&lt;li&gt;多轮工具调用更不容易拖慢。&lt;/li&gt;
&lt;li&gt;Agent 可以更频繁地做中间判断。&lt;/li&gt;
&lt;li&gt;后台批处理能更快跑完。&lt;/li&gt;
&lt;li&gt;产品可以把 AI 能力放进更多细小流程里。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;尤其是 Agent 类应用，模型不是只回答一次，而是要反复判断、调用工具、读上下文、生成下一步动作。单次延迟降低后，整条链路的体验会明显改善。&lt;/p&gt;
&lt;h2 id=&#34;主要优势二成本更适合规模化&#34;&gt;主要优势二：成本更适合规模化
&lt;/h2&gt;&lt;p&gt;Flash 的另一个核心价值是成本。&lt;/p&gt;
&lt;p&gt;企业和开发者真正上线 AI 应用时，通常会关心三个问题：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;每次调用多少钱。&lt;/li&gt;
&lt;li&gt;每天总调用量是多少。&lt;/li&gt;
&lt;li&gt;峰值并发时成本和延迟是否可控。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果一个任务每天跑几十万次，哪怕单次差价很小，长期成本也会被放大。Flash 这类模型的定位，就是让更多请求不必直接打到最贵、最重的模型上。&lt;/p&gt;
&lt;p&gt;常见做法是分层调用：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;普通请求默认走 Flash。&lt;/li&gt;
&lt;li&gt;难题、复杂规划、长链路推理再升级到 Pro。&lt;/li&gt;
&lt;li&gt;简单分类、固定格式抽取也可以进一步下沉到更轻量模型。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这样可以让 AI 系统既保留上限，又控制日常成本。&lt;/p&gt;
&lt;h2 id=&#34;主要优势三多模态输入更适合真实应用&#34;&gt;主要优势三：多模态输入更适合真实应用
&lt;/h2&gt;&lt;p&gt;Gemini 系列一直强调多模态能力。Flash 的优势在于，它不是只服务文本请求，也适合处理图片、音频、视频和文档等输入。&lt;/p&gt;
&lt;p&gt;这对真实产品很重要。很多业务数据并不是纯文本：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;用户上传截图咨询问题。&lt;/li&gt;
&lt;li&gt;客服要理解一张故障照片。&lt;/li&gt;
&lt;li&gt;教育产品要看题目图片。&lt;/li&gt;
&lt;li&gt;内容平台要处理视频片段。&lt;/li&gt;
&lt;li&gt;办公场景要读取 PDF、表格和演示文稿。&lt;/li&gt;
&lt;li&gt;电商场景要分析商品图和用户描述。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果多模态能力只能依赖昂贵的旗舰模型，很多高频场景就很难铺开。Flash 的意义在于，把多模态理解下放到更适合规模化调用的模型层。&lt;/p&gt;
&lt;h2 id=&#34;主要优势四长上下文让它适合读材料&#34;&gt;主要优势四：长上下文让它适合读材料
&lt;/h2&gt;&lt;p&gt;长上下文是 Gemini 系列的重要能力之一。对 Flash 来说，长上下文的价值不是“把所有东西塞进去就完事”，而是让它能承担更多信息整理型任务。&lt;/p&gt;
&lt;p&gt;例如：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;总结长文档。&lt;/li&gt;
&lt;li&gt;阅读产品手册。&lt;/li&gt;
&lt;li&gt;分析会议纪要。&lt;/li&gt;
&lt;li&gt;整理多页 PDF。&lt;/li&gt;
&lt;li&gt;对比多份合同或方案。&lt;/li&gt;
&lt;li&gt;给 Agent 提供较大的任务背景。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;长上下文和低成本结合起来，适合做“先读大量材料，再给出可操作结果”的工作流。它不一定每次都要做极难推理，但能把更多上下文纳入同一次处理，这对办公、客服、知识库、研发辅助都很有用。&lt;/p&gt;
&lt;h2 id=&#34;主要优势五适合作为默认模型&#34;&gt;主要优势五：适合作为默认模型
&lt;/h2&gt;&lt;p&gt;很多 AI 产品需要一个“默认模型”。这个模型不一定是最贵最强，但要满足几个条件：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;大多数问题回答质量稳定。&lt;/li&gt;
&lt;li&gt;响应足够快。&lt;/li&gt;
&lt;li&gt;成本可控。&lt;/li&gt;
&lt;li&gt;多模态输入能处理。&lt;/li&gt;
&lt;li&gt;长上下文能力够用。&lt;/li&gt;
&lt;li&gt;容易接入 API 和现有产品链路。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;code&gt;Gemini 3.5 Flash&lt;/code&gt; 的优势正是在这里。它适合做默认入口：先承接大多数请求，如果遇到复杂任务，再路由到更强模型。&lt;/p&gt;
&lt;p&gt;这种模式会越来越常见。未来很多 AI 系统不是“只选一个模型”，而是“Flash 做主力，Pro 做升级，轻量模型做边缘任务”。&lt;/p&gt;
&lt;h2 id=&#34;适合哪些场景&#34;&gt;适合哪些场景
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;Gemini 3.5 Flash&lt;/code&gt; 更适合这些场景：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;客服问答和知识库检索后的回答生成。&lt;/li&gt;
&lt;li&gt;长文档摘要、报告整理、会议纪要。&lt;/li&gt;
&lt;li&gt;图片、截图、PDF、视频片段的多模态理解。&lt;/li&gt;
&lt;li&gt;App 内实时 AI 助手。&lt;/li&gt;
&lt;li&gt;内容审核、分类、标签生成。&lt;/li&gt;
&lt;li&gt;邮件、工单、表单的信息抽取。&lt;/li&gt;
&lt;li&gt;Agent 工作流中的中间判断和上下文压缩。&lt;/li&gt;
&lt;li&gt;代码解释、轻量修复建议、文档生成。&lt;/li&gt;
&lt;li&gt;教育产品里的题目解析和学习辅助。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这些场景共同特点是：请求量大、用户等待时间敏感、输入类型复杂，但不一定每次都需要旗舰级深度推理。&lt;/p&gt;
&lt;h2 id=&#34;不适合只用-flash-的场景&#34;&gt;不适合只用 Flash 的场景
&lt;/h2&gt;&lt;p&gt;Flash 不是万能模型。它更适合高频和低延迟，不代表所有问题都应该只用它。&lt;/p&gt;
&lt;p&gt;以下场景仍然更适合使用更强的 Pro 类模型，或至少采用分层路由：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;复杂数学和严谨证明。&lt;/li&gt;
&lt;li&gt;长链路规划和多步骤策略推理。&lt;/li&gt;
&lt;li&gt;高风险法律、医疗、金融判断。&lt;/li&gt;
&lt;li&gt;大型代码库的深度重构方案。&lt;/li&gt;
&lt;li&gt;需要极高可靠性的复杂 Agent 任务。&lt;/li&gt;
&lt;li&gt;对幻觉容忍度极低的专业报告。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;更稳妥的策略是：Flash 先处理、判断和整理；当任务复杂度升高时，再升级到更强模型。&lt;/p&gt;
&lt;h2 id=&#34;和-pro-类模型的关系&#34;&gt;和 Pro 类模型的关系
&lt;/h2&gt;&lt;p&gt;Flash 和 Pro 的关系，不应该理解成“谁取代谁”，而应该理解成“分工不同”。&lt;/p&gt;
&lt;p&gt;Flash 更像日常主力：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;快。&lt;/li&gt;
&lt;li&gt;成本友好。&lt;/li&gt;
&lt;li&gt;适合高并发。&lt;/li&gt;
&lt;li&gt;适合多模态和长上下文应用。&lt;/li&gt;
&lt;li&gt;适合放在产品默认链路里。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Pro 更像高难任务模型：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;更适合复杂推理。&lt;/li&gt;
&lt;li&gt;更适合困难规划。&lt;/li&gt;
&lt;li&gt;更适合高价值请求。&lt;/li&gt;
&lt;li&gt;更适合少量但重要的深度分析。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;好的 AI 产品通常会把两者组合起来，而不是二选一。&lt;/p&gt;
&lt;h2 id=&#34;开发者应该怎么用&#34;&gt;开发者应该怎么用
&lt;/h2&gt;&lt;p&gt;如果要在产品里接入 Gemini 3.5 Flash，可以考虑这几种用法：&lt;/p&gt;
&lt;p&gt;第一，把它作为默认模型。大部分普通请求先走 Flash，既保证速度，也控制成本。&lt;/p&gt;
&lt;p&gt;第二，设计模型路由。当 Flash 判断任务复杂、风险高、需要深度推理时，再把请求升级到 Pro。&lt;/p&gt;
&lt;p&gt;第三，用它做上下文压缩。Agent 在执行任务前，可以先让 Flash 总结文档、抽取关键事实、生成结构化上下文。&lt;/p&gt;
&lt;p&gt;第四，把多模态输入纳入常规流程。图片、截图、PDF、音频、视频不要只作为边缘功能，而可以成为产品默认输入的一部分。&lt;/p&gt;
&lt;p&gt;第五，用评测来决定边界。不要只看官方 benchmark，要拿自己的客服问题、文档、代码、图片和业务流程做测试，判断哪些任务 Flash 足够，哪些必须升级。&lt;/p&gt;
&lt;h2 id=&#34;小结&#34;&gt;小结
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;Gemini 3.5 Flash&lt;/code&gt; 的核心定位，是一个面向高频真实应用的多模态主力模型。它的优势不在于取代 Pro 类旗舰模型，而在于把速度、成本、长上下文和多模态能力放到一个更适合规模化调用的位置上。&lt;/p&gt;
&lt;p&gt;对开发者来说，Flash 最值得关注的不是单个 benchmark，而是产品架构变化：默认模型可以更快、更便宜、更能读复杂输入；复杂任务再升级给更强模型。这样既能保证体验，也能控制成本。&lt;/p&gt;
&lt;p&gt;如果说 Pro 是处理难题的重型工具，那么 Flash 更像每天都在生产线上运转的主力工具。真正做 AI 产品时，后者往往更接近用户每天实际感受到的体验。&lt;/p&gt;
&lt;p&gt;参考资料：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Google 官方博客：&lt;a class=&#34;link&#34; href=&#34;https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5/&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;Google DeepMind Gemini Flash：&lt;a class=&#34;link&#34; href=&#34;https://deepmind.google/en/models/gemini/flash/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://deepmind.google/en/models/gemini/flash/&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;用户提供的知乎讨论链接：&lt;a class=&#34;link&#34; href=&#34;https://www.zhihu.com/question/2040529179641385344/answer/2040531897613285214&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://www.zhihu.com/question/2040529179641385344/answer/2040531897613285214&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>RTX 3070 8GB 本地运行 Qwen3.6-35B：llama.cpp 部署要点与优化参数</title>
        <link>https://knightli.com/2026/05/22/rtx-3070-8gb-qwen36-35b-llama-cpp-local-deployment/</link>
        <pubDate>Fri, 22 May 2026 22:44:16 +0800</pubDate>
        
        <guid>https://knightli.com/2026/05/22/rtx-3070-8gb-qwen36-35b-llama-cpp-local-deployment/</guid>
        <description>&lt;p&gt;8GB 显存能不能跑 35B 级别模型，关键不只看模型总参数量，还要看模型结构、量化格式和推理框架的调度方式。&lt;/p&gt;
&lt;p&gt;这次案例的核心思路是：使用 Qwen3.6-35B-A3B 这类 MoE 模型的 GGUF 量化版本，再通过 llama.cpp 的 CUDA 加速、CPU Offload、MoE 参数调度和 KV Cache 量化，把显存压力分摊到 GPU 与内存之间。这样一来，RTX 3070 8GB 这类老显卡也有机会跑起 35B 级别的本地多模态模型。&lt;/p&gt;
&lt;p&gt;需要先说明一点：这不是“8GB 显存完整装下 35B 模型”。更准确的理解是，显卡负责更适合 GPU 的计算部分，部分专家层和缓存压力由系统内存承担。实际体验会受到内存容量、CPU 性能、模型量化格式、上下文长度和参数设置影响。&lt;/p&gt;
&lt;h2 id=&#34;测试环境&#34;&gt;测试环境
&lt;/h2&gt;&lt;p&gt;这类配置对内存比较敏感。参考环境如下：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;CPU：Intel Core i7-12700 级别&lt;/li&gt;
&lt;li&gt;GPU：NVIDIA RTX 3070 8GB&lt;/li&gt;
&lt;li&gt;内存：64GB&lt;/li&gt;
&lt;li&gt;系统：Windows 11&lt;/li&gt;
&lt;li&gt;推理框架：llama.cpp CUDA 版本&lt;/li&gt;
&lt;li&gt;模型格式：GGUF&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果只有 16GB 或 32GB 内存，也不是完全不能尝试，但 35B MoE 模型在加载和长上下文推理时更容易触发内存压力。想要稳定使用，64GB 内存会更稳。&lt;/p&gt;
&lt;h2 id=&#34;为什么-8gb-显存也有机会跑-35b&#34;&gt;为什么 8GB 显存也有机会跑 35B
&lt;/h2&gt;&lt;p&gt;Qwen3.6-35B-A3B 的关键点在于 MoE 架构。它的总参数规模是 35B，但每次推理并不是所有参数都同时激活，而是只激活其中一部分专家参数。&lt;/p&gt;
&lt;p&gt;这会带来两个结果：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;总模型文件仍然很大，需要足够磁盘和内存承载。&lt;/li&gt;
&lt;li&gt;单次推理的活跃计算量低于完整 35B Dense 模型。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;llama.cpp 的 CPU Offload 和 MoE 相关参数可以进一步降低显存门槛。GPU 主要承担注意力和部分高收益计算，CPU 与内存承担一部分专家层权重。代价是速度、响应延迟和稳定性会更依赖整机配置，而不是只看显卡型号。&lt;/p&gt;
&lt;h2 id=&#34;准备-llamacpp&#34;&gt;准备 llama.cpp
&lt;/h2&gt;&lt;p&gt;Windows 用户可以直接下载 llama.cpp 的预编译 CUDA 版本。需要注意三点：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;显卡驱动要足够新，CUDA 运行环境要和下载的 llama.cpp 包匹配。&lt;/li&gt;
&lt;li&gt;下载后建议放在一个不含中文和特殊字符的路径下，方便批处理脚本调用。&lt;/li&gt;
&lt;li&gt;模型文件统一放到 &lt;code&gt;models&lt;/code&gt; 目录，避免命令里写太长路径。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;如果是 AMD、Intel 显卡或纯 CPU 环境，也可以选择 Vulkan、HIP、SYCL 或 CPU 版本，但参数和性能表现会不同。本文重点仍然是 NVIDIA 显卡上的 CUDA 路线。&lt;/p&gt;
&lt;h2 id=&#34;下载模型和多模态投影文件&#34;&gt;下载模型和多模态投影文件
&lt;/h2&gt;&lt;p&gt;本次使用的模型是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Qwen3.6-35B-A3B-UD-Q4_K_M.gguf&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;量化格式选择 &lt;code&gt;Q4_K_M&lt;/code&gt;，主要是为了在精度、体积和速度之间取得平衡。显存较小的机器不建议一开始就尝试更高精度版本，否则加载失败或系统频繁换页的概率会明显上升。&lt;/p&gt;
&lt;p&gt;如果要使用图片理解能力，还需要同时准备多模态投影文件，例如：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;mmproj-BF16.gguf&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这个文件非常重要。只下载主模型通常只能完成文本推理；如果缺少 &lt;code&gt;mmproj&lt;/code&gt;，网页 UI 里可能看不到正常的图片上传能力，或者上传后无法完成视觉理解。&lt;/p&gt;
&lt;p&gt;建议目录结构保持简单：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;5
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;llama.cpp/
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;├─ llama-server.exe
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;└─ models/
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;   ├─ Qwen3.6-35B-A3B-UD-Q4_K_M.gguf
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;   └─ mmproj-BF16.gguf
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h2 id=&#34;rtx-3070-8gb-启动参数&#34;&gt;RTX 3070 8GB 启动参数
&lt;/h2&gt;&lt;p&gt;下面是一份面向 RTX 3070 8GB 的启动脚本示例。路径需要改成你自己的 llama.cpp 所在目录。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt; 1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 8
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 9
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;10
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;11
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;12
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;13
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;14
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;15
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;16
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;17
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;18
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;19
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;20
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;21
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;22
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bat&#34; data-lang=&#34;bat&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;p&#34;&gt;@&lt;/span&gt;&lt;span class=&#34;k&#34;&gt;echo&lt;/span&gt; off
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;chcp 65001 &lt;span class=&#34;p&#34;&gt;&amp;gt;&lt;/span&gt;nul
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;k&#34;&gt;cd&lt;/span&gt; /d D:\AI\llama.cpp
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;llama-server.exe &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; -m &lt;span class=&#34;s2&#34;&gt;&amp;#34;models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf&amp;#34;&lt;/span&gt; &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; --mmproj &lt;span class=&#34;s2&#34;&gt;&amp;#34;models\mmproj-BF16.gguf&amp;#34;&lt;/span&gt; &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; -ngl 99 &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; --n-cpu-moe 999 &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; --flash-attn on &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; --jinja &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; -c 32768 &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; -t 12 &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; -b 512 &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; -ub 128 &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; --cache-type-k q4_0 &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; --cache-type-v q4_0 &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; --mlock &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; --host 127.0.0.1 &lt;span class=&#34;se&#34;&gt;^
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;se&#34;&gt; &lt;/span&gt; --port 8080
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;k&#34;&gt;pause&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;启动后在浏览器访问：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;http://127.0.0.1:8080
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;如果页面可以打开，并且模型能正常回复，就说明服务已经启动成功。首次加载模型可能会比较慢，期间不要急着重复运行多个实例，否则更容易把内存占满。&lt;/p&gt;
&lt;h2 id=&#34;关键参数怎么理解&#34;&gt;关键参数怎么理解
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;-ngl 99&lt;/code&gt; 表示尽量把可放到 GPU 的层放到显卡上。实际能放多少，取决于模型结构、量化格式和显存占用。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;--n-cpu-moe 999&lt;/code&gt; 用来让 MoE 专家层更多走 CPU 侧，降低显存压力。它是这类小显存运行大 MoE 模型的关键参数之一。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;--flash-attn on&lt;/code&gt; 开启 Flash Attention，有助于降低注意力计算的开销。是否可用取决于当前 llama.cpp 版本和显卡支持情况。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;-c 32768&lt;/code&gt; 设置上下文长度。长上下文会显著增加 KV Cache 压力，如果启动失败或推理很慢，可以先降到 &lt;code&gt;8192&lt;/code&gt; 或 &lt;code&gt;16384&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;--cache-type-k q4_0&lt;/code&gt; 和 &lt;code&gt;--cache-type-v q4_0&lt;/code&gt; 用于量化 KV Cache，能节省内存和显存，但可能对输出质量和速度有轻微影响。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;-b 512&lt;/code&gt; 与 &lt;code&gt;-ub 128&lt;/code&gt; 控制批处理相关参数。小显存环境下，不要一开始就把批量参数设得太激进。&lt;/p&gt;
&lt;h2 id=&#34;常见问题&#34;&gt;常见问题
&lt;/h2&gt;&lt;p&gt;如果启动时报显存不足，可以先降低上下文长度，例如把 &lt;code&gt;-c 32768&lt;/code&gt; 改成 &lt;code&gt;-c 8192&lt;/code&gt;，再尝试减小 &lt;code&gt;-b&lt;/code&gt; 和 &lt;code&gt;-ub&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;如果图片上传按钮不可用，优先检查 &lt;code&gt;--mmproj&lt;/code&gt; 路径是否正确，以及使用的 &lt;code&gt;mmproj&lt;/code&gt; 是否和模型匹配。&lt;/p&gt;
&lt;p&gt;如果模型加载后响应很慢，通常不是显卡完全没工作，而是大量权重或专家层由 CPU 与内存承担。可以观察任务管理器里的 GPU、CPU、内存和磁盘占用，判断瓶颈在哪里。&lt;/p&gt;
&lt;p&gt;如果输出格式异常，确认是否启用了 &lt;code&gt;--jinja&lt;/code&gt;，并检查当前模型是否需要对应聊天模板。&lt;/p&gt;
&lt;p&gt;如果服务启动后浏览器打不开，检查 &lt;code&gt;--host&lt;/code&gt; 和 &lt;code&gt;--port&lt;/code&gt; 设置，确认 8080 端口没有被其他程序占用。&lt;/p&gt;
&lt;h2 id=&#34;适合谁尝试&#34;&gt;适合谁尝试
&lt;/h2&gt;&lt;p&gt;这套方案适合手上已有 RTX 3070、RTX 4060 Laptop、RTX 3060 8GB 这类 8GB 显存设备，但又想尝试更大 MoE 模型的用户。&lt;/p&gt;
&lt;p&gt;它不适合追求极致速度的人。小显存运行 35B MoE 本质上是在用内存和 CPU 换显存门槛，能跑起来是一回事，是否足够流畅是另一回事。&lt;/p&gt;
&lt;p&gt;如果目标是日常高频聊天，7B、8B、14B 模型可能更舒服。如果目标是体验更大 MoE 模型、多模态能力和本地部署边界，那么 RTX 3070 8GB 加 64GB 内存仍然有尝试价值。&lt;/p&gt;
&lt;h2 id=&#34;小结&#34;&gt;小结
&lt;/h2&gt;&lt;p&gt;RTX 3070 8GB 能运行 Qwen3.6-35B-A3B 的关键，不是显存突然变大，而是 MoE 架构、GGUF 量化、llama.cpp CPU Offload 和 KV Cache 优化共同降低了门槛。&lt;/p&gt;
&lt;p&gt;这类方案最值得关注的地方，是它让旧显卡仍然能参与本地大模型实验。只要接受速度和稳定性上的取舍，8GB 显存机器也可以成为本地 AI 模型测试平台，而不只是运行小模型的入门设备。&lt;/p&gt;
</description>
        </item>
        <item>
        <title>Gemini Omni 是什么？Google AI 视频多轮编辑模型完整解析</title>
        <link>https://knightli.com/2026/05/20/google-gemini-omni-video-editing/</link>
        <pubDate>Wed, 20 May 2026 23:11:58 +0800</pubDate>
        
        <guid>https://knightli.com/2026/05/20/google-gemini-omni-video-editing/</guid>
        <description>&lt;p&gt;Google DeepMind 公布了 &lt;code&gt;Gemini Omni&lt;/code&gt; 页面。它的定位很直接：从任意输入创作内容，当前重点从视频开始。&lt;/p&gt;
&lt;p&gt;如果说 Nano Banana 更偏向图像生成和编辑，那么 Gemini Omni 更像是面向视频的多模态编辑模型。用户可以通过自然语言一步步修改视频，让后一次修改建立在前一次修改之上，并尽量保持场景、人物、动作和画面逻辑的一致性。&lt;/p&gt;
&lt;p&gt;项目页面：&lt;a class=&#34;link&#34; href=&#34;https://deepmind.google/models/gemini-omni/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://deepmind.google/models/gemini-omni/&lt;/a&gt;&lt;/p&gt;
&lt;h2 id=&#34;它解决的核心问题&#34;&gt;它解决的核心问题
&lt;/h2&gt;&lt;p&gt;传统视频编辑往往需要时间线、图层、遮罩、关键帧、调色、音轨和大量手动操作。AI 视频生成工具虽然可以从提示词生成片段，但经常存在两个问题：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;一次生成后不容易精细修改。&lt;/li&gt;
&lt;li&gt;多轮修改时人物、场景、风格和动作容易漂移。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Gemini Omni 想解决的是第二步：不是只生成一个视频，而是让用户像和剪辑师沟通一样，持续提出修改要求。&lt;/p&gt;
&lt;p&gt;页面给出的说法是，它可以通过自然、分步骤的对话编辑任何视频。每次编辑都建立在前一次结果上，目标是保持一个连贯、统一的场景。&lt;/p&gt;
&lt;h2 id=&#34;主要能力&#34;&gt;主要能力
&lt;/h2&gt;&lt;p&gt;Gemini Omni 的能力可以分成几类。&lt;/p&gt;
&lt;p&gt;第一类是自然语言视频编辑。用户可以直接要求模型改变视频里的审美风格、动作或特效。例如让镜子像液体一样泛起波纹，让人物变成线稿、毛毡玩偶、透明全息线框，或者让整个环境变成 3D voxel art。&lt;/p&gt;
&lt;p&gt;第二类是重构动作。它可以改变视频中发生的事情，例如放大手部形成的孔洞、让玩具发出对应动物声音、让建筑灯光随音乐点亮。&lt;/p&gt;
&lt;p&gt;第三类是基于参考图像编辑真实视频。用户可以给出图像参考，再要求模型把某种建筑、太阳、飞行器或其它物体放进真实视频场景里。&lt;/p&gt;
&lt;p&gt;第四类是多轮编辑保持一致性。页面展示了把小提琴手移动到参考图像环境、让小提琴消失、再把镜头改成越肩角度的连续编辑流程。这比一次性提示词更接近真实创作过程。&lt;/p&gt;
&lt;p&gt;第五类是多输入引用。Gemini Omni 可以把图像、文本、视频、音频等输入整合成一个输出，支持风格迁移、动作迁移、角色替换、草图转视频等任务。&lt;/p&gt;
&lt;h2 id=&#34;为什么它强调世界知识&#34;&gt;为什么它强调世界知识
&lt;/h2&gt;&lt;p&gt;Google 在页面里反复强调，Gemini Omni 不只是“画面变得真实”，而是结合 Gemini 的世界知识、物理直觉、历史、科学和叙事逻辑。&lt;/p&gt;
&lt;p&gt;这点很重要。视频模型如果只追求画面质感，容易出现动作不合逻辑、物体关系混乱、文本和画面不同步的问题。Gemini Omni 的目标是让视频不仅看起来像，还要在故事、物理和语义上更连贯。&lt;/p&gt;
&lt;p&gt;页面中的例子包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;大理石在链式反应轨道上滚动。&lt;/li&gt;
&lt;li&gt;用 claymation 解释蛋白质折叠。&lt;/li&gt;
&lt;li&gt;用拟物化 stop motion 解释海马体工作方式。&lt;/li&gt;
&lt;li&gt;让字母和画面里的物体对应出现。&lt;/li&gt;
&lt;li&gt;让屏幕文字按节奏逐词出现。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这些例子说明它不是单纯的短视频特效工具，而是试图把知识表达、叙事和视听生成放在一起。&lt;/p&gt;
&lt;h2 id=&#34;和-veoflownano-banana-的关系&#34;&gt;和 Veo、Flow、Nano Banana 的关系
&lt;/h2&gt;&lt;p&gt;从 Google 当前产品线看，Gemini Omni 更像是多模态创作和编辑能力的一层入口。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;Veo&lt;/code&gt; 更偏视频生成模型本身，强调电影感视频和音频生成。&lt;code&gt;Google Flow&lt;/code&gt; 是面向创作者的 AI 创意工作室，适合组织镜头、素材和视频项目。&lt;code&gt;Nano Banana&lt;/code&gt; 更偏图像创建和细节编辑。Gemini Omni 则强调“从任意输入到一致输出”的多模态编辑，尤其是视频上的多轮自然语言控制。&lt;/p&gt;
&lt;p&gt;简单理解：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;想生成高质量视频：关注 Veo。&lt;/li&gt;
&lt;li&gt;想在创作工作流里组织视频项目：关注 Google Flow。&lt;/li&gt;
&lt;li&gt;想编辑图像：关注 Nano Banana。&lt;/li&gt;
&lt;li&gt;想用对话方式修改视频，并引用图片、文字、视频、音频：关注 Gemini Omni。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;使用入口&#34;&gt;使用入口
&lt;/h2&gt;&lt;p&gt;页面给出的入口包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Gemini app。&lt;/li&gt;
&lt;li&gt;Google Flow。&lt;/li&gt;
&lt;li&gt;YouTube Shorts。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;不过页面也说明，需要 Google AI 订阅，功能会因订阅层级和地区而不同。也就是说，并不是所有用户在所有地区都能立即使用完整能力。&lt;/p&gt;
&lt;p&gt;对创作者来说，最值得关注的入口可能是 Google Flow，因为它更接近完整创意工作台。对普通用户来说，Gemini app 和 YouTube Shorts 可能是更低门槛的体验入口。&lt;/p&gt;
&lt;h2 id=&#34;安全和内容标记&#34;&gt;安全和内容标记
&lt;/h2&gt;&lt;p&gt;Gemini Omni 页面专门提到安全流程。Gemini Omni Flash 的开发与内部安全、安全责任团队合作，并进行了自动化评估、人工评估、人工红队、自动化红队和发布前伦理安全审查。&lt;/p&gt;
&lt;p&gt;内容透明度方面，页面说明通过 Omni 在 Gemini app、Google Flow 或 YouTube 创建或编辑的内容，会包含不可感知的 &lt;code&gt;SynthID&lt;/code&gt; 数字水印和 &lt;code&gt;C2PA Content Credentials&lt;/code&gt;。用户可以通过 Gemini app 验证内容，后续也会扩展到 Chrome 和搜索。&lt;/p&gt;
&lt;p&gt;这部分对视频模型尤其关键。视频生成和视频编辑越真实，越需要内容来源标识、滥用防护和验证工具。&lt;/p&gt;
&lt;h2 id=&#34;适合哪些人&#34;&gt;适合哪些人
&lt;/h2&gt;&lt;p&gt;Gemini Omni 适合几类用户：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;想用自然语言快速修改视频的内容创作者。&lt;/li&gt;
&lt;li&gt;需要把草图、参考图、音频、视频素材整合成成片的设计团队。&lt;/li&gt;
&lt;li&gt;做短视频、广告概念、教育解释视频和产品视觉稿的人。&lt;/li&gt;
&lt;li&gt;想在 Google Flow 中构建 AI 视频工作流的创作者。&lt;/li&gt;
&lt;li&gt;关注多模态视频编辑能力边界的开发者和研究者。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;但它也不一定适合所有场景。严肃商业片、品牌主视觉、影视制作、产品发布视频仍然需要人工审片、版权检查、事实校对和素材管理。AI 可以明显加速概念生成和初稿迭代，但不应替代最终审核。&lt;/p&gt;
&lt;h2 id=&#34;怎么看-gemini-omni&#34;&gt;怎么看 Gemini Omni
&lt;/h2&gt;&lt;p&gt;Gemini Omni 的意义在于，它把 AI 视频从“一次性生成”推进到“可对话修改”。这比单纯提升画质更接近真实创作流程。&lt;/p&gt;
&lt;p&gt;如果它在多轮编辑、一致性、参考素材控制、音画同步和内容标记上表现稳定，AI 视频工具的使用方式会发生变化：用户不再只写一条长提示词赌结果，而是像导演、剪辑师、设计师一样，逐轮修改场景、动作、风格和叙事。&lt;/p&gt;
&lt;p&gt;当前仍要看实际开放范围、价格、地区限制、生成时长、分辨率、版权策略和商用规则。对于普通创作者，最实用的观察点是：它在 Google Flow 和 Gemini app 里能不能稳定完成多轮视频修改。&lt;/p&gt;
&lt;p&gt;参考来源：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://deepmind.google/models/gemini-omni/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Google DeepMind：Gemini Omni&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>让 AI 自己操作电脑？UI-TARS-desktop 把桌面、浏览器和工具都接了起来</title>
        <link>https://knightli.com/2026/05/19/ui-tars-desktop-multimodal-ai-agent-stack/</link>
        <pubDate>Tue, 19 May 2026 10:56:50 +0800</pubDate>
        
        <guid>https://knightli.com/2026/05/19/ui-tars-desktop-multimodal-ai-agent-stack/</guid>
        <description>&lt;p&gt;&lt;code&gt;bytedance/UI-TARS-desktop&lt;/code&gt; 是字节开源的多模态 AI Agent 项目。它不是单一桌面应用，而是一套 Agent 栈，当前 README 中主要包含两个方向：&lt;code&gt;Agent TARS&lt;/code&gt; 和 &lt;code&gt;UI-TARS Desktop&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;项目地址：&lt;a class=&#34;link&#34; href=&#34;https://github.com/bytedance/UI-TARS-desktop&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/bytedance/UI-TARS-desktop&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;官网地址：&lt;a class=&#34;link&#34; href=&#34;https://agent-tars.com&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://agent-tars.com&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;截至写作时，GitHub API 显示这个仓库已有约 3.4 万 star，主要语言是 TypeScript，许可证为 Apache-2.0。README 对它的描述是“Open-Source Multimodal AI Agent Stack”。&lt;/p&gt;
&lt;h2 id=&#34;agent-tars-和-ui-tars-desktop-的区别&#34;&gt;Agent TARS 和 UI-TARS Desktop 的区别
&lt;/h2&gt;&lt;p&gt;README 把两个项目放在同一个表格里：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Agent TARS&lt;/code&gt;：通用多模态 AI Agent 栈，把 GUI Agent、视觉能力、终端、浏览器和产品工作流连接起来。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;UI-TARS Desktop&lt;/code&gt;：桌面应用，基于 UI-TARS 模型提供原生 GUI Agent 能力，可以操作本地或远程电脑、浏览器。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;简单说，Agent TARS 更像通用 Agent 运行栈，UI-TARS Desktop 更像桌面端 GUI 操作入口。&lt;/p&gt;
&lt;h2 id=&#34;agent-tars-能做什么&#34;&gt;Agent TARS 能做什么
&lt;/h2&gt;&lt;p&gt;Agent TARS 主要提供 CLI 和 Web UI。它的目标是让多模态模型通过 MCP 和各种工具完成更接近真人的任务流。&lt;/p&gt;
&lt;p&gt;README 中列出的核心能力包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;一键启动 CLI，支持 headful Web UI 和 headless server。&lt;/li&gt;
&lt;li&gt;混合浏览器 Agent，可以用 GUI Agent、DOM 或混合策略控制浏览器。&lt;/li&gt;
&lt;li&gt;Event Stream，用于数据流追踪和调试。&lt;/li&gt;
&lt;li&gt;MCP 集成，可以挂载 MCP Server 接入真实工具。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;快速启动示例：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;npx @agent-tars/cli@latest
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;也可以全局安装：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;npm install @agent-tars/cli@latest -g
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;使用模型提供商运行：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;agent-tars --provider volcengine --model doubao-1-5-thinking-vision-pro-250428 --apiKey your-api-key
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey your-api-key
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h2 id=&#34;ui-tars-desktop-能做什么&#34;&gt;UI-TARS Desktop 能做什么
&lt;/h2&gt;&lt;p&gt;UI-TARS Desktop 是桌面 GUI Agent。它基于 UI-TARS 和 Seed-1.5-VL / 1.6 系列模型，重点是让模型看懂屏幕并执行鼠标、键盘操作。&lt;/p&gt;
&lt;p&gt;README 中列出的能力包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;自然语言控制。&lt;/li&gt;
&lt;li&gt;截图和视觉识别。&lt;/li&gt;
&lt;li&gt;精确鼠标与键盘控制。&lt;/li&gt;
&lt;li&gt;跨平台支持：Windows、macOS、Browser。&lt;/li&gt;
&lt;li&gt;实时反馈和状态显示。&lt;/li&gt;
&lt;li&gt;本地处理，强调隐私和安全。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;示例任务包括修改 VS Code 设置、查看 GitHub issue、远程控制电脑或浏览器等。&lt;/p&gt;
&lt;h2 id=&#34;为什么-gui-agent-重要&#34;&gt;为什么 GUI Agent 重要
&lt;/h2&gt;&lt;p&gt;传统自动化依赖 API、DOM 或脚本。GUI Agent 的目标是直接面对屏幕：看见按钮、输入框、菜单和状态，再通过鼠标键盘完成操作。&lt;/p&gt;
&lt;p&gt;这有两个价值：&lt;/p&gt;
&lt;p&gt;第一，很多软件没有稳定 API，或者 API 覆盖不到完整流程。GUI Agent 可以像人一样从界面入手。&lt;/p&gt;
&lt;p&gt;第二，多模态模型可以处理截图、文档、网页和应用界面，把视觉理解和操作结合起来。&lt;/p&gt;
&lt;p&gt;但它也有局限。GUI 操作容易受分辨率、语言、布局变化、弹窗、网络延迟影响。对生产流程来说，仍然需要权限控制、执行确认和错误回滚。&lt;/p&gt;
&lt;h2 id=&#34;和-mcp-的关系&#34;&gt;和 MCP 的关系
&lt;/h2&gt;&lt;p&gt;Agent TARS 强调 MCP 集成。MCP 的价值在于把浏览器、文件、命令行、数据库、内部服务等工具统一给 Agent 调用。&lt;/p&gt;
&lt;p&gt;对复杂任务来说，单靠 GUI 点击不够稳定。更好的方式往往是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;能用 API 的地方走 API。&lt;/li&gt;
&lt;li&gt;需要看页面状态时用视觉。&lt;/li&gt;
&lt;li&gt;需要真实网页交互时用浏览器。&lt;/li&gt;
&lt;li&gt;需要本地软件操作时用 GUI Agent。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;UI-TARS-desktop 这类项目正在探索的，就是把这些能力放到同一个 Agent 栈里。&lt;/p&gt;
&lt;h2 id=&#34;使用前要注意什么&#34;&gt;使用前要注意什么
&lt;/h2&gt;&lt;p&gt;第一，桌面 Agent 有执行风险。它能操作鼠标、键盘和浏览器，就必须限制权限，避免误操作文件、账号、支付或生产系统。&lt;/p&gt;
&lt;p&gt;第二，远程电脑和远程浏览器操作要注意安全边界。不要把未认证的控制入口暴露到公网。&lt;/p&gt;
&lt;p&gt;第三，多模态模型可能误识别界面。关键操作前最好有人确认，尤其是删除、提交、支付、发帖、交易等不可逆操作。&lt;/p&gt;
&lt;p&gt;第四，模型供应商、API key 和本地数据要分开管理，不要把敏感凭据写进公开配置。&lt;/p&gt;
&lt;h2 id=&#34;适合谁&#34;&gt;适合谁
&lt;/h2&gt;&lt;p&gt;UI-TARS-desktop 适合这些场景：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;想研究 GUI Agent 和 Computer Use 的开发者。&lt;/li&gt;
&lt;li&gt;需要让 AI 操作桌面应用或浏览器的团队。&lt;/li&gt;
&lt;li&gt;想把 MCP 工具、浏览器操作和视觉模型组合起来的 Agent 开发者。&lt;/li&gt;
&lt;li&gt;需要远程电脑 / 远程浏览器操作实验环境的用户。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果只是简单网页自动化，普通 Playwright 或 Selenium 可能更直接。如果任务涉及桌面软件、多模态理解和复杂工具链，UI-TARS-desktop 更值得看。&lt;/p&gt;
&lt;h2 id=&#34;小结&#34;&gt;小结
&lt;/h2&gt;&lt;p&gt;UI-TARS-desktop 的看点在于它不是只做一个“会点按钮”的桌面助手，而是把 GUI Agent、视觉模型、浏览器、CLI、MCP 和远程操作放进同一套多模态 Agent 栈。&lt;/p&gt;
&lt;p&gt;这类项目代表了 AI Agent 的一个重要方向：从文本对话走向真实软件环境。但越接近真实操作，越需要权限管理、执行审计和人工确认。试用时建议先从低风险任务开始。&lt;/p&gt;
&lt;p&gt;参考项目：&lt;a class=&#34;link&#34; href=&#34;https://github.com/bytedance/UI-TARS-desktop&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/bytedance/UI-TARS-desktop&lt;/a&gt;&lt;/p&gt;
</description>
        </item>
        <item>
        <title>什么是图像向量化：从像素图到可搜索可分析的向量表示</title>
        <link>https://knightli.com/2026/04/23/what-is-image-vectorization-vector-search-vision-workflow/</link>
        <pubDate>Thu, 23 Apr 2026 15:08:19 +0800</pubDate>
        
        <guid>https://knightli.com/2026/04/23/what-is-image-vectorization-vector-search-vision-workflow/</guid>
        <description>&lt;p&gt;图片一直都很多，但图片真正能被系统“理解”和“利用”，并不是一件天然发生的事。&lt;/p&gt;
&lt;p&gt;对人来说，一张图里有没有猫、是不是同一件商品、是不是某种异常缺陷，往往一眼就能看出来。可对系统来说，原始图片首先只是像素排列。没有额外处理时，它更像一堆颜色点，而不是一份可以直接做检索、聚类、推荐和识别的数据。&lt;/p&gt;
&lt;p&gt;图像向量化解决的就是这一步。它把原本以像素形式存在的图片，转换成一组可以被机器高效比较和计算的向量表示。很多“以图搜图”、相似图片推荐、视觉检索、图像聚类和多模态理解，真正的基础都在这里。&lt;/p&gt;
&lt;h2 id=&#34;一图像向量化到底是什么&#34;&gt;一、图像向量化到底是什么
&lt;/h2&gt;&lt;p&gt;先把概念压缩成一句话：&lt;/p&gt;
&lt;p&gt;图像向量化，就是把图片转换成一串能表示图像特征的数字向量。&lt;/p&gt;
&lt;p&gt;这个向量通常不是给人看的，而是给模型和检索系统用的。它的价值在于，图片从此不再只是文件，而变成了一种可以参与计算、排序和相似度比较的数据对象。&lt;/p&gt;
&lt;p&gt;比如一张猫的图片，原始文件里保存的是像素信息；做完向量化之后，系统拿到的是一个固定长度的数值向量。这个向量不会直接写着“这是猫”，但它会把轮廓、纹理、颜色分布、局部结构、语义信息等特征编码进去。这样系统就能把它和别的图片做距离计算，判断哪些更相似，哪些差得更远。&lt;/p&gt;
&lt;p&gt;所以图像向量化真正改变的，不是图片本身，而是图片被系统处理的方式。&lt;/p&gt;
&lt;h2 id=&#34;二为什么不直接用原始像素做检索和分析&#34;&gt;二、为什么不直接用原始像素做检索和分析
&lt;/h2&gt;&lt;p&gt;原始像素当然也能算，但效果和效率都很受限。&lt;/p&gt;
&lt;p&gt;问题主要有三类：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;数据维度高，直接比较成本很高&lt;/li&gt;
&lt;li&gt;像素接近不等于语义接近&lt;/li&gt;
&lt;li&gt;光照、裁切、背景、分辨率变化都可能干扰结果&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;最典型的例子就是商品图检索。两张商品图片哪怕拍摄角度不同、背景不同、尺寸不同，人在看时还是知道它们是同一类商品；但如果只是逐像素对比，系统很容易把它们判成完全不同的图片。&lt;/p&gt;
&lt;p&gt;向量化的意义，就是把“像不像”从像素层面的比较，提升到更接近语义和特征层面的比较。&lt;/p&gt;
&lt;h2 id=&#34;三图像向量化一般是怎么做出来的&#34;&gt;三、图像向量化一般是怎么做出来的
&lt;/h2&gt;&lt;p&gt;从流程上看，图像向量化通常不是一步完成，而是一条比较标准的处理链：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;先做预处理&lt;/li&gt;
&lt;li&gt;再提取图像特征&lt;/li&gt;
&lt;li&gt;把特征压成固定长度向量&lt;/li&gt;
&lt;li&gt;存进向量库或检索系统&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;其中每一步都在影响最后效果。&lt;/p&gt;
&lt;h3 id=&#34;1-预处理&#34;&gt;1. 预处理
&lt;/h3&gt;&lt;p&gt;预处理做的事情一般包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;缩放图片尺寸&lt;/li&gt;
&lt;li&gt;归一化输入&lt;/li&gt;
&lt;li&gt;去除部分噪声&lt;/li&gt;
&lt;li&gt;统一颜色或输入格式&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;它的目的不是“优化视觉效果”，而是让后面的模型输入尽可能稳定。&lt;/p&gt;
&lt;h3 id=&#34;2-特征提取&#34;&gt;2. 特征提取
&lt;/h3&gt;&lt;p&gt;这里是图像向量化的核心。&lt;/p&gt;
&lt;p&gt;早期方法更依赖人工设计特征，比如 &lt;code&gt;SIFT&lt;/code&gt;、&lt;code&gt;SURF&lt;/code&gt;、&lt;code&gt;HOG&lt;/code&gt; 这一类算法，擅长提取边缘、角点、局部结构等低层特征。现在更常见的是深度学习模型来做这件事，比如：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;ResNet&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;VGG&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Inception&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;ViT&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;CLIP&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这些模型会把图片编码成更高层、更抽象的视觉特征。和传统特征工程相比，它们更擅长表达语义，也更适合做相似度检索、多模态理解和大规模聚类。&lt;/p&gt;
&lt;h3 id=&#34;3-向量生成&#34;&gt;3. 向量生成
&lt;/h3&gt;&lt;p&gt;特征提取之后，系统通常会把中间表示进一步压缩成固定长度的向量，比如 &lt;code&gt;512&lt;/code&gt; 维、&lt;code&gt;768&lt;/code&gt; 维、&lt;code&gt;1024&lt;/code&gt; 维。&lt;/p&gt;
&lt;p&gt;这个步骤的关键，不是维度越高越好，而是要在表达能力、存储成本和检索速度之间找到平衡。&lt;/p&gt;
&lt;h3 id=&#34;4-存储与检索&#34;&gt;4. 存储与检索
&lt;/h3&gt;&lt;p&gt;向量生成之后，通常不会再按普通图片文件那样管理，而是会进入支持向量检索的系统，比如：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Faiss&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Milvus&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;带向量能力的搜索系统&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这时候图片就可以参与近似最近邻检索、聚类分析、相似度排序等任务。&lt;/p&gt;
&lt;h2 id=&#34;四技术路线是怎么演进过来的&#34;&gt;四、技术路线是怎么演进过来的
&lt;/h2&gt;&lt;p&gt;图像向量化不是这两年才有，只是近几年效果和应用场景扩展得更快。&lt;/p&gt;
&lt;p&gt;大致可以分成三段看：&lt;/p&gt;
&lt;h3 id=&#34;1-传统特征工程阶段&#34;&gt;1. 传统特征工程阶段
&lt;/h3&gt;&lt;p&gt;这时候的重点是人工定义图像特征，比如边缘、纹理、角点和局部描述子。优点是实现成熟、可解释性强，缺点是对复杂场景和语义理解能力有限。&lt;/p&gt;
&lt;h3 id=&#34;2-cnn-主导阶段&#34;&gt;2. CNN 主导阶段
&lt;/h3&gt;&lt;p&gt;卷积神经网络让图像向量化进入了自动学习特征的阶段。相比手工特征，它可以学到更复杂、更稳定的视觉表达，适合分类、识别、相似检索等任务。&lt;/p&gt;
&lt;h3 id=&#34;3-transformer-和多模态阶段&#34;&gt;3. Transformer 和多模态阶段
&lt;/h3&gt;&lt;p&gt;这一步把图像向量化从“看图特征”进一步推向“图文语义对齐”。像 &lt;code&gt;ViT&lt;/code&gt; 和 &lt;code&gt;CLIP&lt;/code&gt; 这一类模型，已经不只是为了识别图像本身，而是在让图像进入更大的多模态系统里，和文本、标签、知识库一起工作。&lt;/p&gt;
&lt;p&gt;这也是为什么现在很多图像检索系统，不只是“以图搜图”，而是已经能做“文本搜图”或者图文混合检索。&lt;/p&gt;
&lt;h2 id=&#34;五它最常见的应用场景有哪些&#34;&gt;五、它最常见的应用场景有哪些
&lt;/h2&gt;&lt;p&gt;图像向量化并不是只服务于学术研究，它在业务里非常实用。&lt;/p&gt;
&lt;h3 id=&#34;1-相似图片检索&#34;&gt;1. 相似图片检索
&lt;/h3&gt;&lt;p&gt;这是最直观的场景。&lt;/p&gt;
&lt;p&gt;系统把图片转成向量之后，就可以做：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;以图搜图&lt;/li&gt;
&lt;li&gt;重复图片识别&lt;/li&gt;
&lt;li&gt;相似商品匹配&lt;/li&gt;
&lt;li&gt;视觉去重&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;电商、内容平台、图库管理系统里，这类需求都很常见。&lt;/p&gt;
&lt;h3 id=&#34;2-推荐系统&#34;&gt;2. 推荐系统
&lt;/h3&gt;&lt;p&gt;很多推荐问题，本质上是“这张图和用户刚看过的内容像不像”。&lt;/p&gt;
&lt;p&gt;向量化之后，系统可以把图片内容本身也纳入推荐逻辑，而不是只依赖文本标签或人工分类。对商品推荐、内容推荐、广告匹配来说，这一步很有价值。&lt;/p&gt;
&lt;h3 id=&#34;3-图像聚类和自动分类&#34;&gt;3. 图像聚类和自动分类
&lt;/h3&gt;&lt;p&gt;当图片规模很大时，人工整理会非常慢。&lt;/p&gt;
&lt;p&gt;向量化之后，可以先按相似度把图片自动聚成若干组，再做：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;图片归档&lt;/li&gt;
&lt;li&gt;场景分组&lt;/li&gt;
&lt;li&gt;素材整理&lt;/li&gt;
&lt;li&gt;自动标签建议&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这在制造、医疗、教育、媒体内容管理里都很常见。&lt;/p&gt;
&lt;h3 id=&#34;4-异常检测和质检&#34;&gt;4. 异常检测和质检
&lt;/h3&gt;&lt;p&gt;如果“正常样本”已经能被稳定向量化，那么偏离正常分布的图片就更容易被识别出来。&lt;/p&gt;
&lt;p&gt;典型场景包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;工业缺陷检测&lt;/li&gt;
&lt;li&gt;监控异常识别&lt;/li&gt;
&lt;li&gt;票据或影像异常筛查&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这里向量化的作用，不是直接给出最终判断，而是先把图像变成适合比较和建模的输入。&lt;/p&gt;
&lt;h3 id=&#34;5-多模态检索和图文理解&#34;&gt;5. 多模态检索和图文理解
&lt;/h3&gt;&lt;p&gt;这是现在更值得关注的一块。&lt;/p&gt;
&lt;p&gt;当图像和文本都能被编码到相近的向量空间里，系统就可以做：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;文本搜图&lt;/li&gt;
&lt;li&gt;图文对齐&lt;/li&gt;
&lt;li&gt;图像内容检索&lt;/li&gt;
&lt;li&gt;多模态知识检索&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这类能力和当前很多生成式 AI、视觉问答、企业知识库增强检索都能接起来。&lt;/p&gt;
&lt;h2 id=&#34;六企业落地时真正要面对哪些问题&#34;&gt;六、企业落地时真正要面对哪些问题
&lt;/h2&gt;&lt;p&gt;图像向量化听起来很顺，但真正落地时，难点通常不在“知不知道这个概念”，而在下面这些细节：&lt;/p&gt;
&lt;h3 id=&#34;1-向量维度和成本怎么平衡&#34;&gt;1. 向量维度和成本怎么平衡
&lt;/h3&gt;&lt;p&gt;维度太低，表达不够；维度太高，存储和检索成本就会上去。这个问题没有统一答案，必须结合数据规模、响应时间和准确率一起看。&lt;/p&gt;
&lt;h3 id=&#34;2-模型效果能不能跨场景复用&#34;&gt;2. 模型效果能不能跨场景复用
&lt;/h3&gt;&lt;p&gt;一个模型在公开数据集上表现不错，不代表它在你的业务图片上也同样有效。商品图、工业图、医学影像、监控截图，这些分布差异很大，很多时候都要重新评估。&lt;/p&gt;
&lt;h3 id=&#34;3-检索系统能不能跟上规模增长&#34;&gt;3. 检索系统能不能跟上规模增长
&lt;/h3&gt;&lt;p&gt;当图片量从几万变成几百万、几千万时，向量生成只是前半段，后面的索引、召回、更新策略和在线查询能力才是真正决定体验的部分。&lt;/p&gt;
&lt;h3 id=&#34;4-图像向量化不是业务闭环本身&#34;&gt;4. 图像向量化不是业务闭环本身
&lt;/h3&gt;&lt;p&gt;这一点特别容易被忽略。&lt;/p&gt;
&lt;p&gt;向量化解决的是“把图片变成可计算对象”的问题，但它不等于完整方案。你后面还需要：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;检索逻辑&lt;/li&gt;
&lt;li&gt;标签体系&lt;/li&gt;
&lt;li&gt;结果评估&lt;/li&gt;
&lt;li&gt;人工校验流程&lt;/li&gt;
&lt;li&gt;和业务系统的连接方式&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果这些没接上，向量本身并不会自动产生价值。&lt;/p&gt;
&lt;h2 id=&#34;七怎么看它的实际价值&#34;&gt;七、怎么看它的实际价值
&lt;/h2&gt;&lt;p&gt;如果只看技术定义，图像向量化像是一个底层术语；但从业务角度看，它的价值其实很具体：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;让图片第一次具备可搜索性&lt;/li&gt;
&lt;li&gt;让相似度比较从像素层走向语义层&lt;/li&gt;
&lt;li&gt;让图像能接进推荐、检索、聚类和识别链路&lt;/li&gt;
&lt;li&gt;让视觉数据真正进入企业分析和自动化流程&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;可以把它理解成视觉数据进入 AI 系统的“标准化入口”。没有这一步，很多图片相关能力都只能停留在文件管理层；有了这一步，图片才开始变成能参与决策和自动化处理的数据资产。&lt;/p&gt;
&lt;h2 id=&#34;结语&#34;&gt;结语
&lt;/h2&gt;&lt;p&gt;图像向量化不是一个孤立的小技巧，而是现代视觉系统里非常基础的一层。&lt;/p&gt;
&lt;p&gt;它做的事并不神秘：把图片从“像素集合”变成“可检索、可比较、可分析的向量表示”。但就是这一步，决定了图片能不能真正进入 AI、搜索、推荐和多模态应用链路里。&lt;/p&gt;
&lt;p&gt;如果只记一句话，可以先记住这个判断：&lt;/p&gt;
&lt;p&gt;图像向量化的本质，不是压缩图片，而是把图片变成机器真正能用的数据表示。&lt;/p&gt;
</description>
        </item>
        <item>
        <title>OpenAI 发布 ChatGPT Images 2.0：图像生成开始走向可直接交付</title>
        <link>https://knightli.com/2026/04/22/openai-chatgpt-images-2-0-deliverable-image-generation/</link>
        <pubDate>Wed, 22 Apr 2026 14:19:53 +0800</pubDate>
        
        <guid>https://knightli.com/2026/04/22/openai-chatgpt-images-2-0-deliverable-image-generation/</guid>
        <description>&lt;p&gt;OpenAI 在 2026 年 4 月 21 日发布了 &lt;a class=&#34;link&#34; href=&#34;https://openai.com/index/introducing-chatgpt-images-2-0/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Introducing ChatGPT Images 2.0&lt;/a&gt;。从官方页面来看，这次更新想强调的并不只是“图片更好看了”，而是图像生成正在往“更可控、可排版、可直接交付”的方向走。&lt;/p&gt;
&lt;p&gt;如果只看这篇发布页，它更像一组高密度能力展示，而不是传统意义上的技术说明。页面几乎没有展开模型结构、训练细节或基准测试，而是用大量示例图直接回答一个问题：现在的 ChatGPT 图像生成，能不能把过去还要靠设计师反复修图、补字、调版式的活，进一步前移到生成阶段。&lt;/p&gt;
&lt;h2 id=&#34;01-这次更新最明显的信号&#34;&gt;01 这次更新最明显的信号
&lt;/h2&gt;&lt;p&gt;官方页面里最醒目的几个关键词，其实已经把重点说得很清楚：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Greater precision and control&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Stronger across languages&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Stylistic sophistication and realism&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这三点放在一起看，含义很明确。&lt;/p&gt;
&lt;p&gt;第一，不再只强调“想象力”，而是强调控制力。页面里出现了大量海报、杂志页、宣传页、信息图、角色设定页、分镜漫画、印刷书签这类示例。它们的共同点不是单张视觉冲击力，而是需要同时处理文字、层级、留白、构图、风格统一和输出比例。这说明 OpenAI 在刻意把产品定位从“生成一张图”往“生成一份可以拿去用的视觉成品”推进。&lt;/p&gt;
&lt;p&gt;第二，多语言文字能力被单独拎出来做展示。页面里不仅有多语种海报、书籍封面、韩文旅宿宣传页、日文漫画，还有专门强调 typography 的示例。这很关键，因为过去图像模型最容易翻车的地方之一，就是一旦涉及长文本、复杂版式或非英语文字，稳定性会明显下降。现在 OpenAI 把它放到发布页核心位置，本身就是在传递一个信号：文字渲染和跨语言排版，已经成为它们认为值得正面展示的能力。&lt;/p&gt;
&lt;p&gt;第三，风格覆盖面被拉得很宽。官方示例同时覆盖了写实摄影、复古拼贴、Bauhaus 海报、时尚大片、黑白纪实、儿童绘本、日漫、青年漫画、教育信息图、产品网格图、角色设定页等多种形式。这里想表达的不是“模型能模仿很多画风”这么简单，而是它正在尝试从单一美术风格输出，走向更完整的视觉任务适配。&lt;/p&gt;
&lt;h2 id=&#34;02-为什么说它在走向可直接交付&#34;&gt;02 为什么说它在走向“可直接交付”
&lt;/h2&gt;&lt;p&gt;从这页内容来看，ChatGPT Images 2.0 更像一个“图像制作工作台”能力升级，而不只是更强的文生图模型。&lt;/p&gt;
&lt;p&gt;过去很多模型虽然也能生成漂亮图片，但一旦用户需求变成下面这些任务，体验就会迅速下降：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;做一张带完整标题、副标题和说明文字的海报&lt;/li&gt;
&lt;li&gt;做一页信息密度较高的杂志或宣传页&lt;/li&gt;
&lt;li&gt;做带连续角色和连续叙事的漫画页&lt;/li&gt;
&lt;li&gt;做需要固定比例、特定版式和明确品牌感的营销物料&lt;/li&gt;
&lt;li&gt;做包含多语言文字的正式视觉内容&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;而 OpenAI 这次展示的例子，几乎都在正面回应这些老问题。&lt;/p&gt;
&lt;p&gt;例如页面里有教育信息图、设计趋势海报、书签印刷稿、咖啡店开业海报、旅游宣传页、产品周边展示图、论文海报重制图。这类内容有一个共同特征：它们不是“给人看一眼觉得不错”就结束，而是更接近真实工作流里的半成品甚至成品。&lt;/p&gt;
&lt;p&gt;换句话说，这次更新真正重要的地方，可能不是单张图质量又提升了多少，而是模型开始更像一套可用于内容生产、品牌物料、教育传播和轻量设计工作的生成系统。&lt;/p&gt;
&lt;h2 id=&#34;03-这对-chatgpt-产品定位意味着什么&#34;&gt;03 这对 ChatGPT 产品定位意味着什么
&lt;/h2&gt;&lt;p&gt;从发布页组织方式也能看出一些产品层面的变化。&lt;/p&gt;
&lt;p&gt;OpenAI 没有把 ChatGPT Images 2.0 包装成一个只服务创意圈的图像模型，而是不断用“研究、推理、资料转化、版面整理、知识表达、营销输出”这些场景去展示它。页面里甚至还有把数学证明、设计趋势、历史笔记、学术论文可视化的例子。&lt;/p&gt;
&lt;p&gt;这意味着图像生成在 ChatGPT 里的角色，已经不只是“给聊天配图”或“生成一张插画”，而是在向更通用的表达层靠拢。它想做的是：当用户已经在 ChatGPT 里思考、查资料、整理内容、写文案之后，最后一步连视觉产出也一起完成。&lt;/p&gt;
&lt;p&gt;如果这个方向继续推进，图像功能的竞争点就不再只是审美和写实程度，而会越来越依赖下面这些能力：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;是否能稳定处理复杂文字&lt;/li&gt;
&lt;li&gt;是否能维持跨页面或多面板的一致性&lt;/li&gt;
&lt;li&gt;是否能生成更接近真实工作物料的版式&lt;/li&gt;
&lt;li&gt;是否能在研究、写作、营销、教学这些任务里自然接上前面的上下文&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;04-这篇发布页没有说什么&#34;&gt;04 这篇发布页没有说什么
&lt;/h2&gt;&lt;p&gt;当然，发布页的写法也决定了它更适合“看方向”，不太适合“看细节”。&lt;/p&gt;
&lt;p&gt;截至官方页面 2026 年 4 月 21 日的内容，它主要展示的是结果，而不是方法。页面没有详细展开：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;模型与上一代相比的量化提升&lt;/li&gt;
&lt;li&gt;文字准确率或多语言渲染的明确指标&lt;/li&gt;
&lt;li&gt;复杂版式任务的失败边界&lt;/li&gt;
&lt;li&gt;API、价格、调用方式或企业侧接入细节&lt;/li&gt;
&lt;li&gt;安全策略和生成限制的具体更新&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;所以更准确地说，这篇文章传递的是产品信号，而不是完整技术规格。&lt;/p&gt;
&lt;h2 id=&#34;05-简单结论&#34;&gt;05 简单结论
&lt;/h2&gt;&lt;p&gt;如果只用一句话概括 ChatGPT Images 2.0，这次更新最值得注意的不是“更会画”，而是“更会做成品”。&lt;/p&gt;
&lt;p&gt;OpenAI 显然希望把图像生成从灵感型工具，往可执行、可排版、可沟通、可交付的生产工具推进。文字控制、多语言、版式、风格跨度、长页面内容组织，这些原本最容易暴露短板的地方，现在反而成了它主动展示的卖点。&lt;/p&gt;
&lt;p&gt;这不代表图像生成已经完全解决了设计工作里的所有问题，但至少从这次发布页可以看出，竞争重心正在变化。未来谁更强，可能不只是看谁能出一张更惊艳的图，而是看谁能更稳定地做出一份真的能拿去用的视觉内容。&lt;/p&gt;
&lt;h2 id=&#34;相关链接&#34;&gt;相关链接
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://openai.com/index/introducing-chatgpt-images-2-0/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Introducing ChatGPT Images 2.0 - OpenAI&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        
    </channel>
</rss>
