<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>NVIDIA on KnightLi的博客</title>
        <link>https://knightli.com/tags/nvidia/</link>
        <description>Recent content in NVIDIA on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <lastBuildDate>Sun, 31 May 2026 13:05:55 +0800</lastBuildDate><atom:link href="https://knightli.com/tags/nvidia/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>NVIDIA 发布 Qwen3.6-35B-A3B-NVFP4：面向 vLLM 部署的 FP4 量化版本</title>
        <link>https://knightli.com/2026/05/31/nvidia-qwen3-6-35b-a3b-nvfp4/</link>
        <pubDate>Sun, 31 May 2026 13:05:55 +0800</pubDate>
        
        <guid>https://knightli.com/2026/05/31/nvidia-qwen3-6-35b-a3b-nvfp4/</guid>
        <description>&lt;p&gt;NVIDIA 在 Hugging Face 上发布了 &lt;code&gt;nvidia/Qwen3.6-35B-A3B-NVFP4&lt;/code&gt;。这是基于阿里 Qwen3.6-35B-A3B 的量化版本，使用 NVIDIA Model Optimizer 处理，目标是让开发者更方便地把模型部署到 vLLM、Agent、RAG、聊天机器人等推理场景中。&lt;/p&gt;
&lt;p&gt;模型卡显示，它采用 Apache-2.0 许可证，可以用于商业和非商业场景。需要注意的是，NVIDIA 明确说明该模型并不是 NVIDIA 自研基础模型，而是基于第三方模型 Qwen3.6-35B-A3B 的量化版本。&lt;/p&gt;
&lt;h2 id=&#34;模型基本信息&#34;&gt;模型基本信息
&lt;/h2&gt;&lt;p&gt;根据模型卡，&lt;code&gt;Qwen3.6-35B-A3B-NVFP4&lt;/code&gt; 的关键参数如下：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;基础模型：&lt;code&gt;Qwen/Qwen3.6-35B-A3B&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;发布方：NVIDIA&lt;/li&gt;
&lt;li&gt;量化工具：NVIDIA Model Optimizer&lt;/li&gt;
&lt;li&gt;许可证：Apache-2.0&lt;/li&gt;
&lt;li&gt;架构：Transformer&lt;/li&gt;
&lt;li&gt;网络结构：MoE with Hybrid Attention&lt;/li&gt;
&lt;li&gt;参数规模：总参数 35B，激活参数 3B&lt;/li&gt;
&lt;li&gt;输入：文本、图像、视频&lt;/li&gt;
&lt;li&gt;输出：文本&lt;/li&gt;
&lt;li&gt;上下文长度：最高 262K&lt;/li&gt;
&lt;li&gt;推理引擎：vLLM&lt;/li&gt;
&lt;li&gt;推荐硬件：NVIDIA Hopper、NVIDIA Blackwell&lt;/li&gt;
&lt;li&gt;推荐系统：Linux&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Hugging Face 页面侧边栏同时显示了模型文件相关的体积与张量类型信息。阅读时不要把页面侧边栏里的文件统计口径，直接等同于基础模型的架构参数。&lt;/p&gt;
&lt;h2 id=&#34;nvfp4-量化做了什么&#34;&gt;NVFP4 量化做了什么
&lt;/h2&gt;&lt;p&gt;这个版本的重点是 NVFP4 量化。模型卡描述中提到，NVIDIA 对 Qwen3.6-35B-A3B 的权重做了 NVFP4 量化，使其可以配合 vLLM 推理使用。&lt;/p&gt;
&lt;p&gt;这次量化不是把所有内容都粗暴压到 4-bit，而是针对 MoE Transformer block 中线性算子的权重和激活做处理。官方给出的结果是：每个参数的位宽从 16 bit 降到 4 bit，磁盘占用和 GPU 显存需求约降低 3.06 倍。&lt;/p&gt;
&lt;p&gt;对部署来说，这类预量化版本的意义很直接：不用自己重新跑量化流程，就可以直接拿来测试吞吐、显存占用和长上下文推理表现。&lt;/p&gt;
&lt;h2 id=&#34;vllm-部署命令&#34;&gt;vLLM 部署命令
&lt;/h2&gt;&lt;p&gt;模型卡给出的基础启动命令如下：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;vllm serve nvidia/Qwen3.6-35B-A3B-NVFP4 --port &lt;span class=&#34;m&#34;&gt;8000&lt;/span&gt; --quantization modelopt --max-model-len &lt;span class=&#34;m&#34;&gt;262144&lt;/span&gt; --reasoning-parser qwen3
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;这条命令保留了 262K 上下文长度，适合先在高显存环境中验证模型能力。如果显存紧张，可以先降低 &lt;code&gt;--max-model-len&lt;/code&gt;，再逐步上调。&lt;/p&gt;
&lt;p&gt;针对 NVIDIA DGX Spark，模型卡给了另一组环境变量和 vLLM 参数：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;5
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;export&lt;/span&gt; &lt;span class=&#34;nv&#34;&gt;VLLM_USE_FLASHINFER_MOE_FP4&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;m&#34;&gt;0&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;export&lt;/span&gt; &lt;span class=&#34;nv&#34;&gt;VLLM_FP8_MOE_BACKEND&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;flashinfer_cutlass
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;export&lt;/span&gt; &lt;span class=&#34;nv&#34;&gt;FLASHINFER_DISABLE_VERSION_CHECK&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;m&#34;&gt;1&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;export&lt;/span&gt; &lt;span class=&#34;nv&#34;&gt;CUTE_DSL_ARCH&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;sm_121a
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;vllm serve nvidia/Qwen3.6-35B-A3B-NVFP4 --port &lt;span class=&#34;m&#34;&gt;8000&lt;/span&gt; --tensor-parallel-size &lt;span class=&#34;m&#34;&gt;1&lt;/span&gt; --trust-remote-code --dtype auto --quantization modelopt --kv-cache-dtype fp8 --attention-backend flashinfer --moe-backend marlin --gpu-memory-utilization 0.85 --max-model-len &lt;span class=&#34;m&#34;&gt;65536&lt;/span&gt; --max-num-seqs &lt;span class=&#34;m&#34;&gt;4&lt;/span&gt; --max-num-batched-tokens &lt;span class=&#34;m&#34;&gt;8192&lt;/span&gt; --enable-chunked-prefill --async-scheduling --enable-prefix-caching --speculative-config &lt;span class=&#34;s1&#34;&gt;&amp;#39;{&amp;#34;method&amp;#34;:&amp;#34;mtp&amp;#34;,&amp;#34;num_speculative_tokens&amp;#34;:3,&amp;#34;moe_backend&amp;#34;:&amp;#34;triton&amp;#34;}&amp;#39;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;这组参数更偏向实际部署调优：降低上下文到 65536，启用 FP8 KV cache、chunked prefill、prefix caching，并配置 speculative decoding。它不是所有机器都能直接复制使用，尤其是 &lt;code&gt;CUTE_DSL_ARCH=sm_121a&lt;/code&gt;、FlashInfer、MoE backend 等参数，都和具体 GPU、驱动、CUDA、vLLM 版本有关。&lt;/p&gt;
&lt;h2 id=&#34;评测结果怎么看&#34;&gt;评测结果怎么看
&lt;/h2&gt;&lt;p&gt;模型卡对比了 BF16 基线和 NVFP4 量化版本的结果：&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;Precision&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;MMLU Pro&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;GPQA Diamond&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;τ²-Bench Telecom&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;SciCode&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;AIME 2025&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;AA-LCR&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;IFBench&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;MMMU Pro&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;BF16&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;85.6&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;84.9&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;95.5&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;40.8&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;89.2&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;62.0&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;62.3&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;74.1&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;NVFP4&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;85.0&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;84.8&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;94.7&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;40.6&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;88.8&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;62.0&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;62.8&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;74.5&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;从表格看，NVFP4 相比 BF16 有小幅波动：部分指标略降，IFBench 和 MMMU Pro 反而略高。更稳妥的理解是：这个量化版本在这些公开评测上尽量接近 BF16，但部署前仍然需要用自己的业务数据测试。&lt;/p&gt;
&lt;p&gt;尤其是 Agent、RAG、代码生成、长上下文检索这类场景，公开 benchmark 只能给一个参考。真正上线前，还是要看：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;长上下文下是否稳定遵循指令；&lt;/li&gt;
&lt;li&gt;RAG 场景中是否会忽略引用材料；&lt;/li&gt;
&lt;li&gt;工具调用是否容易产生错误参数；&lt;/li&gt;
&lt;li&gt;中文、英文和多模态输入是否符合你的业务要求；&lt;/li&gt;
&lt;li&gt;低显存配置下吞吐和延迟是否能接受。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;适合哪些场景&#34;&gt;适合哪些场景
&lt;/h2&gt;&lt;p&gt;这个模型更适合已经准备使用 NVIDIA GPU 和 vLLM 做推理服务的团队。典型场景包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;本地或私有化聊天机器人；&lt;/li&gt;
&lt;li&gt;RAG 知识库问答；&lt;/li&gt;
&lt;li&gt;Agent 系统中的规划与工具调用；&lt;/li&gt;
&lt;li&gt;长文档阅读与摘要；&lt;/li&gt;
&lt;li&gt;需要更低显存占用的大模型推理测试；&lt;/li&gt;
&lt;li&gt;想比较 BF16 与 FP4 量化效果的部署团队。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果只是想在普通消费级显卡上随便跑一跑，要先确认显存、vLLM 版本和量化支持情况。预量化模型可以降低部署门槛，但不等于所有硬件都能无痛运行 262K 上下文。&lt;/p&gt;
&lt;h2 id=&#34;使用限制&#34;&gt;使用限制
&lt;/h2&gt;&lt;p&gt;模型卡中也提醒了常见限制：基础模型的训练数据来自互联网，可能包含有害内容和社会偏见，因此模型可能在某些提示下放大偏见、生成不准确内容、遗漏关键信息，或者输出不合适的文本。&lt;/p&gt;
&lt;p&gt;如果用于生产环境，建议至少增加几层保护：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;针对业务场景做安全评测；&lt;/li&gt;
&lt;li&gt;给 RAG 和工具调用增加结果校验；&lt;/li&gt;
&lt;li&gt;对高风险输出增加人工复核；&lt;/li&gt;
&lt;li&gt;记录推理版本、量化配置和 vLLM 参数；&lt;/li&gt;
&lt;li&gt;对重要任务保留回滚到其他模型或 BF16 版本的方案。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;小结&#34;&gt;小结
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;nvidia/Qwen3.6-35B-A3B-NVFP4&lt;/code&gt; 的价值在于：它把 Qwen3.6-35B-A3B 做成了一个可以直接面向 vLLM 部署的 NVIDIA 量化版本。NVFP4 降低了显存和磁盘压力，官方评测也显示它在多项指标上接近 BF16。&lt;/p&gt;
&lt;p&gt;但它仍然是一个需要工程验证的推理模型。真正部署前，不要只看 benchmark 分数，更要结合自己的硬件、上下文长度、RAG 数据、Agent 工具链和安全要求做测试。&lt;/p&gt;
&lt;p&gt;参考链接：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/nvidia/Qwen3.6-35B-A3B-NVFP4&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;nvidia/Qwen3.6-35B-A3B-NVFP4 - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://github.com/NVIDIA/Model-Optimizer&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;NVIDIA Model Optimizer&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/Qwen/Qwen3.6-35B-A3B&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Qwen/Qwen3.6-35B-A3B&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>黄仁勋 CMU 演讲真正想说什么</title>
        <link>https://knightli.com/2026/05/14/jensen-huang-cmu-speech-career-advice/</link>
        <pubDate>Thu, 14 May 2026 20:59:50 +0800</pubDate>
        
        <guid>https://knightli.com/2026/05/14/jensen-huang-cmu-speech-career-advice/</guid>
        <description>&lt;p&gt;黄仁勋在 CMU 的演讲，表面上是在讲个人经历和创业故事，实际上是在给一批顶尖大学毕业生泼冷水。&lt;/p&gt;
&lt;p&gt;他的核心意思不是“大家都会变得更轻松”，而是：AI 时代来了，过去那套稳定、体面、线性的职业路径可能不再成立。年轻人要准备重新吃苦，也要准备接受一些以前看起来不够光鲜的工作。&lt;/p&gt;
&lt;h2 id=&#34;第一层我小时候很苦你们可能也会苦&#34;&gt;第一层：我小时候很苦，你们可能也会苦
&lt;/h2&gt;&lt;p&gt;黄仁勋讲自己小时候的经历：凌晨 4 点起床送报纸，后来去 Denny’s 洗碗。&lt;/p&gt;
&lt;p&gt;这种故事当然有励志成分，但它不是普通的忆苦思甜。他面对的是卡耐基梅隆大学的学生，一群本来很容易进入投行、软件公司、科技巨头和高薪岗位的人。&lt;/p&gt;
&lt;p&gt;所以这段话真正的指向是：不要默认自己毕业以后就能沿着过去那条舒服路线走下去。&lt;/p&gt;
&lt;p&gt;AI 正在重写很多职业的价值。过去靠学历、简历和大厂通道获得稳定上升的模式，可能会被压缩。很多人可能会发现，自己也要经历一段更粗粝、更不体面、更需要从基础工作开始的时期。&lt;/p&gt;
&lt;h2 id=&#34;第二层脱下长袍去做真正需要人的工作&#34;&gt;第二层：脱下长袍，去做真正需要人的工作
&lt;/h2&gt;&lt;p&gt;黄仁勋从送报纸讲到去 Denny’s 洗碗，并把洗碗称为一次重要的职业晋升。&lt;/p&gt;
&lt;p&gt;这句话很关键。他其实是在说，职业价值不一定来自头衔，而来自你是否进入了真实需求里。&lt;/p&gt;
&lt;p&gt;放到今天的 AI 产业里，他想表达的可能是：不要只盯着投行、互联网软件公司、咨询公司、传统白领岗位。未来真正缺人的地方，可能在更基础、更工程化、更辛苦的环节。&lt;/p&gt;
&lt;p&gt;比如：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;建数据中心；&lt;/li&gt;
&lt;li&gt;做电力和制冷；&lt;/li&gt;
&lt;li&gt;做机房运维；&lt;/li&gt;
&lt;li&gt;做水电和基础设施；&lt;/li&gt;
&lt;li&gt;做 GPU 集群部署；&lt;/li&gt;
&lt;li&gt;做 AI 工厂的工程交付。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这些工作听起来没有“进大厂写软件”那么体面，但在 AI 时代，它们可能就是新的关键岗位。&lt;/p&gt;
&lt;p&gt;所以“去做水管工、电工、机房建设者”不是简单的玩笑，而是在提醒毕业生：AI 不只是模型和代码，它还需要电、土地、机房、网络、散热、运维和供应链。谁能把这些东西真实建出来，谁就站在产业最硬的地方。&lt;/p&gt;
&lt;h2 id=&#34;第三层真正困难的事总比想象中更难&#34;&gt;第三层：真正困难的事总比想象中更难
&lt;/h2&gt;&lt;p&gt;黄仁勋还讲到，英伟达每次遇到困难时，团队都会想：这能有多难？&lt;/p&gt;
&lt;p&gt;但事实是，每一次都比一开始想象得更难。&lt;/p&gt;
&lt;p&gt;这也是创业者和工程师最该听进去的一句话。很多事情在 PPT 上看起来只是一个项目，在会议室里看起来只是一个路线图，在战略叙事里看起来只是一个趋势。但真正做起来，都会遇到供应链、资金、工程、客户、组织、竞争和时间压力。&lt;/p&gt;
&lt;p&gt;AI 时代尤其如此。&lt;/p&gt;
&lt;p&gt;训练模型很难，部署模型也难；做出 demo 很难，把 demo 变成可靠产品更难；买 GPU 很难，把 GPU 跑满、跑稳、跑出商业回报更难。&lt;/p&gt;
&lt;p&gt;所以黄仁勋讲的不是轻松乐观，而是一种工程现实主义：你可以乐观，但不要低估困难。&lt;/p&gt;
&lt;h2 id=&#34;这场演讲真正的提醒&#34;&gt;这场演讲真正的提醒
&lt;/h2&gt;&lt;p&gt;如果把这场演讲压成一句话，大概是：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;AI 时代不会自动奖励聪明人，它会奖励愿意进入真实困难、真实基础设施、真实工程现场的人。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;CMU 的学生当然仍然有很多机会。但如果他们只是沿着过去师兄师姐的路径，去找一个稳定大厂岗位，然后在里面等待职业惯性继续运转，那么被时代淘汰也不是不可能。&lt;/p&gt;
&lt;p&gt;黄仁勋真正想提醒他们的是：别只想着穿着毕业长袍走进体面办公室。未来的机会，可能在机房里，在电力系统里，在冷却管道旁，在 GPU 集群前，也在那些一开始看起来不够优雅、不够白领的工作里。&lt;/p&gt;
&lt;p&gt;AI 改变的不只是软件岗位，也会重新定义什么叫“好工作”。&lt;/p&gt;
</description>
        </item>
        <item>
        <title>NVIDIA 发布 Nemotron 3 Nano Omni：面向智能体的开放全模态推理模型</title>
        <link>https://knightli.com/2026/05/01/nvidia-nemotron-3-nano-omni-multimodal-agents/</link>
        <pubDate>Fri, 01 May 2026 12:07:15 +0800</pubDate>
        
        <guid>https://knightli.com/2026/05/01/nvidia-nemotron-3-nano-omni-multimodal-agents/</guid>
        <description>&lt;p&gt;NVIDIA 发布了 &lt;code&gt;Nemotron 3 Nano Omni&lt;/code&gt;，这是一款面向智能体工作流的开放式全模态推理模型。
它的重点不是只做文字问答，而是把语言、视觉、音频放进同一个推理框架里，让模型能够处理更接近真实工作流的输入。&lt;/p&gt;
&lt;p&gt;从定位看，&lt;code&gt;Nemotron 3 Nano Omni&lt;/code&gt; 更像是给 AI Agent 准备的底层模型。
它可以理解屏幕、文档、图片、语音和视频中的信息，并把这些信息转成可执行的推理结果。
这类能力适合计算机操作、文档智能、视频理解、语音交互、客服、教育和企业流程自动化。&lt;/p&gt;
&lt;h2 id=&#34;模型规格&#34;&gt;模型规格
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;Nemotron 3 Nano Omni&lt;/code&gt; 采用 MoE 架构。
NVIDIA 给出的核心规格是：&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;项目&lt;/th&gt;
          &lt;th&gt;信息&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;模型名称&lt;/td&gt;
          &lt;td&gt;&lt;code&gt;Nemotron 3 Nano Omni&lt;/code&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;架构&lt;/td&gt;
          &lt;td&gt;MoE&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;参数规模&lt;/td&gt;
          &lt;td&gt;30B total / 3B active&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;模态&lt;/td&gt;
          &lt;td&gt;文本、图像、音频、视频&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;上下文长度&lt;/td&gt;
          &lt;td&gt;256K token&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;许可&lt;/td&gt;
          &lt;td&gt;Apache 2.0&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;主要部署方向&lt;/td&gt;
          &lt;td&gt;AI Agent、多模态推理、企业智能体&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;这里最值得注意的是 &lt;code&gt;30B-A3B&lt;/code&gt;。
它代表模型总参数规模约 30B，但每次推理只激活约 3B 参数。
这能在能力和推理成本之间做一个折中：模型保留较大的专家容量，同时运行时只使用其中一部分。&lt;/p&gt;
&lt;p&gt;不过，MoE 的 &lt;code&gt;active params&lt;/code&gt; 不等于显存只按 3B 模型估算。
完整部署仍然要考虑专家权重、KV cache、视觉/音频编码模块、上下文长度和推理框架开销。&lt;/p&gt;
&lt;h2 id=&#34;它解决的不是单一模态问题&#34;&gt;它解决的不是单一模态问题
&lt;/h2&gt;&lt;p&gt;传统大语言模型主要处理文字。
多模态模型进一步支持图片理解。
而 &lt;code&gt;Nemotron 3 Nano Omni&lt;/code&gt; 的目标更宽：它强调全模态输入，也就是把文本、图像、音频和视频统一纳入推理。&lt;/p&gt;
&lt;p&gt;这对 Agent 很关键。
真正的智能体任务往往不是“给一段文字，生成一段文字”，而是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;看屏幕上的按钮、表格和窗口；&lt;/li&gt;
&lt;li&gt;读 PDF、截图、图表和网页；&lt;/li&gt;
&lt;li&gt;听语音说明或会议录音；&lt;/li&gt;
&lt;li&gt;理解视频中的动作、场景和时序；&lt;/li&gt;
&lt;li&gt;把这些信息综合成下一步操作。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果模型只能处理单一模态，Agent 就需要额外拼接多个专用模型。
全模态模型的价值在于减少这种拼接成本，让同一个模型直接处理更复杂的环境输入。&lt;/p&gt;
&lt;h2 id=&#34;面向计算机操作和文档智能&#34;&gt;面向计算机操作和文档智能
&lt;/h2&gt;&lt;p&gt;NVIDIA 特别提到，&lt;code&gt;Nemotron 3 Nano Omni&lt;/code&gt; 可用于计算机操作相关任务。
这类任务通常要求模型理解用户界面：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;屏幕上有哪些控件；&lt;/li&gt;
&lt;li&gt;当前窗口处于什么状态；&lt;/li&gt;
&lt;li&gt;哪个按钮或菜单是下一步目标；&lt;/li&gt;
&lt;li&gt;表格、弹窗、输入框中的内容意味着什么。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这也是现在 AI Agent 落地时很难绕开的能力。
如果智能体要帮人操作办公软件、浏览器、企业后台或开发工具，它必须能看懂界面，而不是只读 API 文档。&lt;/p&gt;
&lt;p&gt;文档智能也是类似逻辑。
企业资料经常混合文本、表格、图像、扫描页和图表。
全模态模型可以把这些内容放在同一个上下文里理解，适合做合同审阅、报表分析、票据处理、知识库问答和流程自动化。&lt;/p&gt;
&lt;h2 id=&#34;音频和视频让-agent-更接近真实场景&#34;&gt;音频和视频让 Agent 更接近真实场景
&lt;/h2&gt;&lt;p&gt;音频和视频输入会让 Agent 的应用范围明显扩大。&lt;/p&gt;
&lt;p&gt;音频场景包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;会议录音总结；&lt;/li&gt;
&lt;li&gt;客服通话分析；&lt;/li&gt;
&lt;li&gt;语音指令理解；&lt;/li&gt;
&lt;li&gt;教育和培训内容整理。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;视频场景包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;教学视频理解；&lt;/li&gt;
&lt;li&gt;安防和工业巡检；&lt;/li&gt;
&lt;li&gt;屏幕录制分析；&lt;/li&gt;
&lt;li&gt;操作流程复盘；&lt;/li&gt;
&lt;li&gt;多步骤任务中的时序判断。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这些任务如果只靠文字转写，会丢掉很多视觉和时序信息。
全模态模型可以直接把声音、画面和文字线索结合起来，给 Agent 更完整的环境感知。&lt;/p&gt;
&lt;h2 id=&#34;部署与生态&#34;&gt;部署与生态
&lt;/h2&gt;&lt;p&gt;NVIDIA 将 &lt;code&gt;Nemotron 3 Nano Omni&lt;/code&gt; 放进开放生态里，模型采用 Apache 2.0 许可。
这对开发者和企业很重要，因为它降低了试验、集成和二次开发的许可门槛。&lt;/p&gt;
&lt;p&gt;从 NVIDIA 的介绍看，这个模型也和其推理生态绑定紧密。
对企业用户来说，真正部署时通常会关注这些问题：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;是否能在 NVIDIA GPU 上高效推理；&lt;/li&gt;
&lt;li&gt;是否支持长上下文和多模态输入；&lt;/li&gt;
&lt;li&gt;是否能接入现有 Agent 框架；&lt;/li&gt;
&lt;li&gt;是否能处理企业内部文档、音视频和界面截图；&lt;/li&gt;
&lt;li&gt;是否可以在私有环境里部署。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;NVIDIA 强调该模型在吞吐方面有明显优势，并称其最高可达到同类开放全模态推理模型的 9 倍。
这个数字的实际价值，还要结合具体硬件、上下文长度、输入模态和推理框架来看。
但方向很明确：NVIDIA 想把开放多模态模型和自己的推理基础设施一起推向企业 Agent 场景。&lt;/p&gt;
&lt;h2 id=&#34;适合哪些场景&#34;&gt;适合哪些场景
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;Nemotron 3 Nano Omni&lt;/code&gt; 更适合下面这些任务：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;需要同时理解文本、图片、音频和视频的 Agent；&lt;/li&gt;
&lt;li&gt;企业内部文档智能和知识库问答；&lt;/li&gt;
&lt;li&gt;基于屏幕截图或网页界面的计算机操作；&lt;/li&gt;
&lt;li&gt;会议、客服、教学内容的多模态分析；&lt;/li&gt;
&lt;li&gt;视频理解、流程复盘和时序判断；&lt;/li&gt;
&lt;li&gt;对开放许可和私有化部署有要求的团队。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;它不一定适合所有普通用户。
如果只是本地聊天、代码补全或简单问答，单模态语言模型可能更轻、更快、更省资源。
&lt;code&gt;Nemotron 3 Nano Omni&lt;/code&gt; 的价值主要体现在复杂输入和多模态 Agent 工作流里。&lt;/p&gt;
&lt;h2 id=&#34;这对-ai-agent-意味着什么&#34;&gt;这对 AI Agent 意味着什么
&lt;/h2&gt;&lt;p&gt;AI Agent 要真正进入工作场景，不能只会写文字。
它需要看得懂界面，听得懂语音，读得懂文档，理解视频里的变化，还要把这些信息转成下一步行动。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;Nemotron 3 Nano Omni&lt;/code&gt; 的意义就在这里。
它不是单纯把模型参数做大，而是把 Agent 需要面对的多种输入统一到一个推理模型里。
这会让开发者更容易构建面向真实任务的智能体，而不是只围绕聊天窗口做应用。&lt;/p&gt;
&lt;p&gt;从这个角度看，NVIDIA 发布这款模型的重点不只是“又一个多模态模型”，而是继续把开放模型、GPU 推理、企业 Agent 和私有部署连接起来。
未来真正值得关注的是，它在具体 Agent 框架、企业工作流和本地部署中的实际表现。&lt;/p&gt;
&lt;p&gt;参考来源：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://blogs.nvidia.cn/blog/nemotron-3-nano-omni-multimodal-ai-agents/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;NVIDIA 技术博客：NVIDIA Nemotron 3 Nano Omni&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>2026 年 4 月显卡怎么选：哪些型号不建议碰，哪些更值得看</title>
        <link>https://knightli.com/2026/04/27/gpu-buying-guide-april-2026-model-picks/</link>
        <pubDate>Mon, 27 Apr 2026 08:51:10 +0800</pubDate>
        
        <guid>https://knightli.com/2026/04/27/gpu-buying-guide-april-2026-model-picks/</guid>
        <description>&lt;p&gt;如果你最近正准备装机，那显卡这一步最好别只看“新不新”。到 2026 年 4 月这个时间点，已经有一些卡明显不太值得碰，也有一些卡虽然不算完美，但至少比同价位其他选项更顺一点。&lt;/p&gt;
&lt;p&gt;这篇就不绕概念，直接说型号。&lt;/p&gt;
&lt;h2 id=&#34;不太建议碰的几类&#34;&gt;不太建议碰的几类
&lt;/h2&gt;&lt;h2 id=&#34;1-rtx-5060-ti-8gb&#34;&gt;1. &lt;code&gt;RTX 5060 Ti 8GB&lt;/code&gt;
&lt;/h2&gt;&lt;p&gt;这张卡最大的问题不是完全不能用，而是 &lt;code&gt;8GB&lt;/code&gt; 在这个时间点已经有点卡在中间了。&lt;/p&gt;
&lt;p&gt;如果你只是玩比较轻的网游、&lt;code&gt;1080p&lt;/code&gt; 中高画质，它还能交差；但只要往下面这些方向走，短板就会很快冒出来：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;新一点的大作&lt;/li&gt;
&lt;li&gt;更高材质&lt;/li&gt;
&lt;li&gt;&lt;code&gt;2K&lt;/code&gt; 分辨率&lt;/li&gt;
&lt;li&gt;AI 推理、剪辑、生产力混用&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果你已经在看 &lt;code&gt;RTX 5060 Ti&lt;/code&gt;，更稳的思路通常是直接上 &lt;code&gt;16GB&lt;/code&gt; 版，而不是为了省一点预算去买 &lt;code&gt;8GB&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;简单说：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;RTX 5060 Ti 8GB&lt;/code&gt;：不太推荐&lt;/li&gt;
&lt;li&gt;&lt;code&gt;RTX 5060 Ti 16GB&lt;/code&gt;：明显更值得看&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;2-高价老卡尤其是还卖得不便宜的-rtx-3080-10gbrtx-3070-ti&#34;&gt;2. 高价老卡，尤其是还卖得不便宜的 &lt;code&gt;RTX 3080 10GB&lt;/code&gt;、&lt;code&gt;RTX 3070 Ti&lt;/code&gt;
&lt;/h2&gt;&lt;p&gt;这类卡的问题不是性能完全不行，而是放到现在看，买它们经常会陷入一个很尴尬的位置：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;功耗不低&lt;/li&gt;
&lt;li&gt;年代不新&lt;/li&gt;
&lt;li&gt;显存也不算宽裕&lt;/li&gt;
&lt;li&gt;二手来源还经常比较复杂&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;尤其是 &lt;code&gt;RTX 3080 10GB&lt;/code&gt;，如果价格还挂得高，就很容易变成“看起来很猛，实际不够平衡”的选择。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;RTX 3070 Ti&lt;/code&gt; 也是类似逻辑。它不是完全不能买，但如果价格没有明显拉开，一般不如直接看更新一点、显存更宽松或者功耗表现更均衡的卡。&lt;/p&gt;
&lt;h2 id=&#34;3-来源不明的老旗舰比如-rtx-3090rtx-3080-ti&#34;&gt;3. 来源不明的老旗舰，比如 &lt;code&gt;RTX 3090&lt;/code&gt;、&lt;code&gt;RTX 3080 Ti&lt;/code&gt;
&lt;/h2&gt;&lt;p&gt;这两张卡很多人会心动，原因也很直接：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;名字很强&lt;/li&gt;
&lt;li&gt;纸面性能不差&lt;/li&gt;
&lt;li&gt;二手市场存在感很高&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;但真正要小心的是来源。&lt;/p&gt;
&lt;p&gt;如果你买的是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;拆机卡&lt;/li&gt;
&lt;li&gt;维修卡&lt;/li&gt;
&lt;li&gt;历史不清楚的二手卡&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;那风险通常比普通消费级新卡高得多。像 &lt;code&gt;RTX 3090&lt;/code&gt; 这种卡，虽然 &lt;code&gt;24GB&lt;/code&gt; 显存很诱人，但发热、供电、体质、过往使用历史，都会比买一张正常零售的新卡更让人操心。&lt;/p&gt;
&lt;p&gt;如果你不是明确知道自己在买什么，也不准备花时间排查卡况，这类老旗舰一般不建议随便碰。&lt;/p&gt;
&lt;h2 id=&#34;4-价格不合适的-rtx-5070&#34;&gt;4. 价格不合适的 &lt;code&gt;RTX 5070&lt;/code&gt;
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;RTX 5070&lt;/code&gt; 本身不属于绝对不能买的卡，但前提是价格得对。&lt;/p&gt;
&lt;p&gt;它比较尴尬的点在于：如果它和 &lt;code&gt;RTX 5070 Ti&lt;/code&gt; 之间的差价被拉得不够开，那很多人最后都会发现自己买得有点别扭。&lt;/p&gt;
&lt;p&gt;因为你多半会面对这种情况：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;买 &lt;code&gt;5070&lt;/code&gt;：总觉得再加一点就能上 &lt;code&gt;5070 Ti&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;不加：心里一直知道自己买的是“差一点”的那张&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;所以 &lt;code&gt;RTX 5070&lt;/code&gt; 不是不能看，而是 &lt;strong&gt;只有在价格明显合适的时候才值得看&lt;/strong&gt;。如果价格卡得不上不下，它就很容易变成“理论上合理，实际不香”。&lt;/p&gt;
&lt;h2 id=&#34;相对更值得看的几张&#34;&gt;相对更值得看的几张
&lt;/h2&gt;&lt;h2 id=&#34;1-rtx-5060-ti-16gb&#34;&gt;1. &lt;code&gt;RTX 5060 Ti 16GB&lt;/code&gt;
&lt;/h2&gt;&lt;p&gt;如果你本来就在看中端卡，这张通常比 &lt;code&gt;8GB&lt;/code&gt; 版更稳。&lt;/p&gt;
&lt;p&gt;原因很简单：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;同系列里容错更高&lt;/li&gt;
&lt;li&gt;后面几年更不容易被显存卡住&lt;/li&gt;
&lt;li&gt;游戏和生产力混用时更从容&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;它未必是这个价位里最炸裂的卡，但至少是那种“买完不太容易立刻后悔”的选择。&lt;/p&gt;
&lt;h2 id=&#34;2-rtx-5070-ti&#34;&gt;2. &lt;code&gt;RTX 5070 Ti&lt;/code&gt;
&lt;/h2&gt;&lt;p&gt;如果预算能上去，这张现在通常会比 &lt;code&gt;RTX 5070&lt;/code&gt; 更像一个完整一点的答案。&lt;/p&gt;
&lt;p&gt;它的优势不在于“任何场景都碾压”，而在于更像一张能把游戏、分辨率和后续使用周期一起兼顾的卡。&lt;/p&gt;
&lt;p&gt;适合这几类人：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;想上 &lt;code&gt;2K&lt;/code&gt; 高画质&lt;/li&gt;
&lt;li&gt;希望机器多用几年&lt;/li&gt;
&lt;li&gt;不想买完很快就开始纠结升级&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果你本来就在 &lt;code&gt;5070&lt;/code&gt; 和 &lt;code&gt;5070 Ti&lt;/code&gt; 之间犹豫，而价格差又没有夸张到离谱，很多时候直接上 &lt;code&gt;5070 Ti&lt;/code&gt; 会更省心。&lt;/p&gt;
&lt;h2 id=&#34;3-正常价格的新卡通常比高位老卡更值得优先看&#34;&gt;3. 正常价格的新卡，通常比高位老卡更值得优先看
&lt;/h2&gt;&lt;p&gt;如果你不是专门淘卡的老玩家，那一个很朴素但有效的原则是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;优先看正常零售的新卡&lt;/li&gt;
&lt;li&gt;少碰来源复杂的老高端卡&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;放到现在这个节点，更现实的做法往往是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;中端预算：先看 &lt;code&gt;RTX 5060 Ti 16GB&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;再高一点：重点看 &lt;code&gt;RTX 5070 Ti&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;RTX 5070&lt;/code&gt; 只在价格明显合适时考虑&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;而不是一上来就去赌那些名字听起来更猛、但历史更复杂的老卡。&lt;/p&gt;
&lt;h2 id=&#34;如果你就是想要一句话结论&#34;&gt;如果你就是想要一句话结论
&lt;/h2&gt;&lt;p&gt;可以直接记这组：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;不太推荐：&lt;code&gt;RTX 5060 Ti 8GB&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;价格不对就不推荐：&lt;code&gt;RTX 5070&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;谨慎碰：&lt;code&gt;RTX 3080 10GB&lt;/code&gt;、&lt;code&gt;RTX 3070 Ti&lt;/code&gt;、来源不明的 &lt;code&gt;RTX 3090&lt;/code&gt; / &lt;code&gt;RTX 3080 Ti&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;更值得看：&lt;code&gt;RTX 5060 Ti 16GB&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;预算够更省心：&lt;code&gt;RTX 5070 Ti&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;最后一句&#34;&gt;最后一句
&lt;/h2&gt;&lt;p&gt;这个时间点选显卡，最怕的不是买贵一点，而是 &lt;strong&gt;买了一张表面没问题、实际用起来总觉得差一口气的卡&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;如果你想少后悔，&lt;code&gt;RTX 5060 Ti 16GB&lt;/code&gt; 和 &lt;code&gt;RTX 5070 Ti&lt;/code&gt; 会比很多“看起来也能买”的型号更稳；而 &lt;code&gt;RTX 5060 Ti 8GB&lt;/code&gt;、价格不合适的 &lt;code&gt;RTX 5070&lt;/code&gt;，以及来源复杂的老高端卡，通常更值得先划掉。&lt;/p&gt;
</description>
        </item>
        <item>
        <title>NVIDIA nvbandwidth 是什么：GPU 带宽测试工具怎么用</title>
        <link>https://knightli.com/2026/04/24/nvidia-nvbandwidth-guide/</link>
        <pubDate>Fri, 24 Apr 2026 14:41:35 +0800</pubDate>
        
        <guid>https://knightli.com/2026/04/24/nvidia-nvbandwidth-guide/</guid>
        <description>&lt;p&gt;如果你最近在排查多张 &lt;code&gt;NVIDIA GPU&lt;/code&gt; 之间的互联性能，或者想确认 &lt;code&gt;PCIe&lt;/code&gt;、&lt;code&gt;NVLink&lt;/code&gt;、主机内存到显存之间的实际带宽，&lt;code&gt;NVIDIA/nvbandwidth&lt;/code&gt; 是一个很值得知道的小工具。&lt;/p&gt;
&lt;p&gt;它不是通用跑分软件，也不是大模型框架里的隐藏命令，而是 NVIDIA 开源出来、专门用于测量 GPU 相关内存拷贝带宽与延迟的工具。相比只看理论带宽，&lt;code&gt;nvbandwidth&lt;/code&gt; 更适合回答一个实际问题：&lt;strong&gt;这台机器当前这组 GPU 和互联链路，真实能跑到多少带宽。&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id=&#34;1-nvbandwidth-是做什么的&#34;&gt;1. &lt;code&gt;nvbandwidth&lt;/code&gt; 是做什么的
&lt;/h2&gt;&lt;p&gt;从官方 README 的定位看，&lt;code&gt;nvbandwidth&lt;/code&gt; 是一个用于测量 &lt;code&gt;NVIDIA GPU&lt;/code&gt; 带宽的命令行工具。&lt;/p&gt;
&lt;p&gt;它重点关注的是各种 &lt;code&gt;memcpy&lt;/code&gt; 模式下的传输表现，例如：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;GPU -&amp;gt; GPU&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;CPU -&amp;gt; GPU&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;GPU -&amp;gt; CPU&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;多节点 GPU 之间的传输&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这类测试对下面几种场景尤其有用：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;排查多卡训练或推理时的互联瓶颈&lt;/li&gt;
&lt;li&gt;验证 &lt;code&gt;NVLink&lt;/code&gt;、&lt;code&gt;PCIe&lt;/code&gt;、&lt;code&gt;C2C&lt;/code&gt; 等链路的实际表现&lt;/li&gt;
&lt;li&gt;对比不同服务器、不同拓扑、不同驱动或 CUDA 版本下的传输差异&lt;/li&gt;
&lt;li&gt;做集群部署前的基础硬件验收&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;简单说，&lt;code&gt;nvbandwidth&lt;/code&gt; 看的不是模型吞吐，而是更底层的“数据搬运能力”。&lt;/p&gt;
&lt;h2 id=&#34;2-它测的不是一个单点数字&#34;&gt;2. 它测的不是一个单点数字
&lt;/h2&gt;&lt;p&gt;很多人会把“带宽测试”理解成最后只得到一个分数，但 &lt;code&gt;nvbandwidth&lt;/code&gt; 实际输出的信息更细。&lt;/p&gt;
&lt;p&gt;它会按测试类型给出矩阵结果。比如在 &lt;code&gt;device_to_device_memcpy_write_ce&lt;/code&gt; 这类测试里，输出会按 GPU 行列展示每一对设备之间的带宽。这样你不只知道“这台机器大概有多快”，还可以看出：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;哪两张卡之间速度特别高&lt;/li&gt;
&lt;li&gt;哪些卡之间明显受限于 &lt;code&gt;PCIe&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;某些 GPU 对之间是否存在异常低带宽&lt;/li&gt;
&lt;li&gt;多卡拓扑是否和预期一致&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果你在看八卡服务器、双路平台或者跨节点系统，这类矩阵结果会比单一平均值更有参考意义。&lt;/p&gt;
&lt;h2 id=&#34;3-ce-和-sm-两类拷贝怎么理解&#34;&gt;3. &lt;code&gt;CE&lt;/code&gt; 和 &lt;code&gt;SM&lt;/code&gt; 两类拷贝怎么理解
&lt;/h2&gt;&lt;p&gt;官方文档里把测试分成两类：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;CE&lt;/code&gt;：基于 &lt;code&gt;memcpy&lt;/code&gt; API 的 copy engine 拷贝&lt;/li&gt;
&lt;li&gt;&lt;code&gt;SM&lt;/code&gt;：基于 kernel 的拷贝&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这两类结果不一定完全相同，因为它们代表的是不同拷贝路径。&lt;br&gt;
如果你只是想看设备之间常规数据搬运的表现，通常会先关注 &lt;code&gt;CE&lt;/code&gt;；如果你要研究更细的执行路径，再继续看 &lt;code&gt;SM&lt;/code&gt; 会更合适。&lt;/p&gt;
&lt;p&gt;此外，README 也说明了带宽结果默认取多次测试的中位数；新版还补充了统计波动信息，这对判断结果是否稳定会更有帮助。&lt;/p&gt;
&lt;h2 id=&#34;4-运行它需要什么环境&#34;&gt;4. 运行它需要什么环境
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;nvbandwidth&lt;/code&gt; 不是一个“下载即用”的纯二进制小工具，它需要标准的 CUDA 开发环境。&lt;/p&gt;
&lt;p&gt;官方 README 当前给出的基本要求包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;CUDA Toolkit 11.x&lt;/code&gt; 或更高版本&lt;/li&gt;
&lt;li&gt;支持 &lt;code&gt;C++17&lt;/code&gt; 的编译器&lt;/li&gt;
&lt;li&gt;&lt;code&gt;CMake 3.20+&lt;/code&gt;，更推荐 &lt;code&gt;3.24+&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Boost program_options&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;可用的 &lt;code&gt;CUDA&lt;/code&gt; 设备与兼容驱动&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果你要跑多节点版本，要求会更高。当前 README 明确写到：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;多节点构建需要 &lt;code&gt;CUDA Toolkit 12.3&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;驱动需要 &lt;code&gt;550&lt;/code&gt; 或更高&lt;/li&gt;
&lt;li&gt;需要 &lt;code&gt;MPI&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;需要配置 &lt;code&gt;nvidia-imex&lt;/code&gt; 服务&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;所以它更像面向 Linux GPU 服务器和集群环境的工程工具，而不是给普通桌面用户随手装着玩的。&lt;/p&gt;
&lt;h2 id=&#34;5-单机版怎么编译和运行&#34;&gt;5. 单机版怎么编译和运行
&lt;/h2&gt;&lt;p&gt;单机版构建流程很直接：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;cmake .
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;make
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;在 &lt;code&gt;Ubuntu&lt;/code&gt; / &lt;code&gt;Debian&lt;/code&gt; 上，官方还提供了一个 &lt;code&gt;debian_install.sh&lt;/code&gt; 脚本，用来安装通用依赖并构建项目。&lt;/p&gt;
&lt;p&gt;编译完成后，可以先看帮助：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;./nvbandwidth -h
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;几个比较常用的参数包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;-l&lt;/code&gt;：列出可用测试&lt;/li&gt;
&lt;li&gt;&lt;code&gt;-t&lt;/code&gt;：按测试名或索引运行指定测试&lt;/li&gt;
&lt;li&gt;&lt;code&gt;-p&lt;/code&gt;：按前缀批量运行测试&lt;/li&gt;
&lt;li&gt;&lt;code&gt;-b&lt;/code&gt;：设置 memcpy buffer 大小，默认 &lt;code&gt;512 MiB&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;-i&lt;/code&gt;：设置测试迭代次数&lt;/li&gt;
&lt;li&gt;&lt;code&gt;-j&lt;/code&gt;：输出 &lt;code&gt;JSON&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;-H&lt;/code&gt;：启用 huge pages 的主机内存分配&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果只是想先跑一轮默认测试，直接执行：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;./nvbandwidth
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;如果只想测一个具体项目，例如某个设备到设备的拷贝：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;./nvbandwidth -t device_to_device_memcpy_read_ce
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h2 id=&#34;6-多节点支持是它比较特别的地方&#34;&gt;6. 多节点支持是它比较特别的地方
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;nvbandwidth&lt;/code&gt; 不只是单机多卡测试工具，它还支持多节点场景。&lt;/p&gt;
&lt;p&gt;从 README 看，多节点版本的构建方式是：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;cmake -DMULTINODE&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;m&#34;&gt;1&lt;/span&gt; .
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;make
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;运行时通常要配合 &lt;code&gt;mpirun&lt;/code&gt;，并按“每张 GPU 一个进程”的方式启动。&lt;br&gt;
官方文档还要求所有参与测试的 rank 处在同一个 multinode clique 内，并建议在 MPI 环境里主要运行带 &lt;code&gt;multinode&lt;/code&gt; 前缀的测试。&lt;/p&gt;
&lt;p&gt;这一点说明它的定位明显偏向高性能计算和大规模 GPU 系统，而不只是工作站自测。&lt;/p&gt;
&lt;p&gt;如果你手上是 &lt;code&gt;NVLink&lt;/code&gt; 多节点部署、&lt;code&gt;GB200&lt;/code&gt;/&lt;code&gt;Grace Hopper&lt;/code&gt; 一类更复杂的系统，&lt;code&gt;nvbandwidth&lt;/code&gt; 的价值会比普通消费级显卡环境大很多。&lt;/p&gt;
&lt;h2 id=&#34;7-新版-v09-更新了什么&#34;&gt;7. 新版 &lt;code&gt;v0.9&lt;/code&gt; 更新了什么
&lt;/h2&gt;&lt;p&gt;截至 &lt;strong&gt;2026 年 4 月 24 日&lt;/strong&gt;，GitHub Releases 页面显示 &lt;code&gt;nvbandwidth&lt;/code&gt; 的最新版本是 &lt;strong&gt;&lt;code&gt;v0.9&lt;/code&gt;&lt;/strong&gt;，发布时间是 &lt;strong&gt;2026 年 4 月 8 日&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;这版比较值得注意的更新主要有：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;为带宽输出增加波动统计信息&lt;/li&gt;
&lt;li&gt;增加 host memory huge pages 支持（Windows 不启用）&lt;/li&gt;
&lt;li&gt;为设备到设备测试增加 pair sampling 选项&lt;/li&gt;
&lt;li&gt;补充 troubleshooting guide&lt;/li&gt;
&lt;li&gt;统一单机与多节点执行路径&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;另外还有两点工程层面的变化也很实用：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;改进 CUDA 架构检测，减少对实际 GPU 访问的依赖&lt;/li&gt;
&lt;li&gt;对 &lt;code&gt;CUDA Toolkit 13.0+&lt;/code&gt; 场景弃用 &lt;code&gt;Volta&lt;/code&gt;（&lt;code&gt;sm_70&lt;/code&gt; / &lt;code&gt;sm_72&lt;/code&gt;）支持&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果你之前只看过旧版资料，现在再回来看，&lt;code&gt;v0.9&lt;/code&gt; 已经不只是“测一下带宽”的初始版本，而是朝着更适合自动化、排障和大规模系统测试的方向继续推进了。&lt;/p&gt;
&lt;h2 id=&#34;8-什么时候适合用它&#34;&gt;8. 什么时候适合用它
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;nvbandwidth&lt;/code&gt; 最适合下面这些情况：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;你想确认多张 &lt;code&gt;NVIDIA GPU&lt;/code&gt; 之间的真实互联带宽&lt;/li&gt;
&lt;li&gt;你怀疑某张卡被插在了受限的 &lt;code&gt;PCIe&lt;/code&gt; 槽位&lt;/li&gt;
&lt;li&gt;你想比较 &lt;code&gt;NVLink&lt;/code&gt; 和非 &lt;code&gt;NVLink&lt;/code&gt; 路径的差异&lt;/li&gt;
&lt;li&gt;你在做多节点 GPU 集群部署，需要验证链路是否正常&lt;/li&gt;
&lt;li&gt;你想把测试结果接进自动化流程，输出 &lt;code&gt;JSON&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;但如果你的目标只是看“训练快不快”或“推理 tokens/s 有多少”，那它不是直接答案。&lt;br&gt;
这时你还需要配合训练框架、推理引擎或具体 workload 的实测一起看。&lt;/p&gt;
&lt;h2 id=&#34;9-可以怎么理解它的价值&#34;&gt;9. 可以怎么理解它的价值
&lt;/h2&gt;&lt;p&gt;很多 GPU 性能问题，本质都不是“算力不够”，而是数据没搬好。&lt;/p&gt;
&lt;p&gt;比如：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;GPU 之间没有走到预期链路&lt;/li&gt;
&lt;li&gt;跨 NUMA 节点访问导致速度下降&lt;/li&gt;
&lt;li&gt;某些卡对之间带宽异常&lt;/li&gt;
&lt;li&gt;跨节点通信配置不完整&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这类问题如果只看 &lt;code&gt;nvidia-smi&lt;/code&gt;、只看模型吞吐，往往不容易定位。&lt;br&gt;
而 &lt;code&gt;nvbandwidth&lt;/code&gt; 这种更底层、矩阵化的测试工具，恰好能把“链路层发生了什么”暴露出来。&lt;/p&gt;
&lt;p&gt;所以你可以把它理解成：&lt;strong&gt;给 NVIDIA GPU 系统做带宽体检的命令行工具。&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id=&#34;相关链接&#34;&gt;相关链接
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;GitHub 项目：&lt;a class=&#34;link&#34; href=&#34;https://github.com/NVIDIA/nvbandwidth&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/NVIDIA/nvbandwidth&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;Releases：&lt;a class=&#34;link&#34; href=&#34;https://github.com/NVIDIA/nvbandwidth/releases&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/NVIDIA/nvbandwidth/releases&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        
    </channel>
</rss>
