NVIDIA on KnightLi的博客

NVIDIA 发布 Qwen3.6-35B-A3B-NVFP4：面向 vLLM 部署的 FP4 量化版本

Sun, 31 May 2026 13:05:55 +0800

NVIDIA 在 Hugging Face 上发布了 nvidia/Qwen3.6-35B-A3B-NVFP4。这是基于阿里 Qwen3.6-35B-A3B 的量化版本，使用 NVIDIA Model Optimizer 处理，目标是让开发者更方便地把模型部署到 vLLM、Agent、RAG、聊天机器人等推理场景中。

模型卡显示，它采用 Apache-2.0 许可证，可以用于商业和非商业场景。需要注意的是，NVIDIA 明确说明该模型并不是 NVIDIA 自研基础模型，而是基于第三方模型 Qwen3.6-35B-A3B 的量化版本。

模型基本信息

根据模型卡，Qwen3.6-35B-A3B-NVFP4 的关键参数如下：

基础模型：Qwen/Qwen3.6-35B-A3B
发布方：NVIDIA
量化工具：NVIDIA Model Optimizer
许可证：Apache-2.0
架构：Transformer
网络结构：MoE with Hybrid Attention
参数规模：总参数 35B，激活参数 3B
输入：文本、图像、视频
输出：文本
上下文长度：最高 262K
推理引擎：vLLM
推荐硬件：NVIDIA Hopper、NVIDIA Blackwell
推荐系统：Linux

Hugging Face 页面侧边栏同时显示了模型文件相关的体积与张量类型信息。阅读时不要把页面侧边栏里的文件统计口径，直接等同于基础模型的架构参数。

NVFP4 量化做了什么

这个版本的重点是 NVFP4 量化。模型卡描述中提到，NVIDIA 对 Qwen3.6-35B-A3B 的权重做了 NVFP4 量化，使其可以配合 vLLM 推理使用。

这次量化不是把所有内容都粗暴压到 4-bit，而是针对 MoE Transformer block 中线性算子的权重和激活做处理。官方给出的结果是：每个参数的位宽从 16 bit 降到 4 bit，磁盘占用和 GPU 显存需求约降低 3.06 倍。

对部署来说，这类预量化版本的意义很直接：不用自己重新跑量化流程，就可以直接拿来测试吞吐、显存占用和长上下文推理表现。

vLLM 部署命令

模型卡给出的基础启动命令如下：

`1`	`vllm serve nvidia/Qwen3.6-35B-A3B-NVFP4 --port 8000 --quantization modelopt --max-model-len 262144 --reasoning-parser qwen3`

这条命令保留了 262K 上下文长度，适合先在高显存环境中验证模型能力。如果显存紧张，可以先降低 --max-model-len，再逐步上调。

针对 NVIDIA DGX Spark，模型卡给了另一组环境变量和 vLLM 参数：

export VLLM_USE_FLASHINFER_MOE_FP4=0
export VLLM_FP8_MOE_BACKEND=flashinfer_cutlass
export FLASHINFER_DISABLE_VERSION_CHECK=1
export CUTE_DSL_ARCH=sm_121a
vllm serve nvidia/Qwen3.6-35B-A3B-NVFP4 --port 8000 --tensor-parallel-size 1 --trust-remote-code --dtype auto --quantization modelopt --kv-cache-dtype fp8 --attention-backend flashinfer --moe-backend marlin --gpu-memory-utilization 0.85 --max-model-len 65536 --max-num-seqs 4 --max-num-batched-tokens 8192 --enable-chunked-prefill --async-scheduling --enable-prefix-caching --speculative-config '{"method":"mtp","num_speculative_tokens":3,"moe_backend":"triton"}'

这组参数更偏向实际部署调优：降低上下文到 65536，启用 FP8 KV cache、chunked prefill、prefix caching，并配置 speculative decoding。它不是所有机器都能直接复制使用，尤其是 CUTE_DSL_ARCH=sm_121a、FlashInfer、MoE backend 等参数，都和具体 GPU、驱动、CUDA、vLLM 版本有关。

评测结果怎么看

模型卡对比了 BF16 基线和 NVFP4 量化版本的结果：

Precision	MMLU Pro	GPQA Diamond	τ²-Bench Telecom	SciCode	AIME 2025	AA-LCR	IFBench	MMMU Pro
BF16	85.6	84.9	95.5	40.8	89.2	62.0	62.3	74.1
NVFP4	85.0	84.8	94.7	40.6	88.8	62.0	62.8	74.5

从表格看，NVFP4 相比 BF16 有小幅波动：部分指标略降，IFBench 和 MMMU Pro 反而略高。更稳妥的理解是：这个量化版本在这些公开评测上尽量接近 BF16，但部署前仍然需要用自己的业务数据测试。

尤其是 Agent、RAG、代码生成、长上下文检索这类场景，公开 benchmark 只能给一个参考。真正上线前，还是要看：

长上下文下是否稳定遵循指令；
RAG 场景中是否会忽略引用材料；
工具调用是否容易产生错误参数；
中文、英文和多模态输入是否符合你的业务要求；
低显存配置下吞吐和延迟是否能接受。

适合哪些场景

这个模型更适合已经准备使用 NVIDIA GPU 和 vLLM 做推理服务的团队。典型场景包括：

本地或私有化聊天机器人；
RAG 知识库问答；
Agent 系统中的规划与工具调用；
长文档阅读与摘要；
需要更低显存占用的大模型推理测试；
想比较 BF16 与 FP4 量化效果的部署团队。

如果只是想在普通消费级显卡上随便跑一跑，要先确认显存、vLLM 版本和量化支持情况。预量化模型可以降低部署门槛，但不等于所有硬件都能无痛运行 262K 上下文。

使用限制

模型卡中也提醒了常见限制：基础模型的训练数据来自互联网，可能包含有害内容和社会偏见，因此模型可能在某些提示下放大偏见、生成不准确内容、遗漏关键信息，或者输出不合适的文本。

如果用于生产环境，建议至少增加几层保护：

针对业务场景做安全评测；
给 RAG 和工具调用增加结果校验；
对高风险输出增加人工复核；
记录推理版本、量化配置和 vLLM 参数；
对重要任务保留回滚到其他模型或 BF16 版本的方案。

小结

nvidia/Qwen3.6-35B-A3B-NVFP4 的价值在于：它把 Qwen3.6-35B-A3B 做成了一个可以直接面向 vLLM 部署的 NVIDIA 量化版本。NVFP4 降低了显存和磁盘压力，官方评测也显示它在多项指标上接近 BF16。

但它仍然是一个需要工程验证的推理模型。真正部署前，不要只看 benchmark 分数，更要结合自己的硬件、上下文长度、RAG 数据、Agent 工具链和安全要求做测试。

参考链接：

黄仁勋 CMU 演讲真正想说什么

Thu, 14 May 2026 20:59:50 +0800

黄仁勋在 CMU 的演讲，表面上是在讲个人经历和创业故事，实际上是在给一批顶尖大学毕业生泼冷水。

他的核心意思不是“大家都会变得更轻松”，而是：AI 时代来了，过去那套稳定、体面、线性的职业路径可能不再成立。年轻人要准备重新吃苦，也要准备接受一些以前看起来不够光鲜的工作。

第一层：我小时候很苦，你们可能也会苦

黄仁勋讲自己小时候的经历：凌晨 4 点起床送报纸，后来去 Denny’s 洗碗。

这种故事当然有励志成分，但它不是普通的忆苦思甜。他面对的是卡耐基梅隆大学的学生，一群本来很容易进入投行、软件公司、科技巨头和高薪岗位的人。

所以这段话真正的指向是：不要默认自己毕业以后就能沿着过去那条舒服路线走下去。

AI 正在重写很多职业的价值。过去靠学历、简历和大厂通道获得稳定上升的模式，可能会被压缩。很多人可能会发现，自己也要经历一段更粗粝、更不体面、更需要从基础工作开始的时期。

第二层：脱下长袍，去做真正需要人的工作

黄仁勋从送报纸讲到去 Denny’s 洗碗，并把洗碗称为一次重要的职业晋升。

这句话很关键。他其实是在说，职业价值不一定来自头衔，而来自你是否进入了真实需求里。

放到今天的 AI 产业里，他想表达的可能是：不要只盯着投行、互联网软件公司、咨询公司、传统白领岗位。未来真正缺人的地方，可能在更基础、更工程化、更辛苦的环节。

比如：

建数据中心；
做电力和制冷；
做机房运维；
做水电和基础设施；
做 GPU 集群部署；
做 AI 工厂的工程交付。

这些工作听起来没有“进大厂写软件”那么体面，但在 AI 时代，它们可能就是新的关键岗位。

所以“去做水管工、电工、机房建设者”不是简单的玩笑，而是在提醒毕业生：AI 不只是模型和代码，它还需要电、土地、机房、网络、散热、运维和供应链。谁能把这些东西真实建出来，谁就站在产业最硬的地方。

第三层：真正困难的事总比想象中更难

黄仁勋还讲到，英伟达每次遇到困难时，团队都会想：这能有多难？

但事实是，每一次都比一开始想象得更难。

这也是创业者和工程师最该听进去的一句话。很多事情在 PPT 上看起来只是一个项目，在会议室里看起来只是一个路线图，在战略叙事里看起来只是一个趋势。但真正做起来，都会遇到供应链、资金、工程、客户、组织、竞争和时间压力。

AI 时代尤其如此。

训练模型很难，部署模型也难；做出 demo 很难，把 demo 变成可靠产品更难；买 GPU 很难，把 GPU 跑满、跑稳、跑出商业回报更难。

所以黄仁勋讲的不是轻松乐观，而是一种工程现实主义：你可以乐观，但不要低估困难。

这场演讲真正的提醒

如果把这场演讲压成一句话，大概是：

AI 时代不会自动奖励聪明人，它会奖励愿意进入真实困难、真实基础设施、真实工程现场的人。

CMU 的学生当然仍然有很多机会。但如果他们只是沿着过去师兄师姐的路径，去找一个稳定大厂岗位，然后在里面等待职业惯性继续运转，那么被时代淘汰也不是不可能。

黄仁勋真正想提醒他们的是：别只想着穿着毕业长袍走进体面办公室。未来的机会，可能在机房里，在电力系统里，在冷却管道旁，在 GPU 集群前，也在那些一开始看起来不够优雅、不够白领的工作里。

AI 改变的不只是软件岗位，也会重新定义什么叫“好工作”。

NVIDIA 发布 Nemotron 3 Nano Omni：面向智能体的开放全模态推理模型

Fri, 01 May 2026 12:07:15 +0800

NVIDIA 发布了 Nemotron 3 Nano Omni，这是一款面向智能体工作流的开放式全模态推理模型。它的重点不是只做文字问答，而是把语言、视觉、音频放进同一个推理框架里，让模型能够处理更接近真实工作流的输入。

从定位看，Nemotron 3 Nano Omni 更像是给 AI Agent 准备的底层模型。它可以理解屏幕、文档、图片、语音和视频中的信息，并把这些信息转成可执行的推理结果。这类能力适合计算机操作、文档智能、视频理解、语音交互、客服、教育和企业流程自动化。

模型规格

Nemotron 3 Nano Omni 采用 MoE 架构。 NVIDIA 给出的核心规格是：

项目	信息
模型名称	`Nemotron 3 Nano Omni`
架构	MoE
参数规模	30B total / 3B active
模态	文本、图像、音频、视频
上下文长度	256K token
许可	Apache 2.0
主要部署方向	AI Agent、多模态推理、企业智能体

这里最值得注意的是 30B-A3B。它代表模型总参数规模约 30B，但每次推理只激活约 3B 参数。这能在能力和推理成本之间做一个折中：模型保留较大的专家容量，同时运行时只使用其中一部分。

不过，MoE 的 active params 不等于显存只按 3B 模型估算。完整部署仍然要考虑专家权重、KV cache、视觉/音频编码模块、上下文长度和推理框架开销。

它解决的不是单一模态问题

传统大语言模型主要处理文字。多模态模型进一步支持图片理解。而 Nemotron 3 Nano Omni 的目标更宽：它强调全模态输入，也就是把文本、图像、音频和视频统一纳入推理。

这对 Agent 很关键。真正的智能体任务往往不是“给一段文字，生成一段文字”，而是：

看屏幕上的按钮、表格和窗口；
读 PDF、截图、图表和网页；
听语音说明或会议录音；
理解视频中的动作、场景和时序；
把这些信息综合成下一步操作。

如果模型只能处理单一模态，Agent 就需要额外拼接多个专用模型。全模态模型的价值在于减少这种拼接成本，让同一个模型直接处理更复杂的环境输入。

面向计算机操作和文档智能

NVIDIA 特别提到，Nemotron 3 Nano Omni 可用于计算机操作相关任务。这类任务通常要求模型理解用户界面：

屏幕上有哪些控件；
当前窗口处于什么状态；
哪个按钮或菜单是下一步目标；
表格、弹窗、输入框中的内容意味着什么。

这也是现在 AI Agent 落地时很难绕开的能力。如果智能体要帮人操作办公软件、浏览器、企业后台或开发工具，它必须能看懂界面，而不是只读 API 文档。

文档智能也是类似逻辑。企业资料经常混合文本、表格、图像、扫描页和图表。全模态模型可以把这些内容放在同一个上下文里理解，适合做合同审阅、报表分析、票据处理、知识库问答和流程自动化。

音频和视频让 Agent 更接近真实场景

音频和视频输入会让 Agent 的应用范围明显扩大。

音频场景包括：

会议录音总结；
客服通话分析；
语音指令理解；
教育和培训内容整理。

视频场景包括：

教学视频理解；
安防和工业巡检；
屏幕录制分析；
操作流程复盘；
多步骤任务中的时序判断。

这些任务如果只靠文字转写，会丢掉很多视觉和时序信息。全模态模型可以直接把声音、画面和文字线索结合起来，给 Agent 更完整的环境感知。

部署与生态

NVIDIA 将 Nemotron 3 Nano Omni 放进开放生态里，模型采用 Apache 2.0 许可。这对开发者和企业很重要，因为它降低了试验、集成和二次开发的许可门槛。

从 NVIDIA 的介绍看，这个模型也和其推理生态绑定紧密。对企业用户来说，真正部署时通常会关注这些问题：

是否能在 NVIDIA GPU 上高效推理；
是否支持长上下文和多模态输入；
是否能接入现有 Agent 框架；
是否能处理企业内部文档、音视频和界面截图；
是否可以在私有环境里部署。

NVIDIA 强调该模型在吞吐方面有明显优势，并称其最高可达到同类开放全模态推理模型的 9 倍。这个数字的实际价值，还要结合具体硬件、上下文长度、输入模态和推理框架来看。但方向很明确：NVIDIA 想把开放多模态模型和自己的推理基础设施一起推向企业 Agent 场景。

适合哪些场景

Nemotron 3 Nano Omni 更适合下面这些任务：

需要同时理解文本、图片、音频和视频的 Agent；
企业内部文档智能和知识库问答；
基于屏幕截图或网页界面的计算机操作；
会议、客服、教学内容的多模态分析；
视频理解、流程复盘和时序判断；
对开放许可和私有化部署有要求的团队。

它不一定适合所有普通用户。如果只是本地聊天、代码补全或简单问答，单模态语言模型可能更轻、更快、更省资源。 Nemotron 3 Nano Omni 的价值主要体现在复杂输入和多模态 Agent 工作流里。

这对 AI Agent 意味着什么

AI Agent 要真正进入工作场景，不能只会写文字。它需要看得懂界面，听得懂语音，读得懂文档，理解视频里的变化，还要把这些信息转成下一步行动。

Nemotron 3 Nano Omni 的意义就在这里。它不是单纯把模型参数做大，而是把 Agent 需要面对的多种输入统一到一个推理模型里。这会让开发者更容易构建面向真实任务的智能体，而不是只围绕聊天窗口做应用。

从这个角度看，NVIDIA 发布这款模型的重点不只是“又一个多模态模型”，而是继续把开放模型、GPU 推理、企业 Agent 和私有部署连接起来。未来真正值得关注的是，它在具体 Agent 框架、企业工作流和本地部署中的实际表现。

参考来源：

NVIDIA 技术博客：NVIDIA Nemotron 3 Nano Omni

2026 年 4 月显卡怎么选：哪些型号不建议碰，哪些更值得看

Mon, 27 Apr 2026 08:51:10 +0800

如果你最近正准备装机，那显卡这一步最好别只看“新不新”。到 2026 年 4 月这个时间点，已经有一些卡明显不太值得碰，也有一些卡虽然不算完美，但至少比同价位其他选项更顺一点。

这篇就不绕概念，直接说型号。

不太建议碰的几类

1. `RTX 5060 Ti 8GB`

这张卡最大的问题不是完全不能用，而是 8GB 在这个时间点已经有点卡在中间了。

如果你只是玩比较轻的网游、1080p 中高画质，它还能交差；但只要往下面这些方向走，短板就会很快冒出来：

新一点的大作
更高材质
2K 分辨率
AI 推理、剪辑、生产力混用

如果你已经在看 RTX 5060 Ti，更稳的思路通常是直接上 16GB 版，而不是为了省一点预算去买 8GB。

简单说：

RTX 5060 Ti 8GB：不太推荐
RTX 5060 Ti 16GB：明显更值得看

2. 高价老卡，尤其是还卖得不便宜的 `RTX 3080 10GB`、`RTX 3070 Ti`

这类卡的问题不是性能完全不行，而是放到现在看，买它们经常会陷入一个很尴尬的位置：

功耗不低
年代不新
显存也不算宽裕
二手来源还经常比较复杂

尤其是 RTX 3080 10GB，如果价格还挂得高，就很容易变成“看起来很猛，实际不够平衡”的选择。

RTX 3070 Ti 也是类似逻辑。它不是完全不能买，但如果价格没有明显拉开，一般不如直接看更新一点、显存更宽松或者功耗表现更均衡的卡。

3. 来源不明的老旗舰，比如 `RTX 3090`、`RTX 3080 Ti`

这两张卡很多人会心动，原因也很直接：

名字很强
纸面性能不差
二手市场存在感很高

但真正要小心的是来源。

如果你买的是：

拆机卡
维修卡
历史不清楚的二手卡

那风险通常比普通消费级新卡高得多。像 RTX 3090 这种卡，虽然 24GB 显存很诱人，但发热、供电、体质、过往使用历史，都会比买一张正常零售的新卡更让人操心。

如果你不是明确知道自己在买什么，也不准备花时间排查卡况，这类老旗舰一般不建议随便碰。

4. 价格不合适的 `RTX 5070`

RTX 5070 本身不属于绝对不能买的卡，但前提是价格得对。

它比较尴尬的点在于：如果它和 RTX 5070 Ti 之间的差价被拉得不够开，那很多人最后都会发现自己买得有点别扭。

因为你多半会面对这种情况：

买 5070：总觉得再加一点就能上 5070 Ti
不加：心里一直知道自己买的是“差一点”的那张

所以 RTX 5070 不是不能看，而是 只有在价格明显合适的时候才值得看。如果价格卡得不上不下，它就很容易变成“理论上合理，实际不香”。

相对更值得看的几张

1. `RTX 5060 Ti 16GB`

如果你本来就在看中端卡，这张通常比 8GB 版更稳。

原因很简单：

同系列里容错更高
后面几年更不容易被显存卡住
游戏和生产力混用时更从容

它未必是这个价位里最炸裂的卡，但至少是那种“买完不太容易立刻后悔”的选择。

2. `RTX 5070 Ti`

如果预算能上去，这张现在通常会比 RTX 5070 更像一个完整一点的答案。

它的优势不在于“任何场景都碾压”，而在于更像一张能把游戏、分辨率和后续使用周期一起兼顾的卡。

适合这几类人：

想上 2K 高画质
希望机器多用几年
不想买完很快就开始纠结升级

如果你本来就在 5070 和 5070 Ti 之间犹豫，而价格差又没有夸张到离谱，很多时候直接上 5070 Ti 会更省心。

3. 正常价格的新卡，通常比高位老卡更值得优先看

如果你不是专门淘卡的老玩家，那一个很朴素但有效的原则是：

优先看正常零售的新卡
少碰来源复杂的老高端卡

放到现在这个节点，更现实的做法往往是：

中端预算：先看 RTX 5060 Ti 16GB
再高一点：重点看 RTX 5070 Ti
RTX 5070 只在价格明显合适时考虑

而不是一上来就去赌那些名字听起来更猛、但历史更复杂的老卡。

如果你就是想要一句话结论

可以直接记这组：

不太推荐：RTX 5060 Ti 8GB
价格不对就不推荐：RTX 5070
谨慎碰：RTX 3080 10GB、RTX 3070 Ti、来源不明的 RTX 3090 / RTX 3080 Ti
更值得看：RTX 5060 Ti 16GB
预算够更省心：RTX 5070 Ti

最后一句

这个时间点选显卡，最怕的不是买贵一点，而是 买了一张表面没问题、实际用起来总觉得差一口气的卡。

如果你想少后悔，RTX 5060 Ti 16GB 和 RTX 5070 Ti 会比很多“看起来也能买”的型号更稳；而 RTX 5060 Ti 8GB、价格不合适的 RTX 5070，以及来源复杂的老高端卡，通常更值得先划掉。

NVIDIA nvbandwidth 是什么：GPU 带宽测试工具怎么用

Fri, 24 Apr 2026 14:41:35 +0800

如果你最近在排查多张 NVIDIA GPU 之间的互联性能，或者想确认 PCIe、NVLink、主机内存到显存之间的实际带宽，NVIDIA/nvbandwidth 是一个很值得知道的小工具。

它不是通用跑分软件，也不是大模型框架里的隐藏命令，而是 NVIDIA 开源出来、专门用于测量 GPU 相关内存拷贝带宽与延迟的工具。相比只看理论带宽，nvbandwidth 更适合回答一个实际问题：这台机器当前这组 GPU 和互联链路，真实能跑到多少带宽。

1. `nvbandwidth` 是做什么的

从官方 README 的定位看，nvbandwidth 是一个用于测量 NVIDIA GPU 带宽的命令行工具。

它重点关注的是各种 memcpy 模式下的传输表现，例如：

GPU -> GPU
CPU -> GPU
GPU -> CPU
多节点 GPU 之间的传输

这类测试对下面几种场景尤其有用：

排查多卡训练或推理时的互联瓶颈
验证 NVLink、PCIe、C2C 等链路的实际表现
对比不同服务器、不同拓扑、不同驱动或 CUDA 版本下的传输差异
做集群部署前的基础硬件验收

简单说，nvbandwidth 看的不是模型吞吐，而是更底层的“数据搬运能力”。

2. 它测的不是一个单点数字

很多人会把“带宽测试”理解成最后只得到一个分数，但 nvbandwidth 实际输出的信息更细。

它会按测试类型给出矩阵结果。比如在 device_to_device_memcpy_write_ce 这类测试里，输出会按 GPU 行列展示每一对设备之间的带宽。这样你不只知道“这台机器大概有多快”，还可以看出：

哪两张卡之间速度特别高
哪些卡之间明显受限于 PCIe
某些 GPU 对之间是否存在异常低带宽
多卡拓扑是否和预期一致

如果你在看八卡服务器、双路平台或者跨节点系统，这类矩阵结果会比单一平均值更有参考意义。

3. `CE` 和 `SM` 两类拷贝怎么理解

官方文档里把测试分成两类：

CE：基于 memcpy API 的 copy engine 拷贝
SM：基于 kernel 的拷贝

这两类结果不一定完全相同，因为它们代表的是不同拷贝路径。
如果你只是想看设备之间常规数据搬运的表现，通常会先关注 CE；如果你要研究更细的执行路径，再继续看 SM 会更合适。

此外，README 也说明了带宽结果默认取多次测试的中位数；新版还补充了统计波动信息，这对判断结果是否稳定会更有帮助。

4. 运行它需要什么环境

nvbandwidth 不是一个“下载即用”的纯二进制小工具，它需要标准的 CUDA 开发环境。

官方 README 当前给出的基本要求包括：

CUDA Toolkit 11.x 或更高版本
支持 C++17 的编译器
CMake 3.20+，更推荐 3.24+
Boost program_options
可用的 CUDA 设备与兼容驱动

如果你要跑多节点版本，要求会更高。当前 README 明确写到：

多节点构建需要 CUDA Toolkit 12.3
驱动需要 550 或更高
需要 MPI
需要配置 nvidia-imex 服务

所以它更像面向 Linux GPU 服务器和集群环境的工程工具，而不是给普通桌面用户随手装着玩的。

5. 单机版怎么编译和运行

单机版构建流程很直接：

1
2

cmake .
make

在 Ubuntu / Debian 上，官方还提供了一个 debian_install.sh 脚本，用来安装通用依赖并构建项目。

编译完成后，可以先看帮助：

`1`	`./nvbandwidth -h`

几个比较常用的参数包括：

-l：列出可用测试
-t：按测试名或索引运行指定测试
-p：按前缀批量运行测试
-b：设置 memcpy buffer 大小，默认 512 MiB
-i：设置测试迭代次数
-j：输出 JSON
-H：启用 huge pages 的主机内存分配

如果只是想先跑一轮默认测试，直接执行：

`1`	`./nvbandwidth`

如果只想测一个具体项目，例如某个设备到设备的拷贝：

`1`	`./nvbandwidth -t device_to_device_memcpy_read_ce`

6. 多节点支持是它比较特别的地方

nvbandwidth 不只是单机多卡测试工具，它还支持多节点场景。

从 README 看，多节点版本的构建方式是：

1
2

cmake -DMULTINODE=1 .
make

运行时通常要配合 mpirun，并按“每张 GPU 一个进程”的方式启动。
官方文档还要求所有参与测试的 rank 处在同一个 multinode clique 内，并建议在 MPI 环境里主要运行带 multinode 前缀的测试。

这一点说明它的定位明显偏向高性能计算和大规模 GPU 系统，而不只是工作站自测。

如果你手上是 NVLink 多节点部署、GB200/Grace Hopper 一类更复杂的系统，nvbandwidth 的价值会比普通消费级显卡环境大很多。

7. 新版 `v0.9` 更新了什么

截至 2026 年 4 月 24 日，GitHub Releases 页面显示 nvbandwidth 的最新版本是 v0.9，发布时间是 2026 年 4 月 8 日。

这版比较值得注意的更新主要有：

为带宽输出增加波动统计信息
增加 host memory huge pages 支持（Windows 不启用）
为设备到设备测试增加 pair sampling 选项
补充 troubleshooting guide
统一单机与多节点执行路径

另外还有两点工程层面的变化也很实用：

改进 CUDA 架构检测，减少对实际 GPU 访问的依赖
对 CUDA Toolkit 13.0+ 场景弃用 Volta（sm_70 / sm_72）支持

如果你之前只看过旧版资料，现在再回来看，v0.9 已经不只是“测一下带宽”的初始版本，而是朝着更适合自动化、排障和大规模系统测试的方向继续推进了。

8. 什么时候适合用它

nvbandwidth 最适合下面这些情况：

你想确认多张 NVIDIA GPU 之间的真实互联带宽
你怀疑某张卡被插在了受限的 PCIe 槽位
你想比较 NVLink 和非 NVLink 路径的差异
你在做多节点 GPU 集群部署，需要验证链路是否正常
你想把测试结果接进自动化流程，输出 JSON

但如果你的目标只是看“训练快不快”或“推理 tokens/s 有多少”，那它不是直接答案。
这时你还需要配合训练框架、推理引擎或具体 workload 的实测一起看。

9. 可以怎么理解它的价值

很多 GPU 性能问题，本质都不是“算力不够”，而是数据没搬好。

比如：

GPU 之间没有走到预期链路
跨 NUMA 节点访问导致速度下降
某些卡对之间带宽异常
跨节点通信配置不完整

这类问题如果只看 nvidia-smi、只看模型吞吐，往往不容易定位。
而 nvbandwidth 这种更底层、矩阵化的测试工具，恰好能把“链路层发生了什么”暴露出来。

所以你可以把它理解成：给 NVIDIA GPU 系统做带宽体检的命令行工具。

NVIDIA on KnightLi的博客

NVIDIA 发布 Qwen3.6-35B-A3B-NVFP4：面向 vLLM 部署的 FP4 量化版本

模型基本信息

NVFP4 量化做了什么

vLLM 部署命令

评测结果怎么看

适合哪些场景

使用限制

小结

黄仁勋 CMU 演讲真正想说什么

第一层：我小时候很苦，你们可能也会苦

第二层：脱下长袍，去做真正需要人的工作

第三层：真正困难的事总比想象中更难

这场演讲真正的提醒

NVIDIA 发布 Nemotron 3 Nano Omni：面向智能体的开放全模态推理模型

模型规格

它解决的不是单一模态问题

面向计算机操作和文档智能

音频和视频让 Agent 更接近真实场景

部署与生态

适合哪些场景

这对 AI Agent 意味着什么

2026 年 4 月显卡怎么选：哪些型号不建议碰，哪些更值得看

不太建议碰的几类

1. RTX 5060 Ti 8GB

2. 高价老卡，尤其是还卖得不便宜的 RTX 3080 10GB、RTX 3070 Ti

3. 来源不明的老旗舰，比如 RTX 3090、RTX 3080 Ti

4. 价格不合适的 RTX 5070

相对更值得看的几张

1. RTX 5060 Ti 16GB

2. RTX 5070 Ti

3. 正常价格的新卡，通常比高位老卡更值得优先看

如果你就是想要一句话结论

最后一句

NVIDIA nvbandwidth 是什么：GPU 带宽测试工具怎么用

1. nvbandwidth 是做什么的

2. 它测的不是一个单点数字

3. CE 和 SM 两类拷贝怎么理解

4. 运行它需要什么环境

5. 单机版怎么编译和运行

6. 多节点支持是它比较特别的地方

7. 新版 v0.9 更新了什么

8. 什么时候适合用它

9. 可以怎么理解它的价值

相关链接

1. `RTX 5060 Ti 8GB`

2. 高价老卡，尤其是还卖得不便宜的 `RTX 3080 10GB`、`RTX 3070 Ti`

3. 来源不明的老旗舰，比如 `RTX 3090`、`RTX 3080 Ti`

4. 价格不合适的 `RTX 5070`

1. `RTX 5060 Ti 16GB`

2. `RTX 5070 Ti`

1. `nvbandwidth` 是做什么的

3. `CE` 和 `SM` 两类拷贝怎么理解

7. 新版 `v0.9` 更新了什么