NVIDIA on KnightLi的博客

NVIDIA 發布 Qwen3.6-35B-A3B-NVFP4：面向 vLLM 部署的 FP4 量化版本

Sun, 31 May 2026 13:05:55 +0800

NVIDIA 在 Hugging Face 上發布了 nvidia/Qwen3.6-35B-A3B-NVFP4。這是基於阿里 Qwen3.6-35B-A3B 的量化版本，使用 NVIDIA Model Optimizer 處理，目標是讓開發者更方便地把模型部署到 vLLM、Agent、RAG、聊天機器人等推理場景中。

模型卡顯示，它採用 Apache-2.0 授權，可以用於商業和非商業場景。需要注意的是，NVIDIA 明確說明該模型並不是 NVIDIA 自研基礎模型，而是基於第三方模型 Qwen3.6-35B-A3B 的量化版本。

模型基本資訊

根據模型卡，Qwen3.6-35B-A3B-NVFP4 的關鍵參數如下：

基礎模型：Qwen/Qwen3.6-35B-A3B
發布方：NVIDIA
量化工具：NVIDIA Model Optimizer
授權：Apache-2.0
架構：Transformer
網路結構：MoE with Hybrid Attention
參數規模：總參數 35B，啟用參數 3B
輸入：文字、圖像、影片
輸出：文字
上下文長度：最高 262K
推理引擎：vLLM
建議硬體：NVIDIA Hopper、NVIDIA Blackwell
建議系統：Linux

Hugging Face 頁面側邊欄同時顯示了模型檔案相關的體積與張量類型資訊。閱讀時不要把頁面側邊欄裡的檔案統計口徑，直接等同於基礎模型的架構參數。

NVFP4 量化做了什麼

這個版本的重點是 NVFP4 量化。模型卡描述中提到，NVIDIA 對 Qwen3.6-35B-A3B 的權重做了 NVFP4 量化，使其可以配合 vLLM 推理使用。

這次量化不是把所有內容都粗暴壓到 4-bit，而是針對 MoE Transformer block 中線性算子的權重和啟用值做處理。官方給出的結果是：每個參數的位寬從 16 bit 降到 4 bit，磁碟占用和 GPU 顯存需求約降低 3.06 倍。

對部署來說，這類預量化版本的意義很直接：不用自己重新跑量化流程，就可以直接拿來測試吞吐、顯存占用和長上下文推理表現。

vLLM 部署命令

模型卡給出的基礎啟動命令如下：

`1`	`vllm serve nvidia/Qwen3.6-35B-A3B-NVFP4 --port 8000 --quantization modelopt --max-model-len 262144 --reasoning-parser qwen3`

這條命令保留了 262K 上下文長度，適合先在高顯存環境中驗證模型能力。如果顯存緊張，可以先降低 --max-model-len，再逐步上調。

針對 NVIDIA DGX Spark，模型卡給了另一組環境變數和 vLLM 參數：

export VLLM_USE_FLASHINFER_MOE_FP4=0
export VLLM_FP8_MOE_BACKEND=flashinfer_cutlass
export FLASHINFER_DISABLE_VERSION_CHECK=1
export CUTE_DSL_ARCH=sm_121a
vllm serve nvidia/Qwen3.6-35B-A3B-NVFP4 --port 8000 --tensor-parallel-size 1 --trust-remote-code --dtype auto --quantization modelopt --kv-cache-dtype fp8 --attention-backend flashinfer --moe-backend marlin --gpu-memory-utilization 0.85 --max-model-len 65536 --max-num-seqs 4 --max-num-batched-tokens 8192 --enable-chunked-prefill --async-scheduling --enable-prefix-caching --speculative-config '{"method":"mtp","num_speculative_tokens":3,"moe_backend":"triton"}'

這組參數更偏向實際部署調優：降低上下文到 65536，啟用 FP8 KV cache、chunked prefill、prefix caching，並配置 speculative decoding。它不是所有機器都能直接複製使用，尤其是 CUTE_DSL_ARCH=sm_121a、FlashInfer、MoE backend 等參數，都和具體 GPU、驅動、CUDA、vLLM 版本有關。

評測結果怎麼看

模型卡對比了 BF16 基線和 NVFP4 量化版本的結果：

Precision	MMLU Pro	GPQA Diamond	τ²-Bench Telecom	SciCode	AIME 2025	AA-LCR	IFBench	MMMU Pro
BF16	85.6	84.9	95.5	40.8	89.2	62.0	62.3	74.1
NVFP4	85.0	84.8	94.7	40.6	88.8	62.0	62.8	74.5

從表格看，NVFP4 相比 BF16 有小幅波動：部分指標略降，IFBench 和 MMMU Pro 反而略高。更穩妥的理解是：這個量化版本在這些公開評測上盡量接近 BF16，但部署前仍然需要用自己的業務資料測試。

尤其是 Agent、RAG、程式碼生成、長上下文檢索這類場景，公開 benchmark 只能給一個參考。真正上線前，還是要看：

長上下文下是否穩定遵循指令；
RAG 場景中是否會忽略引用材料；
工具呼叫是否容易產生錯誤參數；
中文、英文和多模態輸入是否符合你的業務要求；
低顯存配置下吞吐和延遲是否能接受。

適合哪些場景

這個模型更適合已經準備使用 NVIDIA GPU 和 vLLM 做推理服務的團隊。典型場景包括：

本地或私有化聊天機器人；
RAG 知識庫問答；
Agent 系統中的規劃與工具呼叫；
長文件閱讀與摘要；
需要更低顯存占用的大模型推理測試；
想比較 BF16 與 FP4 量化效果的部署團隊。

如果只是想在普通消費級顯示卡上隨便跑一跑，要先確認顯存、vLLM 版本和量化支援情況。預量化模型可以降低部署門檻，但不等於所有硬體都能無痛運行 262K 上下文。

使用限制

模型卡中也提醒了常見限制：基礎模型的訓練資料來自網際網路，可能包含有害內容和社會偏見，因此模型可能在某些提示下放大偏見、生成不準確內容、遺漏關鍵資訊，或者輸出不合適的文字。

如果用於生產環境，建議至少增加幾層保護：

針對業務場景做安全評測；
給 RAG 和工具呼叫增加結果校驗；
對高風險輸出增加人工複核；
記錄推理版本、量化配置和 vLLM 參數；
對重要任務保留回滾到其他模型或 BF16 版本的方案。

小結

nvidia/Qwen3.6-35B-A3B-NVFP4 的價值在於：它把 Qwen3.6-35B-A3B 做成了一個可以直接面向 vLLM 部署的 NVIDIA 量化版本。NVFP4 降低了顯存和磁碟壓力，官方評測也顯示它在多項指標上接近 BF16。

但它仍然是一個需要工程驗證的推理模型。真正部署前，不要只看 benchmark 分數，更要結合自己的硬體、上下文長度、RAG 資料、Agent 工具鏈和安全要求做測試。

參考連結：

黃仁勳 CMU 演講真正想說什麼

Thu, 14 May 2026 20:59:50 +0800

黃仁勳在 CMU 的演講，表面上是在講個人經歷和創業故事，實際上是在給一批頂尖大學畢業生潑冷水。

他的核心意思不是「大家都會變得更輕鬆」，而是：AI 時代來了，過去那套穩定、體面、線性的職業路徑可能不再成立。年輕人要準備重新吃苦，也要準備接受一些以前看起來不夠光鮮的工作。

第一層：我小時候很苦，你們可能也會苦

黃仁勳講自己小時候的經歷：凌晨 4 點起床送報紙，後來去 Denny’s 洗碗。

這種故事當然有勵志成分，但它不是普通的憶苦思甜。他面對的是卡內基梅隆大學的學生，一群本來很容易進入投行、軟體公司、科技巨頭和高薪崗位的人。

所以這段話真正的指向是：不要預設自己畢業以後就能沿著過去那條舒服路線走下去。

AI 正在重寫很多職業的價值。過去靠學歷、履歷和大廠通道獲得穩定上升的模式，可能會被壓縮。很多人可能會發現，自己也要經歷一段更粗糙、更不體面、更需要從基礎工作開始的時期。

第二層：脫下長袍，去做真正需要人的工作

黃仁勳從送報紙講到去 Denny’s 洗碗，並把洗碗稱為一次重要的職業晉升。

這句話很關鍵。他其實是在說，職業價值不一定來自頭銜，而來自你是否進入了真實需求裡。

放到今天的 AI 產業裡，他想表達的可能是：不要只盯著投行、網路軟體公司、顧問公司、傳統白領崗位。未來真正缺人的地方，可能在更基礎、更工程化、更辛苦的環節。

比如：

建資料中心；
做電力和製冷；
做機房維運；
做水電和基礎設施；
做 GPU 叢集部署；
做 AI 工廠的工程交付。

這些工作聽起來沒有「進大廠寫軟體」那麼體面，但在 AI 時代，它們可能就是新的關鍵崗位。

所以「去做水管工、電工、機房建設者」不是簡單的玩笑，而是在提醒畢業生：AI 不只是模型和程式碼，它還需要電、土地、機房、網路、散熱、維運和供應鏈。誰能把這些東西真實建出來，誰就站在產業最硬的地方。

第三層：真正困難的事總比想像中更難

黃仁勳還講到，NVIDIA 每次遇到困難時，團隊都會想：這能有多難？

但事實是，每一次都比一開始想像得更難。

這也是創業者和工程師最該聽進去的一句話。很多事情在 PPT 上看起來只是一個項目，在會議室裡看起來只是一個路線圖，在戰略敘事裡看起來只是一個趨勢。但真正做起來，都會遇到供應鏈、資金、工程、客戶、組織、競爭和時間壓力。

AI 時代尤其如此。

訓練模型很難，部署模型也難；做出 demo 很難，把 demo 變成可靠產品更難；買 GPU 很難，把 GPU 跑滿、跑穩、跑出商業回報更難。

所以黃仁勳講的不是輕鬆樂觀，而是一種工程現實主義：你可以樂觀，但不要低估困難。

這場演講真正的提醒

如果把這場演講壓成一句話，大概是：

AI 時代不會自動獎勵聰明人，它會獎勵願意進入真實困難、真實基礎設施、真實工程現場的人。

CMU 的學生當然仍然有很多機會。但如果他們只是沿著過去師兄師姐的路徑，去找一個穩定大廠崗位，然後在裡面等待職業慣性繼續運轉，那麼被時代淘汰也不是不可能。

黃仁勳真正想提醒他們的是：別只想著穿著畢業長袍走進體面辦公室。未來的機會，可能在機房裡，在電力系統裡，在冷卻管道旁，在 GPU 叢集前，也在那些一開始看起來不夠優雅、不夠白領的工作裡。

AI 改變的不只是軟體崗位，也會重新定義什麼叫「好工作」。

NVIDIA 發布 Nemotron 3 Nano Omni：面向智慧體的開放全模態推理模型

Fri, 01 May 2026 12:07:15 +0800

NVIDIA 發布了 Nemotron 3 Nano Omni，這是一款面向智慧體工作流的開放式全模態推理模型。它的重點不是只做文字問答，而是把語言、視覺、音訊放進同一個推理框架裡，讓模型能夠處理更接近真實工作流的輸入。

從定位看，Nemotron 3 Nano Omni 更像是給 AI Agent 準備的底層模型。它可以理解螢幕、文件、圖片、語音和影片中的資訊，並把這些資訊轉成可執行的推理結果。這類能力適合電腦操作、文件智慧、影片理解、語音互動、客服、教育和企業流程自動化。

模型規格

Nemotron 3 Nano Omni 採用 MoE 架構。 NVIDIA 給出的核心規格是：

項目	資訊
模型名稱	`Nemotron 3 Nano Omni`
架構	MoE
參數規模	30B total / 3B active
模態	文字、圖像、音訊、影片
上下文長度	256K token
授權	Apache 2.0
主要部署方向	AI Agent、多模態推理、企業智慧體

這裡最值得注意的是 30B-A3B。它代表模型總參數規模約 30B，但每次推理只啟用約 3B 參數。這能在能力和推理成本之間做一個折衷：模型保留較大的專家容量，同時執行時只使用其中一部分。

不過，MoE 的 active params 不等於顯存只按 3B 模型估算。完整部署仍然要考慮專家權重、KV cache、視覺/音訊編碼模組、上下文長度和推理框架開銷。

它解決的不是單一模態問題

傳統大語言模型主要處理文字。多模態模型進一步支援圖片理解。而 Nemotron 3 Nano Omni 的目標更寬：它強調全模態輸入，也就是把文字、圖像、音訊和影片統一納入推理。

這對 Agent 很關鍵。真正的智慧體任務往往不是「給一段文字，生成一段文字」，而是：

看螢幕上的按鈕、表格和視窗；
讀 PDF、截圖、圖表和網頁；
聽語音說明或會議錄音；
理解影片中的動作、場景和時序；
把這些資訊綜合成下一步操作。

如果模型只能處理單一模態，Agent 就需要額外拼接多個專用模型。全模態模型的價值在於減少這種拼接成本，讓同一個模型直接處理更複雜的環境輸入。

面向電腦操作和文件智慧

NVIDIA 特別提到，Nemotron 3 Nano Omni 可用於電腦操作相關任務。這類任務通常要求模型理解使用者介面：

螢幕上有哪些控制項；
目前視窗處於什麼狀態；
哪個按鈕或選單是下一步目標；
表格、彈窗、輸入框中的內容意味著什麼。

這也是現在 AI Agent 落地時很難繞開的能力。如果智慧體要幫人操作辦公軟體、瀏覽器、企業後台或開發工具，它必須能看懂介面，而不是只讀 API 文件。

文件智慧也是類似邏輯。企業資料經常混合文字、表格、圖像、掃描頁和圖表。全模態模型可以把這些內容放在同一個上下文裡理解，適合做合約審閱、報表分析、票據處理、知識庫問答和流程自動化。

音訊和影片讓 Agent 更接近真實場景

音訊和影片輸入會讓 Agent 的應用範圍明顯擴大。

音訊場景包括：

會議錄音總結；
客服通話分析；
語音指令理解；
教育和培訓內容整理。

影片場景包括：

教學影片理解；
安防和工業巡檢；
螢幕錄製分析；
操作流程複盤；
多步驟任務中的時序判斷。

這些任務如果只靠文字轉寫，會丟掉很多視覺和時序資訊。全模態模型可以直接把聲音、畫面和文字線索結合起來，給 Agent 更完整的環境感知。

部署與生態

NVIDIA 將 Nemotron 3 Nano Omni 放進開放生態裡，模型採用 Apache 2.0 授權。這對開發者和企業很重要，因為它降低了試驗、整合和二次開發的授權門檻。

從 NVIDIA 的介紹看，這個模型也和其推理生態綁定緊密。對企業使用者來說，真正部署時通常會關注這些問題：

是否能在 NVIDIA GPU 上高效推理；
是否支援長上下文和多模態輸入；
是否能接入現有 Agent 框架；
是否能處理企業內部文件、音影片和介面截圖；
是否可以在私有環境裡部署。

NVIDIA 強調該模型在吞吐方面有明顯優勢，並稱其最高可達到同類開放全模態推理模型的 9 倍。這個數字的實際價值，還要結合具體硬體、上下文長度、輸入模態和推理框架來看。但方向很明確：NVIDIA 想把開放多模態模型和自己的推理基礎設施一起推向企業 Agent 場景。

適合哪些場景

Nemotron 3 Nano Omni 更適合下面這些任務：

需要同時理解文字、圖片、音訊和影片的 Agent；
企業內部文件智慧和知識庫問答；
基於螢幕截圖或網頁介面的電腦操作；
會議、客服、教學內容的多模態分析；
影片理解、流程複盤和時序判斷；
對開放授權和私有化部署有要求的團隊。

它不一定適合所有普通使用者。如果只是本地聊天、程式碼補全或簡單問答，單模態語言模型可能更輕、更快、更省資源。 Nemotron 3 Nano Omni 的價值主要體現在複雜輸入和多模態 Agent 工作流裡。

這對 AI Agent 意味著什麼

AI Agent 要真正進入工作場景，不能只會寫文字。它需要看得懂介面，聽得懂語音，讀得懂文件，理解影片裡的變化，還要把這些資訊轉成下一步行動。

Nemotron 3 Nano Omni 的意義就在這裡。它不是單純把模型參數做大，而是把 Agent 需要面對的多種輸入統一到一個推理模型裡。這會讓開發者更容易構建面向真實任務的智慧體，而不是只圍繞聊天視窗做應用。

從這個角度看，NVIDIA 發布這款模型的重點不只是「又一個多模態模型」，而是繼續把開放模型、GPU 推理、企業 Agent 和私有部署連接起來。未來真正值得關注的是，它在具體 Agent 框架、企業工作流和本地部署中的實際表現。

參考來源：

NVIDIA 技術部落格：NVIDIA Nemotron 3 Nano Omni

2026 年 4 月顯卡怎麼選：哪些型號不建議碰，哪些更值得看

Mon, 27 Apr 2026 08:51:10 +0800

如果你最近正準備裝機，那顯卡這一步最好別只看「新不新」。到 2026 年 4 月這個時間點，已經有一些卡明顯不太值得碰，也有一些卡雖然不算完美，但至少比同價位其他選項更順一點。

這篇就不繞概念，直接說型號。

不太建議碰的幾類

1. `RTX 5060 Ti 8GB`

這張卡最大的問題不是完全不能用，而是 8GB 在這個時間點已經有點卡在中間了。

如果你只是玩比較輕的網遊、1080p 中高畫質，它還能交差；但只要往下面這些方向走，短板就會很快冒出來：

新一點的大作
更高材質
2K 解析度
AI 推理、剪輯、生產力混用

如果你已經在看 RTX 5060 Ti，更穩的思路通常是直接上 16GB 版，而不是為了省一點預算去買 8GB。

簡單說：

RTX 5060 Ti 8GB：不太推薦
RTX 5060 Ti 16GB：明顯更值得看

2. 高價老卡，尤其是還賣得不便宜的 `RTX 3080 10GB`、`RTX 3070 Ti`

這類卡的問題不是性能完全不行，而是放到現在看，買它們經常會陷入一個很尷尬的位置：

功耗不低
年代不新
顯存也不算寬裕
二手來源還經常比較複雜

尤其是 RTX 3080 10GB，如果價格還掛得高，就很容易變成「看起來很猛，實際不夠平衡」的選擇。

RTX 3070 Ti 也是類似邏輯。它不是完全不能買，但如果價格沒有明顯拉開，一般不如直接看更新一點、顯存更寬鬆或者功耗表現更均衡的卡。

3. 來源不明的老旗艦，比如 `RTX 3090`、`RTX 3080 Ti`

這兩張卡很多人會心動，原因也很直接：

名字很強
紙面性能不差
二手市場存在感很高

但真正要小心的是來源。

如果你買的是：

拆機卡
維修卡
歷史不清楚的二手卡

那風險通常比普通消費級新卡高得多。像 RTX 3090 這種卡，雖然 24GB 顯存很誘人，但發熱、供電、體質、過往使用歷史，都會比買一張正常零售的新卡更讓人操心。

如果你不是明確知道自己在買什麼，也不準備花時間排查卡況，這類老旗艦一般不建議隨便碰。

4. 價格不合適的 `RTX 5070`

RTX 5070 本身不屬於絕對不能買的卡，但前提是價格得對。

它比較尷尬的點在於：如果它和 RTX 5070 Ti 之間的差價被拉得不夠開，那很多人最後都會發現自己買得有點彆扭。

因為你多半會面對這種情況：

買 5070：總覺得再加一點就能上 5070 Ti
不加：心裡一直知道自己買的是「差一點」的那張

所以 RTX 5070 不是不能看，而是 只有在價格明顯合適的時候才值得看。如果價格卡得不上不下，它就很容易變成「理論上合理，實際不香」。

相對更值得看的幾張

1. `RTX 5060 Ti 16GB`

如果你本來就在看中階卡，這張通常比 8GB 版更穩。

原因很簡單：

同系列裡容錯更高
後面幾年更不容易被顯存卡住
遊戲和生產力混用時更從容

它未必是這個價位裡最炸裂的卡，但至少是那種「買完不太容易立刻後悔」的選擇。

2. `RTX 5070 Ti`

如果預算能上去，這張現在通常會比 RTX 5070 更像一個完整一點的答案。

它的優勢不在於「任何場景都碾壓」，而在於更像一張能把遊戲、解析度和後續使用週期一起兼顧的卡。

適合這幾類人：

想上 2K 高畫質
希望機器多用幾年
不想買完很快就開始糾結升級

如果你本來就在 5070 和 5070 Ti 之間猶豫，而價格差又沒有誇張到離譜，很多時候直接上 5070 Ti 會更省心。

3. 正常價格的新卡，通常比高位老卡更值得優先看

如果你不是專門淘卡的老玩家，那一個很樸素但有效的原則是：

優先看正常零售的新卡
少碰來源複雜的老高階卡

放到現在這個節點，更現實的做法往往是：

中階預算：先看 RTX 5060 Ti 16GB
再高一點：重點看 RTX 5070 Ti
RTX 5070 只在價格明顯合適時考慮

而不是一上來就去賭那些名字聽起來更猛、但歷史更複雜的老卡。

如果你就是想要一句話結論

可以直接記這組：

不太推薦：RTX 5060 Ti 8GB
價格不對就不推薦：RTX 5070
謹慎碰：RTX 3080 10GB、RTX 3070 Ti、來源不明的 RTX 3090 / RTX 3080 Ti
更值得看：RTX 5060 Ti 16GB
預算夠更省心：RTX 5070 Ti

最後一句

這個時間點選顯卡，最怕的不是買貴一點，而是 買了一張表面沒問題、實際用起來總覺得差一口氣的卡。

如果你想少後悔，RTX 5060 Ti 16GB 和 RTX 5070 Ti 會比很多「看起來也能買」的型號更穩；而 RTX 5060 Ti 8GB、價格不合適的 RTX 5070，以及來源複雜的老高階卡，通常更值得先劃掉。

NVIDIA nvbandwidth 是什麼：GPU 頻寬測試工具怎麼用

Fri, 24 Apr 2026 14:41:35 +0800

如果你最近在排查多張 NVIDIA GPU 之間的互連效能，或是想確認 PCIe、NVLink、主機記憶體到顯存之間的實際頻寬，NVIDIA/nvbandwidth 是一個很值得知道的小工具。

它不是通用跑分軟體，也不是大模型框架裡的隱藏命令，而是 NVIDIA 開源出來、專門用來測量 GPU 相關記憶體拷貝頻寬與延遲的工具。相比只看理論頻寬，nvbandwidth 更適合回答一個實際問題：這台機器目前這組 GPU 和互連鏈路，實際到底能跑出多少頻寬。

1. `nvbandwidth` 是做什麼的

從官方 README 的定位來看，nvbandwidth 是一個用來測量 NVIDIA GPU 頻寬的命令列工具。

它重點關注的是各種 memcpy 模式下的傳輸表現，例如：

GPU -> GPU
CPU -> GPU
GPU -> CPU
多節點 GPU 之間的傳輸

這類測試特別適合下面幾種場景：

排查多卡訓練或推理時的互連瓶頸
驗證 NVLink、PCIe、C2C 等鏈路的實際表現
比較不同伺服器、不同拓撲、不同驅動或 CUDA 版本下的傳輸差異
做叢集部署前的基礎硬體驗收

簡單說，nvbandwidth 看的不是模型吞吐，而是更底層的「資料搬運能力」。

2. 它測的不是單一分數

很多人會把「頻寬測試」理解成最後只得到一個分數，但 nvbandwidth 實際輸出的資訊會更細。

它會依照測試類型給出矩陣結果。比如在 device_to_device_memcpy_write_ce 這類測試裡，輸出會按 GPU 的行列展示每一對裝置之間的頻寬。這樣你不只知道「這台機器大概有多快」，還可以看出：

哪兩張卡之間速度特別高
哪些卡之間明顯受限於 PCIe
某些 GPU 配對之間是否存在異常低頻寬
多卡拓撲是否符合預期

如果你在看八卡伺服器、雙路平台或跨節點系統，這類矩陣結果通常會比單一平均值更有參考意義。

3. `CE` 和 `SM` 兩類拷貝怎麼理解

官方文件把測試分成兩類：

CE：基於 memcpy API 的 copy engine 拷貝
SM：基於 kernel 的拷貝

這兩類結果不一定會完全一樣，因為它們代表的是不同的拷貝路徑。
如果你只是想看裝置之間的一般資料搬運表現，通常會先關注 CE；如果你要研究更細的執行路徑，再繼續看 SM 會更合適。

另外，README 也說明帶寬結果預設取多次測試的中位數；新版又補上了統計波動資訊，這對判斷結果是否穩定會更有幫助。

4. 執行它需要什麼環境

nvbandwidth 不是那種「下載就能直接跑」的純二進位小工具，它需要標準的 CUDA 開發環境。

官方 README 目前列出的基本要求包括：

CUDA Toolkit 11.x 或更高版本
支援 C++17 的編譯器
CMake 3.20+，更推薦 3.24+
Boost program_options
可用的 CUDA 裝置與相容驅動

如果你要跑多節點版本，要求會更高。當前 README 明確寫到：

多節點建置需要 CUDA Toolkit 12.3
驅動需要 550 或更高
需要 MPI
需要設定 nvidia-imex 服務

所以它更像是面向 Linux GPU 伺服器與叢集環境的工程工具，而不是給一般桌面使用者隨手裝來玩的。

5. 單機版怎麼編譯和執行

單機版建置流程很直接：

1
2

cmake .
make

在 Ubuntu / Debian 上，官方還提供了一個 debian_install.sh 腳本，用來安裝通用依賴並建置專案。

編譯完成後，可以先看幫助：

`1`	`./nvbandwidth -h`

幾個比較常用的參數包括：

-l：列出可用測試
-t：按測試名稱或索引執行指定測試
-p：按前綴批次執行測試
-b：設定 memcpy buffer 大小，預設 512 MiB
-i：設定測試迭代次數
-j：輸出 JSON
-H：啟用 huge pages 的主機記憶體配置

如果只是想先跑一輪預設測試，直接執行：

`1`	`./nvbandwidth`

如果只想測一個具體項目，例如某個裝置到裝置的拷貝：

`1`	`./nvbandwidth -t device_to_device_memcpy_read_ce`

6. 多節點支援是它比較特別的地方

nvbandwidth 不只是單機多卡測試工具，它也支援多節點場景。

從 README 來看，多節點版本的建置方式是：

1
2

cmake -DMULTINODE=1 .
make

執行時通常要搭配 mpirun，並以「每張 GPU 一個進程」的方式啟動。
官方文件也要求所有參與測試的 rank 都處在同一個 multinode clique 內，並建議在 MPI 環境下主要執行帶 multinode 前綴的測試。

這一點說明它的定位明顯更偏向高效能運算與大型 GPU 系統，而不只是工作站自測。

如果你手上是 NVLink 多節點部署、GB200 / Grace Hopper 這類更複雜的平台，nvbandwidth 的價值會比一般消費級顯卡環境大得多。

7. 新版 `v0.9` 更新了什麼

截至 2026 年 4 月 24 日，GitHub Releases 頁面顯示 nvbandwidth 的最新版本是 v0.9，發布時間是 2026 年 4 月 8 日。

這一版比較值得注意的更新主要有：

為頻寬輸出增加波動統計資訊
增加 host memory huge pages 支援（Windows 不啟用）
為裝置到裝置測試增加 pair sampling 選項
補充 troubleshooting guide
統一單機與多節點執行路徑

另外還有兩點工程層面的變化也很實用：

改進 CUDA 架構檢測，降低對實際 GPU 存取的依賴
在 CUDA Toolkit 13.0+ 場景下棄用 Volta（sm_70 / sm_72）支援

如果你之前只看過舊版資料，現在再回來看，v0.9 已經不只是「測一下頻寬」的初始版本，而是朝著更適合自動化、排障和大型系統測試的方向繼續推進了。

8. 什麼時候適合用它

nvbandwidth 最適合下面這些情況：

你想確認多張 NVIDIA GPU 之間的真實互連頻寬
你懷疑某張卡被插在了受限的 PCIe 插槽
你想比較 NVLink 和非 NVLink 路徑的差異
你在做多節點 GPU 叢集部署，需要驗證鏈路是否正常
你想把測試結果接進自動化流程，輸出 JSON

但如果你的目標只是看「訓練快不快」或「推理 tokens/s 有多少」，那它不是直接答案。
這時你還需要搭配訓練框架、推理引擎或具體 workload 的實測一起看。

9. 可以怎麼理解它的價值

很多 GPU 效能問題，本質上都不是「算力不夠」，而是資料沒有搬好。

例如：

GPU 之間沒有走到預期的鏈路
跨 NUMA 節點存取導致速度下降
某些卡配對之間頻寬異常
跨節點通訊配置不完整

這類問題如果只看 nvidia-smi、只看模型吞吐，往往不容易定位。
而 nvbandwidth 這種更底層、矩陣化的測試工具，剛好能把「鏈路層實際發生了什麼」暴露出來。

所以你可以把它理解成：給 NVIDIA GPU 系統做頻寬體檢的命令列工具。

NVIDIA on KnightLi的博客

NVIDIA 發布 Qwen3.6-35B-A3B-NVFP4：面向 vLLM 部署的 FP4 量化版本

模型基本資訊

NVFP4 量化做了什麼

vLLM 部署命令

評測結果怎麼看

適合哪些場景

使用限制

小結

黃仁勳 CMU 演講真正想說什麼

第一層：我小時候很苦，你們可能也會苦

第二層：脫下長袍，去做真正需要人的工作

第三層：真正困難的事總比想像中更難

這場演講真正的提醒

NVIDIA 發布 Nemotron 3 Nano Omni：面向智慧體的開放全模態推理模型

模型規格

它解決的不是單一模態問題

面向電腦操作和文件智慧

音訊和影片讓 Agent 更接近真實場景

部署與生態

適合哪些場景

這對 AI Agent 意味著什麼

2026 年 4 月顯卡怎麼選：哪些型號不建議碰，哪些更值得看

不太建議碰的幾類

1. RTX 5060 Ti 8GB

2. 高價老卡，尤其是還賣得不便宜的 RTX 3080 10GB、RTX 3070 Ti

3. 來源不明的老旗艦，比如 RTX 3090、RTX 3080 Ti

4. 價格不合適的 RTX 5070

相對更值得看的幾張

1. RTX 5060 Ti 16GB

2. RTX 5070 Ti

3. 正常價格的新卡，通常比高位老卡更值得優先看

如果你就是想要一句話結論

最後一句

NVIDIA nvbandwidth 是什麼：GPU 頻寬測試工具怎麼用

1. nvbandwidth 是做什麼的

2. 它測的不是單一分數

3. CE 和 SM 兩類拷貝怎麼理解

4. 執行它需要什麼環境

5. 單機版怎麼編譯和執行

6. 多節點支援是它比較特別的地方

7. 新版 v0.9 更新了什麼

8. 什麼時候適合用它

9. 可以怎麼理解它的價值

相關連結

1. `RTX 5060 Ti 8GB`

2. 高價老卡，尤其是還賣得不便宜的 `RTX 3080 10GB`、`RTX 3070 Ti`

3. 來源不明的老旗艦，比如 `RTX 3090`、`RTX 3080 Ti`

4. 價格不合適的 `RTX 5070`

1. `RTX 5060 Ti 16GB`

2. `RTX 5070 Ti`

1. `nvbandwidth` 是做什麼的

3. `CE` 和 `SM` 兩類拷貝怎麼理解

7. 新版 `v0.9` 更新了什麼