<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>NVIDIA on KnightLi的博客</title>
        <link>https://knightli.com/zh-tw/tags/nvidia/</link>
        <description>Recent content in NVIDIA on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-tw</language>
        <lastBuildDate>Sun, 31 May 2026 13:05:55 +0800</lastBuildDate><atom:link href="https://knightli.com/zh-tw/tags/nvidia/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>NVIDIA 發布 Qwen3.6-35B-A3B-NVFP4：面向 vLLM 部署的 FP4 量化版本</title>
        <link>https://knightli.com/zh-tw/2026/05/31/nvidia-qwen3-6-35b-a3b-nvfp4/</link>
        <pubDate>Sun, 31 May 2026 13:05:55 +0800</pubDate>
        
        <guid>https://knightli.com/zh-tw/2026/05/31/nvidia-qwen3-6-35b-a3b-nvfp4/</guid>
        <description>&lt;p&gt;NVIDIA 在 Hugging Face 上發布了 &lt;code&gt;nvidia/Qwen3.6-35B-A3B-NVFP4&lt;/code&gt;。這是基於阿里 Qwen3.6-35B-A3B 的量化版本，使用 NVIDIA Model Optimizer 處理，目標是讓開發者更方便地把模型部署到 vLLM、Agent、RAG、聊天機器人等推理場景中。&lt;/p&gt;
&lt;p&gt;模型卡顯示，它採用 Apache-2.0 授權，可以用於商業和非商業場景。需要注意的是，NVIDIA 明確說明該模型並不是 NVIDIA 自研基礎模型，而是基於第三方模型 Qwen3.6-35B-A3B 的量化版本。&lt;/p&gt;
&lt;h2 id=&#34;模型基本資訊&#34;&gt;模型基本資訊
&lt;/h2&gt;&lt;p&gt;根據模型卡，&lt;code&gt;Qwen3.6-35B-A3B-NVFP4&lt;/code&gt; 的關鍵參數如下：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;基礎模型：&lt;code&gt;Qwen/Qwen3.6-35B-A3B&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;發布方：NVIDIA&lt;/li&gt;
&lt;li&gt;量化工具：NVIDIA Model Optimizer&lt;/li&gt;
&lt;li&gt;授權：Apache-2.0&lt;/li&gt;
&lt;li&gt;架構：Transformer&lt;/li&gt;
&lt;li&gt;網路結構：MoE with Hybrid Attention&lt;/li&gt;
&lt;li&gt;參數規模：總參數 35B，啟用參數 3B&lt;/li&gt;
&lt;li&gt;輸入：文字、圖像、影片&lt;/li&gt;
&lt;li&gt;輸出：文字&lt;/li&gt;
&lt;li&gt;上下文長度：最高 262K&lt;/li&gt;
&lt;li&gt;推理引擎：vLLM&lt;/li&gt;
&lt;li&gt;建議硬體：NVIDIA Hopper、NVIDIA Blackwell&lt;/li&gt;
&lt;li&gt;建議系統：Linux&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Hugging Face 頁面側邊欄同時顯示了模型檔案相關的體積與張量類型資訊。閱讀時不要把頁面側邊欄裡的檔案統計口徑，直接等同於基礎模型的架構參數。&lt;/p&gt;
&lt;h2 id=&#34;nvfp4-量化做了什麼&#34;&gt;NVFP4 量化做了什麼
&lt;/h2&gt;&lt;p&gt;這個版本的重點是 NVFP4 量化。模型卡描述中提到，NVIDIA 對 Qwen3.6-35B-A3B 的權重做了 NVFP4 量化，使其可以配合 vLLM 推理使用。&lt;/p&gt;
&lt;p&gt;這次量化不是把所有內容都粗暴壓到 4-bit，而是針對 MoE Transformer block 中線性算子的權重和啟用值做處理。官方給出的結果是：每個參數的位寬從 16 bit 降到 4 bit，磁碟占用和 GPU 顯存需求約降低 3.06 倍。&lt;/p&gt;
&lt;p&gt;對部署來說，這類預量化版本的意義很直接：不用自己重新跑量化流程，就可以直接拿來測試吞吐、顯存占用和長上下文推理表現。&lt;/p&gt;
&lt;h2 id=&#34;vllm-部署命令&#34;&gt;vLLM 部署命令
&lt;/h2&gt;&lt;p&gt;模型卡給出的基礎啟動命令如下：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;vllm serve nvidia/Qwen3.6-35B-A3B-NVFP4 --port &lt;span class=&#34;m&#34;&gt;8000&lt;/span&gt; --quantization modelopt --max-model-len &lt;span class=&#34;m&#34;&gt;262144&lt;/span&gt; --reasoning-parser qwen3
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;這條命令保留了 262K 上下文長度，適合先在高顯存環境中驗證模型能力。如果顯存緊張，可以先降低 &lt;code&gt;--max-model-len&lt;/code&gt;，再逐步上調。&lt;/p&gt;
&lt;p&gt;針對 NVIDIA DGX Spark，模型卡給了另一組環境變數和 vLLM 參數：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;5
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;export&lt;/span&gt; &lt;span class=&#34;nv&#34;&gt;VLLM_USE_FLASHINFER_MOE_FP4&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;m&#34;&gt;0&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;export&lt;/span&gt; &lt;span class=&#34;nv&#34;&gt;VLLM_FP8_MOE_BACKEND&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;flashinfer_cutlass
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;export&lt;/span&gt; &lt;span class=&#34;nv&#34;&gt;FLASHINFER_DISABLE_VERSION_CHECK&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;m&#34;&gt;1&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;export&lt;/span&gt; &lt;span class=&#34;nv&#34;&gt;CUTE_DSL_ARCH&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;sm_121a
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;vllm serve nvidia/Qwen3.6-35B-A3B-NVFP4 --port &lt;span class=&#34;m&#34;&gt;8000&lt;/span&gt; --tensor-parallel-size &lt;span class=&#34;m&#34;&gt;1&lt;/span&gt; --trust-remote-code --dtype auto --quantization modelopt --kv-cache-dtype fp8 --attention-backend flashinfer --moe-backend marlin --gpu-memory-utilization 0.85 --max-model-len &lt;span class=&#34;m&#34;&gt;65536&lt;/span&gt; --max-num-seqs &lt;span class=&#34;m&#34;&gt;4&lt;/span&gt; --max-num-batched-tokens &lt;span class=&#34;m&#34;&gt;8192&lt;/span&gt; --enable-chunked-prefill --async-scheduling --enable-prefix-caching --speculative-config &lt;span class=&#34;s1&#34;&gt;&amp;#39;{&amp;#34;method&amp;#34;:&amp;#34;mtp&amp;#34;,&amp;#34;num_speculative_tokens&amp;#34;:3,&amp;#34;moe_backend&amp;#34;:&amp;#34;triton&amp;#34;}&amp;#39;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;這組參數更偏向實際部署調優：降低上下文到 65536，啟用 FP8 KV cache、chunked prefill、prefix caching，並配置 speculative decoding。它不是所有機器都能直接複製使用，尤其是 &lt;code&gt;CUTE_DSL_ARCH=sm_121a&lt;/code&gt;、FlashInfer、MoE backend 等參數，都和具體 GPU、驅動、CUDA、vLLM 版本有關。&lt;/p&gt;
&lt;h2 id=&#34;評測結果怎麼看&#34;&gt;評測結果怎麼看
&lt;/h2&gt;&lt;p&gt;模型卡對比了 BF16 基線和 NVFP4 量化版本的結果：&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;Precision&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;MMLU Pro&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;GPQA Diamond&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;τ²-Bench Telecom&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;SciCode&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;AIME 2025&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;AA-LCR&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;IFBench&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;MMMU Pro&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;BF16&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;85.6&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;84.9&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;95.5&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;40.8&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;89.2&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;62.0&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;62.3&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;74.1&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;NVFP4&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;85.0&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;84.8&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;94.7&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;40.6&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;88.8&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;62.0&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;62.8&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;74.5&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;從表格看，NVFP4 相比 BF16 有小幅波動：部分指標略降，IFBench 和 MMMU Pro 反而略高。更穩妥的理解是：這個量化版本在這些公開評測上盡量接近 BF16，但部署前仍然需要用自己的業務資料測試。&lt;/p&gt;
&lt;p&gt;尤其是 Agent、RAG、程式碼生成、長上下文檢索這類場景，公開 benchmark 只能給一個參考。真正上線前，還是要看：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;長上下文下是否穩定遵循指令；&lt;/li&gt;
&lt;li&gt;RAG 場景中是否會忽略引用材料；&lt;/li&gt;
&lt;li&gt;工具呼叫是否容易產生錯誤參數；&lt;/li&gt;
&lt;li&gt;中文、英文和多模態輸入是否符合你的業務要求；&lt;/li&gt;
&lt;li&gt;低顯存配置下吞吐和延遲是否能接受。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;適合哪些場景&#34;&gt;適合哪些場景
&lt;/h2&gt;&lt;p&gt;這個模型更適合已經準備使用 NVIDIA GPU 和 vLLM 做推理服務的團隊。典型場景包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;本地或私有化聊天機器人；&lt;/li&gt;
&lt;li&gt;RAG 知識庫問答；&lt;/li&gt;
&lt;li&gt;Agent 系統中的規劃與工具呼叫；&lt;/li&gt;
&lt;li&gt;長文件閱讀與摘要；&lt;/li&gt;
&lt;li&gt;需要更低顯存占用的大模型推理測試；&lt;/li&gt;
&lt;li&gt;想比較 BF16 與 FP4 量化效果的部署團隊。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果只是想在普通消費級顯示卡上隨便跑一跑，要先確認顯存、vLLM 版本和量化支援情況。預量化模型可以降低部署門檻，但不等於所有硬體都能無痛運行 262K 上下文。&lt;/p&gt;
&lt;h2 id=&#34;使用限制&#34;&gt;使用限制
&lt;/h2&gt;&lt;p&gt;模型卡中也提醒了常見限制：基礎模型的訓練資料來自網際網路，可能包含有害內容和社會偏見，因此模型可能在某些提示下放大偏見、生成不準確內容、遺漏關鍵資訊，或者輸出不合適的文字。&lt;/p&gt;
&lt;p&gt;如果用於生產環境，建議至少增加幾層保護：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;針對業務場景做安全評測；&lt;/li&gt;
&lt;li&gt;給 RAG 和工具呼叫增加結果校驗；&lt;/li&gt;
&lt;li&gt;對高風險輸出增加人工複核；&lt;/li&gt;
&lt;li&gt;記錄推理版本、量化配置和 vLLM 參數；&lt;/li&gt;
&lt;li&gt;對重要任務保留回滾到其他模型或 BF16 版本的方案。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;小結&#34;&gt;小結
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;nvidia/Qwen3.6-35B-A3B-NVFP4&lt;/code&gt; 的價值在於：它把 Qwen3.6-35B-A3B 做成了一個可以直接面向 vLLM 部署的 NVIDIA 量化版本。NVFP4 降低了顯存和磁碟壓力，官方評測也顯示它在多項指標上接近 BF16。&lt;/p&gt;
&lt;p&gt;但它仍然是一個需要工程驗證的推理模型。真正部署前，不要只看 benchmark 分數，更要結合自己的硬體、上下文長度、RAG 資料、Agent 工具鏈和安全要求做測試。&lt;/p&gt;
&lt;p&gt;參考連結：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/nvidia/Qwen3.6-35B-A3B-NVFP4&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;nvidia/Qwen3.6-35B-A3B-NVFP4 - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://github.com/NVIDIA/Model-Optimizer&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;NVIDIA Model Optimizer&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/Qwen/Qwen3.6-35B-A3B&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Qwen/Qwen3.6-35B-A3B&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>黃仁勳 CMU 演講真正想說什麼</title>
        <link>https://knightli.com/zh-tw/2026/05/14/jensen-huang-cmu-speech-career-advice/</link>
        <pubDate>Thu, 14 May 2026 20:59:50 +0800</pubDate>
        
        <guid>https://knightli.com/zh-tw/2026/05/14/jensen-huang-cmu-speech-career-advice/</guid>
        <description>&lt;p&gt;黃仁勳在 CMU 的演講，表面上是在講個人經歷和創業故事，實際上是在給一批頂尖大學畢業生潑冷水。&lt;/p&gt;
&lt;p&gt;他的核心意思不是「大家都會變得更輕鬆」，而是：AI 時代來了，過去那套穩定、體面、線性的職業路徑可能不再成立。年輕人要準備重新吃苦，也要準備接受一些以前看起來不夠光鮮的工作。&lt;/p&gt;
&lt;h2 id=&#34;第一層我小時候很苦你們可能也會苦&#34;&gt;第一層：我小時候很苦，你們可能也會苦
&lt;/h2&gt;&lt;p&gt;黃仁勳講自己小時候的經歷：凌晨 4 點起床送報紙，後來去 Denny’s 洗碗。&lt;/p&gt;
&lt;p&gt;這種故事當然有勵志成分，但它不是普通的憶苦思甜。他面對的是卡內基梅隆大學的學生，一群本來很容易進入投行、軟體公司、科技巨頭和高薪崗位的人。&lt;/p&gt;
&lt;p&gt;所以這段話真正的指向是：不要預設自己畢業以後就能沿著過去那條舒服路線走下去。&lt;/p&gt;
&lt;p&gt;AI 正在重寫很多職業的價值。過去靠學歷、履歷和大廠通道獲得穩定上升的模式，可能會被壓縮。很多人可能會發現，自己也要經歷一段更粗糙、更不體面、更需要從基礎工作開始的時期。&lt;/p&gt;
&lt;h2 id=&#34;第二層脫下長袍去做真正需要人的工作&#34;&gt;第二層：脫下長袍，去做真正需要人的工作
&lt;/h2&gt;&lt;p&gt;黃仁勳從送報紙講到去 Denny’s 洗碗，並把洗碗稱為一次重要的職業晉升。&lt;/p&gt;
&lt;p&gt;這句話很關鍵。他其實是在說，職業價值不一定來自頭銜，而來自你是否進入了真實需求裡。&lt;/p&gt;
&lt;p&gt;放到今天的 AI 產業裡，他想表達的可能是：不要只盯著投行、網路軟體公司、顧問公司、傳統白領崗位。未來真正缺人的地方，可能在更基礎、更工程化、更辛苦的環節。&lt;/p&gt;
&lt;p&gt;比如：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;建資料中心；&lt;/li&gt;
&lt;li&gt;做電力和製冷；&lt;/li&gt;
&lt;li&gt;做機房維運；&lt;/li&gt;
&lt;li&gt;做水電和基礎設施；&lt;/li&gt;
&lt;li&gt;做 GPU 叢集部署；&lt;/li&gt;
&lt;li&gt;做 AI 工廠的工程交付。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這些工作聽起來沒有「進大廠寫軟體」那麼體面，但在 AI 時代，它們可能就是新的關鍵崗位。&lt;/p&gt;
&lt;p&gt;所以「去做水管工、電工、機房建設者」不是簡單的玩笑，而是在提醒畢業生：AI 不只是模型和程式碼，它還需要電、土地、機房、網路、散熱、維運和供應鏈。誰能把這些東西真實建出來，誰就站在產業最硬的地方。&lt;/p&gt;
&lt;h2 id=&#34;第三層真正困難的事總比想像中更難&#34;&gt;第三層：真正困難的事總比想像中更難
&lt;/h2&gt;&lt;p&gt;黃仁勳還講到，NVIDIA 每次遇到困難時，團隊都會想：這能有多難？&lt;/p&gt;
&lt;p&gt;但事實是，每一次都比一開始想像得更難。&lt;/p&gt;
&lt;p&gt;這也是創業者和工程師最該聽進去的一句話。很多事情在 PPT 上看起來只是一個項目，在會議室裡看起來只是一個路線圖，在戰略敘事裡看起來只是一個趨勢。但真正做起來，都會遇到供應鏈、資金、工程、客戶、組織、競爭和時間壓力。&lt;/p&gt;
&lt;p&gt;AI 時代尤其如此。&lt;/p&gt;
&lt;p&gt;訓練模型很難，部署模型也難；做出 demo 很難，把 demo 變成可靠產品更難；買 GPU 很難，把 GPU 跑滿、跑穩、跑出商業回報更難。&lt;/p&gt;
&lt;p&gt;所以黃仁勳講的不是輕鬆樂觀，而是一種工程現實主義：你可以樂觀，但不要低估困難。&lt;/p&gt;
&lt;h2 id=&#34;這場演講真正的提醒&#34;&gt;這場演講真正的提醒
&lt;/h2&gt;&lt;p&gt;如果把這場演講壓成一句話，大概是：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;AI 時代不會自動獎勵聰明人，它會獎勵願意進入真實困難、真實基礎設施、真實工程現場的人。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;CMU 的學生當然仍然有很多機會。但如果他們只是沿著過去師兄師姐的路徑，去找一個穩定大廠崗位，然後在裡面等待職業慣性繼續運轉，那麼被時代淘汰也不是不可能。&lt;/p&gt;
&lt;p&gt;黃仁勳真正想提醒他們的是：別只想著穿著畢業長袍走進體面辦公室。未來的機會，可能在機房裡，在電力系統裡，在冷卻管道旁，在 GPU 叢集前，也在那些一開始看起來不夠優雅、不夠白領的工作裡。&lt;/p&gt;
&lt;p&gt;AI 改變的不只是軟體崗位，也會重新定義什麼叫「好工作」。&lt;/p&gt;
</description>
        </item>
        <item>
        <title>NVIDIA 發布 Nemotron 3 Nano Omni：面向智慧體的開放全模態推理模型</title>
        <link>https://knightli.com/zh-tw/2026/05/01/nvidia-nemotron-3-nano-omni-multimodal-agents/</link>
        <pubDate>Fri, 01 May 2026 12:07:15 +0800</pubDate>
        
        <guid>https://knightli.com/zh-tw/2026/05/01/nvidia-nemotron-3-nano-omni-multimodal-agents/</guid>
        <description>&lt;p&gt;NVIDIA 發布了 &lt;code&gt;Nemotron 3 Nano Omni&lt;/code&gt;，這是一款面向智慧體工作流的開放式全模態推理模型。
它的重點不是只做文字問答，而是把語言、視覺、音訊放進同一個推理框架裡，讓模型能夠處理更接近真實工作流的輸入。&lt;/p&gt;
&lt;p&gt;從定位看，&lt;code&gt;Nemotron 3 Nano Omni&lt;/code&gt; 更像是給 AI Agent 準備的底層模型。
它可以理解螢幕、文件、圖片、語音和影片中的資訊，並把這些資訊轉成可執行的推理結果。
這類能力適合電腦操作、文件智慧、影片理解、語音互動、客服、教育和企業流程自動化。&lt;/p&gt;
&lt;h2 id=&#34;模型規格&#34;&gt;模型規格
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;Nemotron 3 Nano Omni&lt;/code&gt; 採用 MoE 架構。
NVIDIA 給出的核心規格是：&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;項目&lt;/th&gt;
          &lt;th&gt;資訊&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;模型名稱&lt;/td&gt;
          &lt;td&gt;&lt;code&gt;Nemotron 3 Nano Omni&lt;/code&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;架構&lt;/td&gt;
          &lt;td&gt;MoE&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;參數規模&lt;/td&gt;
          &lt;td&gt;30B total / 3B active&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;模態&lt;/td&gt;
          &lt;td&gt;文字、圖像、音訊、影片&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;上下文長度&lt;/td&gt;
          &lt;td&gt;256K token&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;授權&lt;/td&gt;
          &lt;td&gt;Apache 2.0&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;主要部署方向&lt;/td&gt;
          &lt;td&gt;AI Agent、多模態推理、企業智慧體&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;這裡最值得注意的是 &lt;code&gt;30B-A3B&lt;/code&gt;。
它代表模型總參數規模約 30B，但每次推理只啟用約 3B 參數。
這能在能力和推理成本之間做一個折衷：模型保留較大的專家容量，同時執行時只使用其中一部分。&lt;/p&gt;
&lt;p&gt;不過，MoE 的 &lt;code&gt;active params&lt;/code&gt; 不等於顯存只按 3B 模型估算。
完整部署仍然要考慮專家權重、KV cache、視覺/音訊編碼模組、上下文長度和推理框架開銷。&lt;/p&gt;
&lt;h2 id=&#34;它解決的不是單一模態問題&#34;&gt;它解決的不是單一模態問題
&lt;/h2&gt;&lt;p&gt;傳統大語言模型主要處理文字。
多模態模型進一步支援圖片理解。
而 &lt;code&gt;Nemotron 3 Nano Omni&lt;/code&gt; 的目標更寬：它強調全模態輸入，也就是把文字、圖像、音訊和影片統一納入推理。&lt;/p&gt;
&lt;p&gt;這對 Agent 很關鍵。
真正的智慧體任務往往不是「給一段文字，生成一段文字」，而是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;看螢幕上的按鈕、表格和視窗；&lt;/li&gt;
&lt;li&gt;讀 PDF、截圖、圖表和網頁；&lt;/li&gt;
&lt;li&gt;聽語音說明或會議錄音；&lt;/li&gt;
&lt;li&gt;理解影片中的動作、場景和時序；&lt;/li&gt;
&lt;li&gt;把這些資訊綜合成下一步操作。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果模型只能處理單一模態，Agent 就需要額外拼接多個專用模型。
全模態模型的價值在於減少這種拼接成本，讓同一個模型直接處理更複雜的環境輸入。&lt;/p&gt;
&lt;h2 id=&#34;面向電腦操作和文件智慧&#34;&gt;面向電腦操作和文件智慧
&lt;/h2&gt;&lt;p&gt;NVIDIA 特別提到，&lt;code&gt;Nemotron 3 Nano Omni&lt;/code&gt; 可用於電腦操作相關任務。
這類任務通常要求模型理解使用者介面：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;螢幕上有哪些控制項；&lt;/li&gt;
&lt;li&gt;目前視窗處於什麼狀態；&lt;/li&gt;
&lt;li&gt;哪個按鈕或選單是下一步目標；&lt;/li&gt;
&lt;li&gt;表格、彈窗、輸入框中的內容意味著什麼。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這也是現在 AI Agent 落地時很難繞開的能力。
如果智慧體要幫人操作辦公軟體、瀏覽器、企業後台或開發工具，它必須能看懂介面，而不是只讀 API 文件。&lt;/p&gt;
&lt;p&gt;文件智慧也是類似邏輯。
企業資料經常混合文字、表格、圖像、掃描頁和圖表。
全模態模型可以把這些內容放在同一個上下文裡理解，適合做合約審閱、報表分析、票據處理、知識庫問答和流程自動化。&lt;/p&gt;
&lt;h2 id=&#34;音訊和影片讓-agent-更接近真實場景&#34;&gt;音訊和影片讓 Agent 更接近真實場景
&lt;/h2&gt;&lt;p&gt;音訊和影片輸入會讓 Agent 的應用範圍明顯擴大。&lt;/p&gt;
&lt;p&gt;音訊場景包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;會議錄音總結；&lt;/li&gt;
&lt;li&gt;客服通話分析；&lt;/li&gt;
&lt;li&gt;語音指令理解；&lt;/li&gt;
&lt;li&gt;教育和培訓內容整理。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;影片場景包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;教學影片理解；&lt;/li&gt;
&lt;li&gt;安防和工業巡檢；&lt;/li&gt;
&lt;li&gt;螢幕錄製分析；&lt;/li&gt;
&lt;li&gt;操作流程複盤；&lt;/li&gt;
&lt;li&gt;多步驟任務中的時序判斷。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這些任務如果只靠文字轉寫，會丟掉很多視覺和時序資訊。
全模態模型可以直接把聲音、畫面和文字線索結合起來，給 Agent 更完整的環境感知。&lt;/p&gt;
&lt;h2 id=&#34;部署與生態&#34;&gt;部署與生態
&lt;/h2&gt;&lt;p&gt;NVIDIA 將 &lt;code&gt;Nemotron 3 Nano Omni&lt;/code&gt; 放進開放生態裡，模型採用 Apache 2.0 授權。
這對開發者和企業很重要，因為它降低了試驗、整合和二次開發的授權門檻。&lt;/p&gt;
&lt;p&gt;從 NVIDIA 的介紹看，這個模型也和其推理生態綁定緊密。
對企業使用者來說，真正部署時通常會關注這些問題：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;是否能在 NVIDIA GPU 上高效推理；&lt;/li&gt;
&lt;li&gt;是否支援長上下文和多模態輸入；&lt;/li&gt;
&lt;li&gt;是否能接入現有 Agent 框架；&lt;/li&gt;
&lt;li&gt;是否能處理企業內部文件、音影片和介面截圖；&lt;/li&gt;
&lt;li&gt;是否可以在私有環境裡部署。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;NVIDIA 強調該模型在吞吐方面有明顯優勢，並稱其最高可達到同類開放全模態推理模型的 9 倍。
這個數字的實際價值，還要結合具體硬體、上下文長度、輸入模態和推理框架來看。
但方向很明確：NVIDIA 想把開放多模態模型和自己的推理基礎設施一起推向企業 Agent 場景。&lt;/p&gt;
&lt;h2 id=&#34;適合哪些場景&#34;&gt;適合哪些場景
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;Nemotron 3 Nano Omni&lt;/code&gt; 更適合下面這些任務：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;需要同時理解文字、圖片、音訊和影片的 Agent；&lt;/li&gt;
&lt;li&gt;企業內部文件智慧和知識庫問答；&lt;/li&gt;
&lt;li&gt;基於螢幕截圖或網頁介面的電腦操作；&lt;/li&gt;
&lt;li&gt;會議、客服、教學內容的多模態分析；&lt;/li&gt;
&lt;li&gt;影片理解、流程複盤和時序判斷；&lt;/li&gt;
&lt;li&gt;對開放授權和私有化部署有要求的團隊。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;它不一定適合所有普通使用者。
如果只是本地聊天、程式碼補全或簡單問答，單模態語言模型可能更輕、更快、更省資源。
&lt;code&gt;Nemotron 3 Nano Omni&lt;/code&gt; 的價值主要體現在複雜輸入和多模態 Agent 工作流裡。&lt;/p&gt;
&lt;h2 id=&#34;這對-ai-agent-意味著什麼&#34;&gt;這對 AI Agent 意味著什麼
&lt;/h2&gt;&lt;p&gt;AI Agent 要真正進入工作場景，不能只會寫文字。
它需要看得懂介面，聽得懂語音，讀得懂文件，理解影片裡的變化，還要把這些資訊轉成下一步行動。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;Nemotron 3 Nano Omni&lt;/code&gt; 的意義就在這裡。
它不是單純把模型參數做大，而是把 Agent 需要面對的多種輸入統一到一個推理模型裡。
這會讓開發者更容易構建面向真實任務的智慧體，而不是只圍繞聊天視窗做應用。&lt;/p&gt;
&lt;p&gt;從這個角度看，NVIDIA 發布這款模型的重點不只是「又一個多模態模型」，而是繼續把開放模型、GPU 推理、企業 Agent 和私有部署連接起來。
未來真正值得關注的是，它在具體 Agent 框架、企業工作流和本地部署中的實際表現。&lt;/p&gt;
&lt;p&gt;參考來源：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://blogs.nvidia.cn/blog/nemotron-3-nano-omni-multimodal-ai-agents/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;NVIDIA 技術部落格：NVIDIA Nemotron 3 Nano Omni&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>2026 年 4 月顯卡怎麼選：哪些型號不建議碰，哪些更值得看</title>
        <link>https://knightli.com/zh-tw/2026/04/27/gpu-buying-guide-april-2026-model-picks/</link>
        <pubDate>Mon, 27 Apr 2026 08:51:10 +0800</pubDate>
        
        <guid>https://knightli.com/zh-tw/2026/04/27/gpu-buying-guide-april-2026-model-picks/</guid>
        <description>&lt;p&gt;如果你最近正準備裝機，那顯卡這一步最好別只看「新不新」。到 2026 年 4 月這個時間點，已經有一些卡明顯不太值得碰，也有一些卡雖然不算完美，但至少比同價位其他選項更順一點。&lt;/p&gt;
&lt;p&gt;這篇就不繞概念，直接說型號。&lt;/p&gt;
&lt;h2 id=&#34;不太建議碰的幾類&#34;&gt;不太建議碰的幾類
&lt;/h2&gt;&lt;h2 id=&#34;1-rtx-5060-ti-8gb&#34;&gt;1. &lt;code&gt;RTX 5060 Ti 8GB&lt;/code&gt;
&lt;/h2&gt;&lt;p&gt;這張卡最大的問題不是完全不能用，而是 &lt;code&gt;8GB&lt;/code&gt; 在這個時間點已經有點卡在中間了。&lt;/p&gt;
&lt;p&gt;如果你只是玩比較輕的網遊、&lt;code&gt;1080p&lt;/code&gt; 中高畫質，它還能交差；但只要往下面這些方向走，短板就會很快冒出來：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;新一點的大作&lt;/li&gt;
&lt;li&gt;更高材質&lt;/li&gt;
&lt;li&gt;&lt;code&gt;2K&lt;/code&gt; 解析度&lt;/li&gt;
&lt;li&gt;AI 推理、剪輯、生產力混用&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果你已經在看 &lt;code&gt;RTX 5060 Ti&lt;/code&gt;，更穩的思路通常是直接上 &lt;code&gt;16GB&lt;/code&gt; 版，而不是為了省一點預算去買 &lt;code&gt;8GB&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;簡單說：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;RTX 5060 Ti 8GB&lt;/code&gt;：不太推薦&lt;/li&gt;
&lt;li&gt;&lt;code&gt;RTX 5060 Ti 16GB&lt;/code&gt;：明顯更值得看&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;2-高價老卡尤其是還賣得不便宜的-rtx-3080-10gbrtx-3070-ti&#34;&gt;2. 高價老卡，尤其是還賣得不便宜的 &lt;code&gt;RTX 3080 10GB&lt;/code&gt;、&lt;code&gt;RTX 3070 Ti&lt;/code&gt;
&lt;/h2&gt;&lt;p&gt;這類卡的問題不是性能完全不行，而是放到現在看，買它們經常會陷入一個很尷尬的位置：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;功耗不低&lt;/li&gt;
&lt;li&gt;年代不新&lt;/li&gt;
&lt;li&gt;顯存也不算寬裕&lt;/li&gt;
&lt;li&gt;二手來源還經常比較複雜&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;尤其是 &lt;code&gt;RTX 3080 10GB&lt;/code&gt;，如果價格還掛得高，就很容易變成「看起來很猛，實際不夠平衡」的選擇。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;RTX 3070 Ti&lt;/code&gt; 也是類似邏輯。它不是完全不能買，但如果價格沒有明顯拉開，一般不如直接看更新一點、顯存更寬鬆或者功耗表現更均衡的卡。&lt;/p&gt;
&lt;h2 id=&#34;3-來源不明的老旗艦比如-rtx-3090rtx-3080-ti&#34;&gt;3. 來源不明的老旗艦，比如 &lt;code&gt;RTX 3090&lt;/code&gt;、&lt;code&gt;RTX 3080 Ti&lt;/code&gt;
&lt;/h2&gt;&lt;p&gt;這兩張卡很多人會心動，原因也很直接：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;名字很強&lt;/li&gt;
&lt;li&gt;紙面性能不差&lt;/li&gt;
&lt;li&gt;二手市場存在感很高&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;但真正要小心的是來源。&lt;/p&gt;
&lt;p&gt;如果你買的是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;拆機卡&lt;/li&gt;
&lt;li&gt;維修卡&lt;/li&gt;
&lt;li&gt;歷史不清楚的二手卡&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;那風險通常比普通消費級新卡高得多。像 &lt;code&gt;RTX 3090&lt;/code&gt; 這種卡，雖然 &lt;code&gt;24GB&lt;/code&gt; 顯存很誘人，但發熱、供電、體質、過往使用歷史，都會比買一張正常零售的新卡更讓人操心。&lt;/p&gt;
&lt;p&gt;如果你不是明確知道自己在買什麼，也不準備花時間排查卡況，這類老旗艦一般不建議隨便碰。&lt;/p&gt;
&lt;h2 id=&#34;4-價格不合適的-rtx-5070&#34;&gt;4. 價格不合適的 &lt;code&gt;RTX 5070&lt;/code&gt;
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;RTX 5070&lt;/code&gt; 本身不屬於絕對不能買的卡，但前提是價格得對。&lt;/p&gt;
&lt;p&gt;它比較尷尬的點在於：如果它和 &lt;code&gt;RTX 5070 Ti&lt;/code&gt; 之間的差價被拉得不夠開，那很多人最後都會發現自己買得有點彆扭。&lt;/p&gt;
&lt;p&gt;因為你多半會面對這種情況：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;買 &lt;code&gt;5070&lt;/code&gt;：總覺得再加一點就能上 &lt;code&gt;5070 Ti&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;不加：心裡一直知道自己買的是「差一點」的那張&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;所以 &lt;code&gt;RTX 5070&lt;/code&gt; 不是不能看，而是 &lt;strong&gt;只有在價格明顯合適的時候才值得看&lt;/strong&gt;。如果價格卡得不上不下，它就很容易變成「理論上合理，實際不香」。&lt;/p&gt;
&lt;h2 id=&#34;相對更值得看的幾張&#34;&gt;相對更值得看的幾張
&lt;/h2&gt;&lt;h2 id=&#34;1-rtx-5060-ti-16gb&#34;&gt;1. &lt;code&gt;RTX 5060 Ti 16GB&lt;/code&gt;
&lt;/h2&gt;&lt;p&gt;如果你本來就在看中階卡，這張通常比 &lt;code&gt;8GB&lt;/code&gt; 版更穩。&lt;/p&gt;
&lt;p&gt;原因很簡單：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;同系列裡容錯更高&lt;/li&gt;
&lt;li&gt;後面幾年更不容易被顯存卡住&lt;/li&gt;
&lt;li&gt;遊戲和生產力混用時更從容&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;它未必是這個價位裡最炸裂的卡，但至少是那種「買完不太容易立刻後悔」的選擇。&lt;/p&gt;
&lt;h2 id=&#34;2-rtx-5070-ti&#34;&gt;2. &lt;code&gt;RTX 5070 Ti&lt;/code&gt;
&lt;/h2&gt;&lt;p&gt;如果預算能上去，這張現在通常會比 &lt;code&gt;RTX 5070&lt;/code&gt; 更像一個完整一點的答案。&lt;/p&gt;
&lt;p&gt;它的優勢不在於「任何場景都碾壓」，而在於更像一張能把遊戲、解析度和後續使用週期一起兼顧的卡。&lt;/p&gt;
&lt;p&gt;適合這幾類人：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;想上 &lt;code&gt;2K&lt;/code&gt; 高畫質&lt;/li&gt;
&lt;li&gt;希望機器多用幾年&lt;/li&gt;
&lt;li&gt;不想買完很快就開始糾結升級&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果你本來就在 &lt;code&gt;5070&lt;/code&gt; 和 &lt;code&gt;5070 Ti&lt;/code&gt; 之間猶豫，而價格差又沒有誇張到離譜，很多時候直接上 &lt;code&gt;5070 Ti&lt;/code&gt; 會更省心。&lt;/p&gt;
&lt;h2 id=&#34;3-正常價格的新卡通常比高位老卡更值得優先看&#34;&gt;3. 正常價格的新卡，通常比高位老卡更值得優先看
&lt;/h2&gt;&lt;p&gt;如果你不是專門淘卡的老玩家，那一個很樸素但有效的原則是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;優先看正常零售的新卡&lt;/li&gt;
&lt;li&gt;少碰來源複雜的老高階卡&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;放到現在這個節點，更現實的做法往往是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;中階預算：先看 &lt;code&gt;RTX 5060 Ti 16GB&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;再高一點：重點看 &lt;code&gt;RTX 5070 Ti&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;RTX 5070&lt;/code&gt; 只在價格明顯合適時考慮&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;而不是一上來就去賭那些名字聽起來更猛、但歷史更複雜的老卡。&lt;/p&gt;
&lt;h2 id=&#34;如果你就是想要一句話結論&#34;&gt;如果你就是想要一句話結論
&lt;/h2&gt;&lt;p&gt;可以直接記這組：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;不太推薦：&lt;code&gt;RTX 5060 Ti 8GB&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;價格不對就不推薦：&lt;code&gt;RTX 5070&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;謹慎碰：&lt;code&gt;RTX 3080 10GB&lt;/code&gt;、&lt;code&gt;RTX 3070 Ti&lt;/code&gt;、來源不明的 &lt;code&gt;RTX 3090&lt;/code&gt; / &lt;code&gt;RTX 3080 Ti&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;更值得看：&lt;code&gt;RTX 5060 Ti 16GB&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;預算夠更省心：&lt;code&gt;RTX 5070 Ti&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;最後一句&#34;&gt;最後一句
&lt;/h2&gt;&lt;p&gt;這個時間點選顯卡，最怕的不是買貴一點，而是 &lt;strong&gt;買了一張表面沒問題、實際用起來總覺得差一口氣的卡&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;如果你想少後悔，&lt;code&gt;RTX 5060 Ti 16GB&lt;/code&gt; 和 &lt;code&gt;RTX 5070 Ti&lt;/code&gt; 會比很多「看起來也能買」的型號更穩；而 &lt;code&gt;RTX 5060 Ti 8GB&lt;/code&gt;、價格不合適的 &lt;code&gt;RTX 5070&lt;/code&gt;，以及來源複雜的老高階卡，通常更值得先劃掉。&lt;/p&gt;
</description>
        </item>
        <item>
        <title>NVIDIA nvbandwidth 是什麼：GPU 頻寬測試工具怎麼用</title>
        <link>https://knightli.com/zh-tw/2026/04/24/nvidia-nvbandwidth-guide/</link>
        <pubDate>Fri, 24 Apr 2026 14:41:35 +0800</pubDate>
        
        <guid>https://knightli.com/zh-tw/2026/04/24/nvidia-nvbandwidth-guide/</guid>
        <description>&lt;p&gt;如果你最近在排查多張 &lt;code&gt;NVIDIA GPU&lt;/code&gt; 之間的互連效能，或是想確認 &lt;code&gt;PCIe&lt;/code&gt;、&lt;code&gt;NVLink&lt;/code&gt;、主機記憶體到顯存之間的實際頻寬，&lt;code&gt;NVIDIA/nvbandwidth&lt;/code&gt; 是一個很值得知道的小工具。&lt;/p&gt;
&lt;p&gt;它不是通用跑分軟體，也不是大模型框架裡的隱藏命令，而是 NVIDIA 開源出來、專門用來測量 GPU 相關記憶體拷貝頻寬與延遲的工具。相比只看理論頻寬，&lt;code&gt;nvbandwidth&lt;/code&gt; 更適合回答一個實際問題：&lt;strong&gt;這台機器目前這組 GPU 和互連鏈路，實際到底能跑出多少頻寬。&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id=&#34;1-nvbandwidth-是做什麼的&#34;&gt;1. &lt;code&gt;nvbandwidth&lt;/code&gt; 是做什麼的
&lt;/h2&gt;&lt;p&gt;從官方 README 的定位來看，&lt;code&gt;nvbandwidth&lt;/code&gt; 是一個用來測量 &lt;code&gt;NVIDIA GPU&lt;/code&gt; 頻寬的命令列工具。&lt;/p&gt;
&lt;p&gt;它重點關注的是各種 &lt;code&gt;memcpy&lt;/code&gt; 模式下的傳輸表現，例如：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;GPU -&amp;gt; GPU&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;CPU -&amp;gt; GPU&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;GPU -&amp;gt; CPU&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;多節點 GPU 之間的傳輸&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這類測試特別適合下面幾種場景：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;排查多卡訓練或推理時的互連瓶頸&lt;/li&gt;
&lt;li&gt;驗證 &lt;code&gt;NVLink&lt;/code&gt;、&lt;code&gt;PCIe&lt;/code&gt;、&lt;code&gt;C2C&lt;/code&gt; 等鏈路的實際表現&lt;/li&gt;
&lt;li&gt;比較不同伺服器、不同拓撲、不同驅動或 CUDA 版本下的傳輸差異&lt;/li&gt;
&lt;li&gt;做叢集部署前的基礎硬體驗收&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;簡單說，&lt;code&gt;nvbandwidth&lt;/code&gt; 看的不是模型吞吐，而是更底層的「資料搬運能力」。&lt;/p&gt;
&lt;h2 id=&#34;2-它測的不是單一分數&#34;&gt;2. 它測的不是單一分數
&lt;/h2&gt;&lt;p&gt;很多人會把「頻寬測試」理解成最後只得到一個分數，但 &lt;code&gt;nvbandwidth&lt;/code&gt; 實際輸出的資訊會更細。&lt;/p&gt;
&lt;p&gt;它會依照測試類型給出矩陣結果。比如在 &lt;code&gt;device_to_device_memcpy_write_ce&lt;/code&gt; 這類測試裡，輸出會按 GPU 的行列展示每一對裝置之間的頻寬。這樣你不只知道「這台機器大概有多快」，還可以看出：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;哪兩張卡之間速度特別高&lt;/li&gt;
&lt;li&gt;哪些卡之間明顯受限於 &lt;code&gt;PCIe&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;某些 GPU 配對之間是否存在異常低頻寬&lt;/li&gt;
&lt;li&gt;多卡拓撲是否符合預期&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果你在看八卡伺服器、雙路平台或跨節點系統，這類矩陣結果通常會比單一平均值更有參考意義。&lt;/p&gt;
&lt;h2 id=&#34;3-ce-和-sm-兩類拷貝怎麼理解&#34;&gt;3. &lt;code&gt;CE&lt;/code&gt; 和 &lt;code&gt;SM&lt;/code&gt; 兩類拷貝怎麼理解
&lt;/h2&gt;&lt;p&gt;官方文件把測試分成兩類：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;CE&lt;/code&gt;：基於 &lt;code&gt;memcpy&lt;/code&gt; API 的 copy engine 拷貝&lt;/li&gt;
&lt;li&gt;&lt;code&gt;SM&lt;/code&gt;：基於 kernel 的拷貝&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這兩類結果不一定會完全一樣，因為它們代表的是不同的拷貝路徑。&lt;br&gt;
如果你只是想看裝置之間的一般資料搬運表現，通常會先關注 &lt;code&gt;CE&lt;/code&gt;；如果你要研究更細的執行路徑，再繼續看 &lt;code&gt;SM&lt;/code&gt; 會更合適。&lt;/p&gt;
&lt;p&gt;另外，README 也說明帶寬結果預設取多次測試的中位數；新版又補上了統計波動資訊，這對判斷結果是否穩定會更有幫助。&lt;/p&gt;
&lt;h2 id=&#34;4-執行它需要什麼環境&#34;&gt;4. 執行它需要什麼環境
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;nvbandwidth&lt;/code&gt; 不是那種「下載就能直接跑」的純二進位小工具，它需要標準的 CUDA 開發環境。&lt;/p&gt;
&lt;p&gt;官方 README 目前列出的基本要求包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;CUDA Toolkit 11.x&lt;/code&gt; 或更高版本&lt;/li&gt;
&lt;li&gt;支援 &lt;code&gt;C++17&lt;/code&gt; 的編譯器&lt;/li&gt;
&lt;li&gt;&lt;code&gt;CMake 3.20+&lt;/code&gt;，更推薦 &lt;code&gt;3.24+&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Boost program_options&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;可用的 &lt;code&gt;CUDA&lt;/code&gt; 裝置與相容驅動&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果你要跑多節點版本，要求會更高。當前 README 明確寫到：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;多節點建置需要 &lt;code&gt;CUDA Toolkit 12.3&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;驅動需要 &lt;code&gt;550&lt;/code&gt; 或更高&lt;/li&gt;
&lt;li&gt;需要 &lt;code&gt;MPI&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;需要設定 &lt;code&gt;nvidia-imex&lt;/code&gt; 服務&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;所以它更像是面向 Linux GPU 伺服器與叢集環境的工程工具，而不是給一般桌面使用者隨手裝來玩的。&lt;/p&gt;
&lt;h2 id=&#34;5-單機版怎麼編譯和執行&#34;&gt;5. 單機版怎麼編譯和執行
&lt;/h2&gt;&lt;p&gt;單機版建置流程很直接：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;cmake .
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;make
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;在 &lt;code&gt;Ubuntu&lt;/code&gt; / &lt;code&gt;Debian&lt;/code&gt; 上，官方還提供了一個 &lt;code&gt;debian_install.sh&lt;/code&gt; 腳本，用來安裝通用依賴並建置專案。&lt;/p&gt;
&lt;p&gt;編譯完成後，可以先看幫助：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;./nvbandwidth -h
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;幾個比較常用的參數包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;-l&lt;/code&gt;：列出可用測試&lt;/li&gt;
&lt;li&gt;&lt;code&gt;-t&lt;/code&gt;：按測試名稱或索引執行指定測試&lt;/li&gt;
&lt;li&gt;&lt;code&gt;-p&lt;/code&gt;：按前綴批次執行測試&lt;/li&gt;
&lt;li&gt;&lt;code&gt;-b&lt;/code&gt;：設定 memcpy buffer 大小，預設 &lt;code&gt;512 MiB&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;-i&lt;/code&gt;：設定測試迭代次數&lt;/li&gt;
&lt;li&gt;&lt;code&gt;-j&lt;/code&gt;：輸出 &lt;code&gt;JSON&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;-H&lt;/code&gt;：啟用 huge pages 的主機記憶體配置&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果只是想先跑一輪預設測試，直接執行：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;./nvbandwidth
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;如果只想測一個具體項目，例如某個裝置到裝置的拷貝：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;./nvbandwidth -t device_to_device_memcpy_read_ce
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h2 id=&#34;6-多節點支援是它比較特別的地方&#34;&gt;6. 多節點支援是它比較特別的地方
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;nvbandwidth&lt;/code&gt; 不只是單機多卡測試工具，它也支援多節點場景。&lt;/p&gt;
&lt;p&gt;從 README 來看，多節點版本的建置方式是：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;cmake -DMULTINODE&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;m&#34;&gt;1&lt;/span&gt; .
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;make
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;執行時通常要搭配 &lt;code&gt;mpirun&lt;/code&gt;，並以「每張 GPU 一個進程」的方式啟動。&lt;br&gt;
官方文件也要求所有參與測試的 rank 都處在同一個 multinode clique 內，並建議在 MPI 環境下主要執行帶 &lt;code&gt;multinode&lt;/code&gt; 前綴的測試。&lt;/p&gt;
&lt;p&gt;這一點說明它的定位明顯更偏向高效能運算與大型 GPU 系統，而不只是工作站自測。&lt;/p&gt;
&lt;p&gt;如果你手上是 &lt;code&gt;NVLink&lt;/code&gt; 多節點部署、&lt;code&gt;GB200&lt;/code&gt; / &lt;code&gt;Grace Hopper&lt;/code&gt; 這類更複雜的平台，&lt;code&gt;nvbandwidth&lt;/code&gt; 的價值會比一般消費級顯卡環境大得多。&lt;/p&gt;
&lt;h2 id=&#34;7-新版-v09-更新了什麼&#34;&gt;7. 新版 &lt;code&gt;v0.9&lt;/code&gt; 更新了什麼
&lt;/h2&gt;&lt;p&gt;截至 &lt;strong&gt;2026 年 4 月 24 日&lt;/strong&gt;，GitHub Releases 頁面顯示 &lt;code&gt;nvbandwidth&lt;/code&gt; 的最新版本是 &lt;strong&gt;&lt;code&gt;v0.9&lt;/code&gt;&lt;/strong&gt;，發布時間是 &lt;strong&gt;2026 年 4 月 8 日&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;這一版比較值得注意的更新主要有：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;為頻寬輸出增加波動統計資訊&lt;/li&gt;
&lt;li&gt;增加 host memory huge pages 支援（&lt;code&gt;Windows&lt;/code&gt; 不啟用）&lt;/li&gt;
&lt;li&gt;為裝置到裝置測試增加 pair sampling 選項&lt;/li&gt;
&lt;li&gt;補充 troubleshooting guide&lt;/li&gt;
&lt;li&gt;統一單機與多節點執行路徑&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;另外還有兩點工程層面的變化也很實用：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;改進 CUDA 架構檢測，降低對實際 GPU 存取的依賴&lt;/li&gt;
&lt;li&gt;在 &lt;code&gt;CUDA Toolkit 13.0+&lt;/code&gt; 場景下棄用 &lt;code&gt;Volta&lt;/code&gt;（&lt;code&gt;sm_70&lt;/code&gt; / &lt;code&gt;sm_72&lt;/code&gt;）支援&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果你之前只看過舊版資料，現在再回來看，&lt;code&gt;v0.9&lt;/code&gt; 已經不只是「測一下頻寬」的初始版本，而是朝著更適合自動化、排障和大型系統測試的方向繼續推進了。&lt;/p&gt;
&lt;h2 id=&#34;8-什麼時候適合用它&#34;&gt;8. 什麼時候適合用它
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;nvbandwidth&lt;/code&gt; 最適合下面這些情況：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;你想確認多張 &lt;code&gt;NVIDIA GPU&lt;/code&gt; 之間的真實互連頻寬&lt;/li&gt;
&lt;li&gt;你懷疑某張卡被插在了受限的 &lt;code&gt;PCIe&lt;/code&gt; 插槽&lt;/li&gt;
&lt;li&gt;你想比較 &lt;code&gt;NVLink&lt;/code&gt; 和非 &lt;code&gt;NVLink&lt;/code&gt; 路徑的差異&lt;/li&gt;
&lt;li&gt;你在做多節點 GPU 叢集部署，需要驗證鏈路是否正常&lt;/li&gt;
&lt;li&gt;你想把測試結果接進自動化流程，輸出 &lt;code&gt;JSON&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;但如果你的目標只是看「訓練快不快」或「推理 tokens/s 有多少」，那它不是直接答案。&lt;br&gt;
這時你還需要搭配訓練框架、推理引擎或具體 workload 的實測一起看。&lt;/p&gt;
&lt;h2 id=&#34;9-可以怎麼理解它的價值&#34;&gt;9. 可以怎麼理解它的價值
&lt;/h2&gt;&lt;p&gt;很多 GPU 效能問題，本質上都不是「算力不夠」，而是資料沒有搬好。&lt;/p&gt;
&lt;p&gt;例如：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;GPU 之間沒有走到預期的鏈路&lt;/li&gt;
&lt;li&gt;跨 NUMA 節點存取導致速度下降&lt;/li&gt;
&lt;li&gt;某些卡配對之間頻寬異常&lt;/li&gt;
&lt;li&gt;跨節點通訊配置不完整&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這類問題如果只看 &lt;code&gt;nvidia-smi&lt;/code&gt;、只看模型吞吐，往往不容易定位。&lt;br&gt;
而 &lt;code&gt;nvbandwidth&lt;/code&gt; 這種更底層、矩陣化的測試工具，剛好能把「鏈路層實際發生了什麼」暴露出來。&lt;/p&gt;
&lt;p&gt;所以你可以把它理解成：&lt;strong&gt;給 NVIDIA GPU 系統做頻寬體檢的命令列工具。&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id=&#34;相關連結&#34;&gt;相關連結
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;GitHub 專案：&lt;a class=&#34;link&#34; href=&#34;https://github.com/NVIDIA/nvbandwidth&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/NVIDIA/nvbandwidth&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;Releases：&lt;a class=&#34;link&#34; href=&#34;https://github.com/NVIDIA/nvbandwidth/releases&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/NVIDIA/nvbandwidth/releases&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        
    </channel>
</rss>
