<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>DeepSeek V4 on KnightLi的博客</title>
        <link>https://knightli.com/tags/deepseek-v4/</link>
        <description>Recent content in DeepSeek V4 on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <lastBuildDate>Mon, 18 May 2026 18:38:26 +0800</lastBuildDate><atom:link href="https://knightli.com/tags/deepseek-v4/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>DeepSeek-V4 KV Cache 机制解析：为什么 1M 上下文更省显存</title>
        <link>https://knightli.com/2026/05/18/deepseek-v4-kv-cache-compressed-attention/</link>
        <pubDate>Mon, 18 May 2026 18:38:26 +0800</pubDate>
        
        <guid>https://knightli.com/2026/05/18/deepseek-v4-kv-cache-compressed-attention/</guid>
        <description>&lt;p&gt;长上下文模型真正贵的地方，往往不是“能不能塞进 100 万 Token”，而是推理时 KV Cache 要占多少显存。&lt;/p&gt;
&lt;p&gt;在 Transformer 解码过程中，每生成一个新 Token，模型都要保留历史 Token 对应的 Key 和 Value。上下文越长，KV Cache 越大；KV Cache 越大，显存、内存带宽、首字延迟和吞吐都会被拖慢。&lt;/p&gt;
&lt;p&gt;DeepSeek-V4 的特别之处，是它没有只在注意力头数量上省缓存，而是把压缩进一步推进到序列长度维度。按照 Hugging Face 对 DeepSeek-V4 技术报告的解读，在 1M Token 场景下，DeepSeek-V4-Pro 的 KV Cache 约为 DeepSeek-V3.2 的 10%；如果和常见的 bf16 GQA 架构相比，约为其 2% 左右。&lt;/p&gt;
&lt;p&gt;这就是 DeepSeek-V4 缓存机制最值得看的地方：它不是简单把 KV 存得更小，而是减少需要长期保存和检索的 KV 条目数量。&lt;/p&gt;
&lt;h2 id=&#34;先看几代-kv-cache-优化路线&#34;&gt;先看几代 KV Cache 优化路线
&lt;/h2&gt;&lt;p&gt;KV Cache 优化大致可以分成几条路线。&lt;/p&gt;
&lt;p&gt;第一类是传统 MHA，也就是 Multi-Head Attention。每个 Query 头通常都有对应的 Key/Value 头。它结构直接，但长上下文下缓存随序列长度线性增长，显存压力最大。&lt;/p&gt;
&lt;p&gt;第二类是 GQA，也就是 Grouped Query Attention。多个 Query 头共享较少的 Key/Value 头。LLaMA、Mistral、Qwen 等很多现代模型都采用类似思路。它能显著减少 KV 头数量，是当前主流长上下文模型的常见节省手段。&lt;/p&gt;
&lt;p&gt;第三类是 MLA，也就是 Multi-head Latent Attention。DeepSeek-V2、DeepSeek-V3 使用这一路线，把 Key/Value 压缩成低秩潜在表示，从注意力头维度进一步降低缓存占用。&lt;/p&gt;
&lt;p&gt;第四类就是 DeepSeek-V4 引入的混合压缩注意力。它把重点放到序列长度维度：不是只减少每个 Token 要存多少 KV，而是把多个历史 Token 压缩成更少的 KV 条目，再用稀疏或稠密方式检索。&lt;/p&gt;
&lt;p&gt;可以粗略理解为：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;MHA：每个头都认真记。&lt;/li&gt;
&lt;li&gt;GQA：多个 Query 头共享一部分记忆。&lt;/li&gt;
&lt;li&gt;MLA：把每个 Token 的 KV 表示压成潜在向量。&lt;/li&gt;
&lt;li&gt;DeepSeek-V4：把很多历史 Token 聚合成更少的压缩记忆块。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;deepseek-v4-的关键变化从头维度压缩到序列维度压缩&#34;&gt;DeepSeek-V4 的关键变化：从头维度压缩到序列维度压缩
&lt;/h2&gt;&lt;p&gt;GQA 和 MLA 主要是在“每个 Token 存多少 KV”上做优化。这个方向很有效，但当上下文长度来到 1M Token 时，问题会变得更极端：即使每个 Token 的缓存已经很小，Token 数量本身仍然太多。&lt;/p&gt;
&lt;p&gt;DeepSeek-V4 选择把旧上下文压缩成块。也就是说，模型不一定要为每个很久以前的 Token 都保留完整 KV，而是让多个 Token 形成压缩条目。&lt;/p&gt;
&lt;p&gt;这有点像读一本很长的书：刚读过的几页你会记得细节，前面几章则更多以摘要、主题和关键线索的形式保存。DeepSeek-V4 的注意力机制也有类似分工：近处保留细节，远处用压缩表示。&lt;/p&gt;
&lt;h2 id=&#34;csa4-倍压缩加稀疏检索&#34;&gt;CSA：4 倍压缩加稀疏检索
&lt;/h2&gt;&lt;p&gt;CSA 全称是 Compressed Sparse Attention，可以理解为较细粒度的长程压缩机制。&lt;/p&gt;
&lt;p&gt;在 CSA 中，模型会把序列中的若干相邻 Token 压缩成更少的 KV 条目。Hugging Face Transformers 文档里给出的默认压缩率是 &lt;code&gt;m=4&lt;/code&gt;，也就是大致每 4 个 Token 形成一个压缩条目。&lt;/p&gt;
&lt;p&gt;但它不是简单平均。CSA 使用带学习能力的压缩池，并结合重叠窗口，让模型在压缩时保留更有用的信息。压缩之后，查询并不会对所有历史压缩块都做完整注意力，而是先通过 Lightning Indexer 打分，挑出最相关的 top-k 压缩块，再进入核心注意力计算。&lt;/p&gt;
&lt;p&gt;这个结构有两层收益：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;历史 KV 条目数量先变少。&lt;/li&gt;
&lt;li&gt;每次查询只看最相关的一部分压缩块。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;所以 CSA 适合处理远距离但仍需要细节检索的上下文，比如代码库、长文档、工具调用历史里的关键信息。&lt;/p&gt;
&lt;h2 id=&#34;hca128-倍压缩加稠密注意力&#34;&gt;HCA：128 倍压缩加稠密注意力
&lt;/h2&gt;&lt;p&gt;HCA 全称是 Heavily Compressed Attention，压缩更激进。&lt;/p&gt;
&lt;p&gt;Transformers 文档里给出的默认压缩率是 &lt;code&gt;m&#39;=128&lt;/code&gt;。也就是说，HCA 会把更长的一段上下文压成一个压缩条目。压缩后的序列已经很短，因此它不需要像 CSA 那样再做稀疏 top-k 检索，而是让 Query 对所有压缩条目做稠密注意力。&lt;/p&gt;
&lt;p&gt;HCA 的作用更像全局摘要。它不追求保留每个细节，而是用极低成本覆盖很长的历史范围，让模型对全局背景、长程主题和远处信息保持感知。&lt;/p&gt;
&lt;p&gt;如果把 CSA 比作“可检索的压缩笔记”，HCA 更像“全局目录和摘要”。&lt;/p&gt;
&lt;h2 id=&#34;滑动窗口最近上下文仍保留细节&#34;&gt;滑动窗口：最近上下文仍保留细节
&lt;/h2&gt;&lt;p&gt;DeepSeek-V4 并不是把所有上下文都压缩掉。&lt;/p&gt;
&lt;p&gt;在 CSA 和 HCA 之外，它还保留了滑动窗口分支，用来处理最近的一段未压缩上下文。Transformers 文档里提到，DeepSeek-V4 的 attention block 会把长程压缩分支与滑动窗口 K/V 拼接在一起。&lt;/p&gt;
&lt;p&gt;这个设计很重要。生成下一个 Token 时，最近几十到几百个 Token 往往最关键：变量名、函数签名、正在写的句子、刚返回的工具结果、最近用户要求。它们如果被过度压缩，输出质量会明显下降。&lt;/p&gt;
&lt;p&gt;所以 DeepSeek-V4 的思路不是“全部压缩”，而是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;近处：保留未压缩细节。&lt;/li&gt;
&lt;li&gt;中远处：用 CSA 做可检索压缩。&lt;/li&gt;
&lt;li&gt;更远处：用 HCA 做重度全局压缩。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;混合层栈不同层做不同注意力&#34;&gt;混合层栈：不同层做不同注意力
&lt;/h2&gt;&lt;p&gt;DeepSeek-V4 不是在所有层里使用同一种注意力。&lt;/p&gt;
&lt;p&gt;Hugging Face 的 DeepSeek-V4 文章提到，V4-Pro 的 61 层结构中，前两层使用 HCA，之后的层在 CSA 和 HCA 之间交替，末尾的 MTP block 使用滑动窗口。Transformers 文档也说明，V4-Pro 默认是 2 层 HCA bootstrap 加交替 CSA/HCA。&lt;/p&gt;
&lt;p&gt;这说明 DeepSeek-V4 把注意力机制当成分层系统来设计。不同层承担不同信息流角色：有的层更偏全局压缩，有的层更偏稀疏检索，有的部分保留局部窗口。&lt;/p&gt;
&lt;p&gt;相比所有层统一使用一种注意力，这种混合结构更复杂，但也更适合 1M Token 这种极长上下文。&lt;/p&gt;
&lt;h2 id=&#34;fp8-和-fp4-进一步降低缓存成本&#34;&gt;FP8 和 FP4 进一步降低缓存成本
&lt;/h2&gt;&lt;p&gt;DeepSeek-V4 的缓存节省不只来自压缩率。&lt;/p&gt;
&lt;p&gt;Hugging Face 的文章提到，V4 的大部分 KV 条目使用 FP8 存储，RoPE 相关维度保留 BF16，而 CSA 里的 Lightning Indexer 使用 FP4。压缩比例、低精度存储、稀疏检索叠加在一起，才形成了非常低的 KV Cache 占用。&lt;/p&gt;
&lt;p&gt;这也提醒我们：不要只看“上下文长度 1M”这个宣传数字。真正决定可部署性的，是长上下文下的显存占用、带宽压力、推理延迟和工程实现。&lt;/p&gt;
&lt;h2 id=&#34;和其他模型的差异&#34;&gt;和其他模型的差异
&lt;/h2&gt;&lt;p&gt;与传统 MHA 相比，DeepSeek-V4 不再为长历史里每个 Token 保留完整注意力记忆，缓存压力下降非常明显。&lt;/p&gt;
&lt;p&gt;与 GQA 相比，DeepSeek-V4 不只是减少 KV head 数量，还减少长历史的 KV 条目数量。GQA 仍然要随序列长度线性积累缓存，而 V4 会把远处上下文压成块。&lt;/p&gt;
&lt;p&gt;与 DeepSeek-V3 的 MLA 相比，V4 的重点从“每个 Token 的表示更紧凑”进一步扩展到“历史 Token 数量也被压缩”。MLA 已经大幅降低单 Token KV 占用，但面对百万级上下文时，序列长度本身仍是压力来源。&lt;/p&gt;
&lt;p&gt;与普通稀疏注意力相比，DeepSeek-V4 的 CSA 是先压缩再稀疏检索，索引器面对的是更短的压缩序列；HCA 则通过 128 倍压缩让全量稠密注意力也变得便宜。&lt;/p&gt;
&lt;h2 id=&#34;对-agent-和长任务有什么意义&#34;&gt;对 Agent 和长任务有什么意义
&lt;/h2&gt;&lt;p&gt;Agent 工作流特别吃长上下文：它会读文件、调用工具、接收工具返回、生成计划、修正计划、继续调用工具。上下文越长，KV Cache 越容易成为瓶颈。&lt;/p&gt;
&lt;p&gt;DeepSeek-V4 这种缓存机制的潜在价值在于：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;更容易承载长代码库、长文档、多轮工具调用历史。&lt;/li&gt;
&lt;li&gt;首字延迟和吞吐更不容易被 KV Cache 拖垮。&lt;/li&gt;
&lt;li&gt;同等硬件上可以跑更长上下文或更多并发请求。&lt;/li&gt;
&lt;li&gt;对百万 Token 场景，部署成本更接近实际可用，而不是只停留在论文指标。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;不过也要注意，压缩注意力不是免费午餐。把历史 Token 压缩成块，必然涉及信息取舍。模型需要在“省显存”和“保留可检索细节”之间做平衡。真正效果还要看任务类型：代码定位、法律文档、长篇问答、Agent 工具链，对细节召回的要求并不一样。&lt;/p&gt;
&lt;h2 id=&#34;不要把-2-理解成所有成本都降到-2&#34;&gt;不要把 2% 理解成所有成本都降到 2%
&lt;/h2&gt;&lt;p&gt;“KV Cache 约为 GQA 的 2%”很容易被误读。&lt;/p&gt;
&lt;p&gt;它主要指 KV Cache 显存规模，不等于总推理成本只剩 2%，也不等于所有场景速度都会提升 50 倍。推理还包括模型权重读取、MoE 路由、前馈网络、注意力计算、调度开销、通信开销等。&lt;/p&gt;
&lt;p&gt;Hugging Face 的文章里也把两个数字分开讲：在 1M Token 场景，DeepSeek-V4-Pro 相对 DeepSeek-V3.2 的单 Token 推理 FLOPs 是 27%，KV Cache 是 10%。这说明缓存和计算是两个不同维度。&lt;/p&gt;
&lt;p&gt;所以更稳妥的说法是：DeepSeek-V4 让超长上下文的 KV Cache 压力显著降低，从而改善百万 Token 场景的部署可行性；但具体吞吐和延迟仍取决于实现、硬件、批处理、量化和推理框架。&lt;/p&gt;
&lt;h2 id=&#34;小结&#34;&gt;小结
&lt;/h2&gt;&lt;p&gt;DeepSeek-V4 的缓存机制和其他大模型最大的不同，是它把 KV Cache 优化从注意力头维度推进到了序列维度。&lt;/p&gt;
&lt;p&gt;GQA 是少存一些 KV 头，MLA 是把每个 Token 的 KV 表示压得更紧，DeepSeek-V4 则进一步把远处 Token 聚合成压缩块，并通过 CSA、HCA、滑动窗口和低精度存储组合起来，让百万 Token 上下文不再被 KV Cache 轻易卡死。&lt;/p&gt;
&lt;p&gt;这不是单一技巧，而是一整套长上下文推理架构：近处保细节，远处做压缩，需要细节时稀疏检索，需要全局时重度摘要。&lt;/p&gt;
&lt;p&gt;对开发者和 Agent 应用来说，它的意义很直接：长上下文不只是“能输入更多”，还要“跑得起、跑得稳、成本能接受”。DeepSeek-V4 真正改变的，正是这一点。&lt;/p&gt;
&lt;h2 id=&#34;参考资料&#34;&gt;参考资料
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/blog/deepseekv4&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Hugging Face：DeepSeek-V4: a million-token context that agents can actually use&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/docs/transformers/model_doc/deepseek_v4&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Hugging Face Transformers：DeepSeek-V4 model documentation&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://arxiv.org/abs/2412.19437&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;DeepSeek-V3 Technical Report&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>DeepSeek V4 Flash 做 Godot 游戏 Demo：几毛钱能跑通到什么程度？</title>
        <link>https://knightli.com/2026/05/06/deepseek-v4-flash-godot-game-demo/</link>
        <pubDate>Wed, 06 May 2026 09:22:18 +0800</pubDate>
        
        <guid>https://knightli.com/2026/05/06/deepseek-v4-flash-godot-game-demo/</guid>
        <description>&lt;p&gt;&lt;code&gt;DeepSeek V4 Flash&lt;/code&gt; 用来开发 Godot 游戏 Demo，到底能不能打？&lt;/p&gt;
&lt;p&gt;重点很直接：它能不能做出一个可运行、可观察、带物理效果的 Godot 小 Demo。&lt;/p&gt;
&lt;p&gt;结论先说：可以跑通，效果不算商业级，但已经足够作为玩法原型和物理交互 Demo 使用。更重要的是，成本非常低，适合快速验证想法。&lt;/p&gt;
&lt;h2 id=&#34;demo-表现&#34;&gt;Demo 表现
&lt;/h2&gt;&lt;p&gt;这个 Demo 的重点是物理交互。&lt;/p&gt;
&lt;p&gt;几个比较直观的效果包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;绳子可以被切断。&lt;/li&gt;
&lt;li&gt;箱子会掉到地上。&lt;/li&gt;
&lt;li&gt;调大质量后，箱子碰撞会更猛烈。&lt;/li&gt;
&lt;li&gt;绳子表现出比较明显的弹性。&lt;/li&gt;
&lt;li&gt;调整摩擦力和弹性后，箱子会出现明显的滑动和反弹。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;从呈现效果看，它已经不是“只生成几段 Godot 脚本”那么简单，而是一个能运行、能观察物理表现的小型原型。&lt;/p&gt;
&lt;h2 id=&#34;可用程度&#34;&gt;可用程度
&lt;/h2&gt;&lt;p&gt;这个 Demo 的价值在于“能跑、能看、能改”。它不是完整游戏，也不是可以直接商业化的工程，但已经能说明几个问题：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;DeepSeek V4 Flash&lt;/code&gt; 能理解 Godot Demo 的基本目标。&lt;/li&gt;
&lt;li&gt;AI Agent 可以把需求转成可运行工程。&lt;/li&gt;
&lt;li&gt;Godot 物理交互这种非网页类任务，已经可以进入低成本原型阶段。&lt;/li&gt;
&lt;li&gt;对个人开发者来说，它能把“想法”快速变成“能看的东西”。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果目标是做一个正式游戏，它当然还不够；但如果目标是验证“这个玩法有没有意思”“物理效果大概能不能做出来”，这个 Demo 已经可用。&lt;/p&gt;
&lt;h2 id=&#34;成本意义&#34;&gt;成本意义
&lt;/h2&gt;&lt;p&gt;最值得关注的不是画面有多精致，而是成本。&lt;/p&gt;
&lt;p&gt;如果一个 Godot 物理 Demo 只需要几毛钱级别的模型成本，就能得到一个可运行版本，那么它的意义就不是替代专业游戏开发，而是大幅降低原型试错成本。&lt;/p&gt;
&lt;p&gt;以前想验证一个小游戏想法，至少需要自己熟悉 Godot、写脚本、调场景、调物理参数。现在可以先让 AI Agent 生成一个可运行版本，再由人判断方向对不对。&lt;/p&gt;
&lt;p&gt;对独立开发者来说，这类低成本试错很有用：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;快速验证玩法概念。&lt;/li&gt;
&lt;li&gt;生成临时 Demo 给别人看。&lt;/li&gt;
&lt;li&gt;探索 Godot API 和物理系统。&lt;/li&gt;
&lt;li&gt;把想法转成能跑的初版工程。&lt;/li&gt;
&lt;li&gt;在不确定方向前减少手写代码成本。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;deepseek-v4-flash-的表现&#34;&gt;DeepSeek V4 Flash 的表现
&lt;/h2&gt;&lt;p&gt;比较值得注意的是，使用的是 &lt;code&gt;DeepSeek V4 Flash&lt;/code&gt;，而不是更贵、更重的旗舰模型。&lt;/p&gt;
&lt;p&gt;它在“低成本原型”这个定位上表现不错。它不是最强、最稳、最适合交付生产工程的模型，但在预算敏感、想快速试一下方向的场景里，很有吸引力。&lt;/p&gt;
&lt;h2 id=&#34;适合什么场景&#34;&gt;适合什么场景
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;DeepSeek V4 Flash + Agent + Godot&lt;/code&gt; 更适合下面这些任务：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;小型玩法原型。&lt;/li&gt;
&lt;li&gt;物理效果 Demo。&lt;/li&gt;
&lt;li&gt;UI 或交互概念验证。&lt;/li&gt;
&lt;li&gt;教学示例。&lt;/li&gt;
&lt;li&gt;辅助理解 Godot 项目结构。&lt;/li&gt;
&lt;li&gt;生成第一版可运行工程。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;不太适合直接承担这些任务：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;大型游戏架构。&lt;/li&gt;
&lt;li&gt;复杂角色控制器。&lt;/li&gt;
&lt;li&gt;网络同步。&lt;/li&gt;
&lt;li&gt;商业项目核心代码。&lt;/li&gt;
&lt;li&gt;高精度物理模拟。&lt;/li&gt;
&lt;li&gt;不经过人工测试的自动提交。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;换句话说，它适合做“第一稿”和“试验场”，不适合当生产工程负责人。&lt;/p&gt;
&lt;h2 id=&#34;这说明了什么&#34;&gt;这说明了什么
&lt;/h2&gt;&lt;p&gt;这说明，AI 编程正在从网页、脚本、后端接口，继续向游戏开发和交互原型扩展。&lt;/p&gt;
&lt;p&gt;过去游戏开发的门槛很高，尤其是引擎、脚本、资源管理和物理系统混在一起时，新手很容易卡住。现在模型加 Agent 工具，可以先把工程搭起来，让开发者把注意力放在玩法判断和效果调优上。&lt;/p&gt;
&lt;p&gt;它带来的变化可能有三点：&lt;/p&gt;
&lt;p&gt;第一，游戏原型会更便宜。很多想法不用等到完整开发阶段才验证，可以先得到可运行 Demo。&lt;/p&gt;
&lt;p&gt;第二，独立开发者会更敢尝试。不会 Godot 的人，也可以借助 AI 先摸到项目结构和基本流程。&lt;/p&gt;
&lt;p&gt;第三，模型稳定性会变得更重要。游戏开发不是只要代码能跑，还要效果合理、手感正常、参数可控。未来谁能更好地结合实际画面和运行状态，谁就更适合做这类任务。&lt;/p&gt;
&lt;h2 id=&#34;小结&#34;&gt;小结
&lt;/h2&gt;&lt;p&gt;DeepSeek V4 Flash 做 Godot Demo，可以概括成一句话：&lt;strong&gt;效果不完美，但足够便宜、足够快，也足够适合做原型。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;它离商业游戏还很远，但如果目标是用极低成本验证一个小游戏想法，它已经很有价值。&lt;/p&gt;
&lt;p&gt;对个人开发者来说，最现实的用法不是把游戏全交给 AI，而是让 AI 先给出能跑的工程，再由人负责判断、取舍和打磨。这样用，DeepSeek V4 Flash 这类低成本模型反而会很香。&lt;/p&gt;
</description>
        </item>
        <item>
        <title>本地部署 DeepSeek V4：Pro、Flash 与 Base 版本显存占用估算表</title>
        <link>https://knightli.com/2026/05/01/deepseek-v4-local-vram-quantization-table/</link>
        <pubDate>Fri, 01 May 2026 11:55:25 +0800</pubDate>
        
        <guid>https://knightli.com/2026/05/01/deepseek-v4-local-vram-quantization-table/</guid>
        <description>&lt;p&gt;DeepSeek V4 和 Gemma 4 的本地部署不是一个量级。
Gemma 4 的 26B、31B 还能讨论 24GB、32GB 显卡怎么选量化版；DeepSeek V4 则是超大 MoE 模型，真正完整本地部署时，显存需求会直接进入多卡工作站或服务器级别。&lt;/p&gt;
&lt;p&gt;官方发布的 DeepSeek V4 Preview 主要包含两个推理版本：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;DeepSeek-V4-Pro&lt;/code&gt;：&lt;code&gt;1.6T total / 49B active params&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;DeepSeek-V4-Flash&lt;/code&gt;：&lt;code&gt;284B total / 13B active params&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Hugging Face 官方 collection 里还包含两个 Base 版本：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;DeepSeek-V4-Pro-Base&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;DeepSeek-V4-Flash-Base&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这篇只讨论&lt;strong&gt;完整加载模型权重&lt;/strong&gt;时的大致显存门槛。
MoE 的 &lt;code&gt;active params&lt;/code&gt; 主要影响每个 token 的计算量，不等于只需要加载这部分参数。
如果没有专家按需加载、CPU/NVMe offload、分布式推理或专门运行时优化，显存仍然要按完整权重来估。&lt;/p&gt;
&lt;h2 id=&#34;先看结论&#34;&gt;先看结论
&lt;/h2&gt;&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;显存规模&lt;/th&gt;
          &lt;th&gt;能比较现实地尝试什么&lt;/th&gt;
          &lt;th&gt;不建议期待什么&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;24GB&lt;/td&gt;
          &lt;td&gt;不能完整跑 DeepSeek V4；只能跑小型蒸馏模型或 API&lt;/td&gt;
          &lt;td&gt;V4-Flash / V4-Pro 完整本地加载&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;48GB&lt;/td&gt;
          &lt;td&gt;仍不适合完整加载；可做小模型或远程 API 客户端&lt;/td&gt;
          &lt;td&gt;V4-Flash Q4 稳定运行&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;80GB&lt;/td&gt;
          &lt;td&gt;理论上可尝试 V4-Flash Q2/Q3 或强 offload&lt;/td&gt;
          &lt;td&gt;V4-Pro&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;128GB&lt;/td&gt;
          &lt;td&gt;V4-Flash Q4 比较现实；Q5/Q6 仍紧&lt;/td&gt;
          &lt;td&gt;V4-Pro Q4&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;192GB&lt;/td&gt;
          &lt;td&gt;V4-Flash FP8/Q6 更从容；Pro Q2 勉强进入讨论&lt;/td&gt;
          &lt;td&gt;V4-Pro Q4&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;256GB&lt;/td&gt;
          &lt;td&gt;V4-Flash FP8 比较稳；Pro Q2/Q3 可实验&lt;/td&gt;
          &lt;td&gt;V4-Pro Q5 以上&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;512GB&lt;/td&gt;
          &lt;td&gt;V4-Pro Q4 开始进入可讨论范围&lt;/td&gt;
          &lt;td&gt;V4-Pro FP8&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;1TB+&lt;/td&gt;
          &lt;td&gt;V4-Pro FP8、Pro-Base 低位宽更现实&lt;/td&gt;
          &lt;td&gt;单机低成本部署&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;2TB+&lt;/td&gt;
          &lt;td&gt;Pro-Base FP8 级别&lt;/td&gt;
          &lt;td&gt;普通工作站部署&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;如果你的目标是个人电脑本地运行，DeepSeek V4 并不是合适对象。
更现实的路线是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;用 DeepSeek 官方 API 或兼容服务；&lt;/li&gt;
&lt;li&gt;等社区稳定的 GGUF/EXL2/MLX 量化和推理支持；&lt;/li&gt;
&lt;li&gt;使用更小的 DeepSeek 蒸馏模型；&lt;/li&gt;
&lt;li&gt;或者把本地模型换成 Qwen、Gemma、Llama 等 7B 到 70B 级别模型。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;官方权重体积&#34;&gt;官方权重体积
&lt;/h2&gt;&lt;p&gt;以下是 Hugging Face 官方仓库的 &lt;code&gt;model.safetensors.index.json&lt;/code&gt; 中统计到的权重总量。
它反映的是当前公开权重文件大小，不等于长上下文运行时的完整显存占用。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;模型&lt;/th&gt;
          &lt;th&gt;参数规模&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;官方权重体积&lt;/th&gt;
          &lt;th&gt;说明&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;DeepSeek-V4-Flash&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;284B total / 13B active&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;159.61GB&lt;/td&gt;
          &lt;td&gt;推理版，体积相对最小&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;DeepSeek-V4-Pro&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;1.6T total / 49B active&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;864.70GB&lt;/td&gt;
          &lt;td&gt;推理版，能力更强，体积巨大&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;DeepSeek-V4-Flash-Base&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;284B total&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;294.67GB&lt;/td&gt;
          &lt;td&gt;Base 版，更接近全量 FP8 权重体积&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;DeepSeek-V4-Pro-Base&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;1.6T total&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1606.03GB&lt;/td&gt;
          &lt;td&gt;Base 版，约 1.6TB 级别&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;可以看到，即使是最小的 &lt;code&gt;V4-Flash&lt;/code&gt;，官方权重也已经接近 160GB。
这就是为什么它不能按“13B active params”理解成 13B 小模型。&lt;/p&gt;
&lt;h2 id=&#34;deepseek-v4-flash-显存估算&#34;&gt;DeepSeek V4 Flash 显存估算
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;V4-Flash&lt;/code&gt; 是 DeepSeek V4 里最适合本地尝试的一档。
但“最适合”只是相对 Pro 而言，它仍然不是消费级单卡模型。&lt;/p&gt;
&lt;p&gt;下面按官方 159.61GB 权重体积做折算。
其中 Q4/Q3/Q2 是按位宽估算，不代表当前已经有稳定可用的官方 GGUF 版本。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;版本/量化&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;估算权重体积&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;最低显存&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;更稳妥显存&lt;/th&gt;
          &lt;th&gt;适合场景&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;FP8 / 官方权重&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;159.61GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;192GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;256GB&lt;/td&gt;
          &lt;td&gt;多卡服务器、推理服务&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q6&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;120GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;160GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;192GB&lt;/td&gt;
          &lt;td&gt;质量优先的量化尝试&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q5&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;100GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;128GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;160GB&lt;/td&gt;
          &lt;td&gt;质量和体积折中&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q4&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;80GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;96GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;128GB&lt;/td&gt;
          &lt;td&gt;Flash 本地化较现实的起点&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q3&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;60GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;80GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;96GB&lt;/td&gt;
          &lt;td&gt;大显存单卡或多卡实验&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q2&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;40GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;48GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;64GB&lt;/td&gt;
          &lt;td&gt;极限低位宽实验，质量风险明显&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;如果未来社区出现成熟的 &lt;code&gt;V4-Flash Q4&lt;/code&gt;，它大概率也不是 24GB 显卡的模型。
更现实的硬件起点是 96GB 到 128GB 级别的总显存，或者依赖 CPU 内存/offload 换速度。&lt;/p&gt;
&lt;h2 id=&#34;deepseek-v4-pro-显存估算&#34;&gt;DeepSeek V4 Pro 显存估算
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;V4-Pro&lt;/code&gt; 是旗舰推理版，官方权重体积约 864.70GB。
即使做 4-bit 量化，完整权重也仍然是数百 GB 级别。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;版本/量化&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;估算权重体积&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;最低显存&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;更稳妥显存&lt;/th&gt;
          &lt;th&gt;适合场景&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;FP8 / 官方权重&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;864.70GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1TB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1.2TB+&lt;/td&gt;
          &lt;td&gt;多机多卡推理服务&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q6&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;648GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;768GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1TB&lt;/td&gt;
          &lt;td&gt;高质量量化服务&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q5&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;540GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;640GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;768GB&lt;/td&gt;
          &lt;td&gt;高质量与成本折中&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q4&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;432GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;512GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;640GB&lt;/td&gt;
          &lt;td&gt;Pro 本地化较现实的最低质量线&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q3&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;324GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;384GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;512GB&lt;/td&gt;
          &lt;td&gt;低位宽实验&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q2&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;216GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;256GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;320GB&lt;/td&gt;
          &lt;td&gt;极限实验，质量和稳定性风险高&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;对个人用户来说，&lt;code&gt;V4-Pro&lt;/code&gt; 更适合通过 API 使用。
如果目标是完整本地部署，至少要把它当成多卡服务器模型，而不是 4090、5090、RTX PRO 单卡模型。&lt;/p&gt;
&lt;h2 id=&#34;deepseek-v4-flash-base-显存估算&#34;&gt;DeepSeek V4 Flash-Base 显存估算
&lt;/h2&gt;&lt;p&gt;Base 版通常用于研究、微调或继续训练，不是普通聊天部署的首选。
&lt;code&gt;V4-Flash-Base&lt;/code&gt; 官方权重体积约 294.67GB。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;版本/量化&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;估算权重体积&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;最低显存&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;更稳妥显存&lt;/th&gt;
          &lt;th&gt;适合场景&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;FP8 / 官方权重&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;294.67GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;384GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;512GB&lt;/td&gt;
          &lt;td&gt;研究、训练前处理、评测&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q6&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;221GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;256GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;320GB&lt;/td&gt;
          &lt;td&gt;高质量量化研究&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q5&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;184GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;224GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;256GB&lt;/td&gt;
          &lt;td&gt;质量和体积折中&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q4&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;147GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;192GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;224GB&lt;/td&gt;
          &lt;td&gt;Base 版低成本实验&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q3&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;111GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;128GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;160GB&lt;/td&gt;
          &lt;td&gt;低位宽实验&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q2&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;74GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;96GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;128GB&lt;/td&gt;
          &lt;td&gt;极限实验&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;如果只是要使用 DeepSeek V4 能力，不建议从 Base 版开始。
Base 版的部署和调优成本更高，普通应用更适合推理版或 API。&lt;/p&gt;
&lt;h2 id=&#34;deepseek-v4-pro-base-显存估算&#34;&gt;DeepSeek V4 Pro-Base 显存估算
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;V4-Pro-Base&lt;/code&gt; 是最重的一档，官方权重体积约 1606.03GB。
这已经是 1.6TB 级别的模型文件。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;版本/量化&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;估算权重体积&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;最低显存&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;更稳妥显存&lt;/th&gt;
          &lt;th&gt;适合场景&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;FP8 / 官方权重&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1606.03GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;2TB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;2.4TB+&lt;/td&gt;
          &lt;td&gt;大规模研究集群&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q6&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1205GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1.5TB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;2TB&lt;/td&gt;
          &lt;td&gt;高质量量化研究&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q5&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1004GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1.2TB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1.5TB&lt;/td&gt;
          &lt;td&gt;研究与评测&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q4&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;803GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1TB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1.2TB&lt;/td&gt;
          &lt;td&gt;低位宽研究&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q3&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;602GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;768GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1TB&lt;/td&gt;
          &lt;td&gt;极限低位宽研究&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q2&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;402GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;512GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;640GB&lt;/td&gt;
          &lt;td&gt;极限实验&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;这类模型不适合被放进“家用显卡能不能跑”的框架里讨论。
哪怕是 Q4，也已经超过绝大多数单机工作站的舒适范围。&lt;/p&gt;
&lt;h2 id=&#34;为什么不能只看-active-params&#34;&gt;为什么不能只看 active params
&lt;/h2&gt;&lt;p&gt;DeepSeek V4 是 MoE 模型。
MoE 的特点是每个 token 只激活一部分专家，因此计算量会明显低于总参数量。
但这不等于显存只需要放 active params。&lt;/p&gt;
&lt;p&gt;完整本地推理通常还要考虑：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;所有专家权重是否需要常驻 GPU；&lt;/li&gt;
&lt;li&gt;是否支持按需专家加载；&lt;/li&gt;
&lt;li&gt;CPU 内存与 GPU 显存之间的数据搬运成本；&lt;/li&gt;
&lt;li&gt;NVMe offload 的延迟；&lt;/li&gt;
&lt;li&gt;KV cache 在长上下文下的增长；&lt;/li&gt;
&lt;li&gt;1M context 场景下的额外运行时开销；&lt;/li&gt;
&lt;li&gt;多机多卡通信成本。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;所以，&lt;code&gt;49B active&lt;/code&gt; 的 &lt;code&gt;V4-Pro&lt;/code&gt; 不能当成 49B 模型来部署。
&lt;code&gt;13B active&lt;/code&gt; 的 &lt;code&gt;V4-Flash&lt;/code&gt; 也不能当成 13B 小模型来部署。&lt;/p&gt;
&lt;h2 id=&#34;怎么选&#34;&gt;怎么选
&lt;/h2&gt;&lt;p&gt;如果你只是普通个人用户：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;不建议完整本地部署 DeepSeek V4。&lt;/li&gt;
&lt;li&gt;需要 DeepSeek V4 能力时，优先用官方 API。&lt;/li&gt;
&lt;li&gt;需要本地私有化时，优先看是否有成熟推理服务商或内部多卡服务器。&lt;/li&gt;
&lt;li&gt;只有 24GB 到 48GB 显存时，转向 7B、14B、32B、70B 级别量化模型更实际。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果你有 128GB 到 256GB 总显存：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;可以关注 &lt;code&gt;V4-Flash Q4/Q5&lt;/code&gt; 是否有稳定社区实现。&lt;/li&gt;
&lt;li&gt;不建议把 &lt;code&gt;V4-Pro&lt;/code&gt; 当成主力本地模型。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果你有 512GB 以上总显存：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;V4-Pro Q4&lt;/code&gt; 才开始进入工程验证范围。&lt;/li&gt;
&lt;li&gt;仍然要关注推理框架、专家调度、KV cache、吞吐和并发。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;DeepSeek V4 的本地部署重点不是“下载哪个量化文件”，而是“有没有足够的系统级推理能力”。
它更接近一个服务器模型，而不是普通桌面模型。&lt;/p&gt;
&lt;h2 id=&#34;参考来源&#34;&gt;参考来源
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://api-docs.deepseek.com/news/news260424&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;DeepSeek V4 Preview Release - DeepSeek API Docs&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/collections/deepseek-ai/deepseek-v4&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;DeepSeek-V4 collection - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;deepseek-ai/DeepSeek-V4-Pro - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;deepseek-ai/DeepSeek-V4-Flash - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;deepseek-ai/DeepSeek-V4-Pro-Base - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;deepseek-ai/DeepSeek-V4-Flash-Base - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>GPT 5.5、Claude Opus 4.7、DeepSeek V4、Qwen 3.6 Max 怎么选</title>
        <link>https://knightli.com/2026/04/28/coding-ai-benchmark-gpt55-claude-opus47-deepseek-v4-qwen36max/</link>
        <pubDate>Tue, 28 Apr 2026 22:18:00 +0800</pubDate>
        
        <guid>https://knightli.com/2026/04/28/coding-ai-benchmark-gpt55-claude-opus47-deepseek-v4-qwen36max/</guid>
        <description>&lt;p&gt;如果你现在只想知道一句话答案，那可以先记这个版本：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;要最稳、最省时间，优先看 &lt;code&gt;GPT 5.5&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;要页面观感、创意和展示感，&lt;code&gt;Claude Opus 4.7&lt;/code&gt; 还是强&lt;/li&gt;
&lt;li&gt;要看国产模型里谁最接近第一梯队，&lt;code&gt;Qwen 3.6 Max&lt;/code&gt; 现在很有竞争力&lt;/li&gt;
&lt;li&gt;&lt;code&gt;DeepSeek V4&lt;/code&gt; 不是不能打，但波动比前面几家更明显&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;很多人问“现在最强编程 AI 到底是谁”，其实问到最后，通常不是在问排行榜，而是在问一件更实际的事：&lt;br&gt;
&lt;strong&gt;我现在要写页面、做 demo、生成小工具、补交互，哪一个最容易一次就给我能用的东西。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;从这个角度看，这几家模型的差别已经很清楚了。&lt;/p&gt;
&lt;h2 id=&#34;先说总判断&#34;&gt;先说总判断
&lt;/h2&gt;&lt;p&gt;如果把 &lt;code&gt;GPT 5.5&lt;/code&gt;、&lt;code&gt;Claude Opus 4.7&lt;/code&gt;、&lt;code&gt;DeepSeek V4&lt;/code&gt;、&lt;code&gt;Qwen 3.6 Max&lt;/code&gt; 放在一起看，综合能力最稳的还是 &lt;code&gt;GPT 5.5&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;它不一定每次都是最花哨的那个，但它很少让你明显失望。速度快，第一次生成的完成度高，逻辑、交互、动效、小游戏这一类综合任务通常都比较顺。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;Claude Opus 4.7&lt;/code&gt; 的特点很不一样。它最强的地方不是“最稳”，而是页面气质、UI 组织和展示感。很多时候你一打开它写的东西，会先觉得“这个看起来像回事”。如果你更在意页面呈现，它还是很值得看。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;Qwen 3.6 Max&lt;/code&gt; 是这几家里最值得重新看的一个。它已经不是“国产里能用”这个级别了，而是有些场景下真的能和 &lt;code&gt;GPT 5.5&lt;/code&gt; 直接拼效果。尤其是前端页面、视觉完成度、拟真感这些部分，它已经开始有明显存在感。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;DeepSeek V4&lt;/code&gt; 的问题不是完全不行，而是不够稳。它能写出来的时候并不弱，甚至有些场景还不错，但上下限差得比另外几家更明显。你有时候会觉得它挺能打，有时候又会觉得怎么突然掉下去了。&lt;/p&gt;
&lt;h2 id=&#34;gpt-55-强在哪&#34;&gt;&lt;code&gt;GPT 5.5&lt;/code&gt; 强在哪
&lt;/h2&gt;&lt;p&gt;如果你平时最常做的是这些事：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;直接生成一个完整网页&lt;/li&gt;
&lt;li&gt;做带动效的小 demo&lt;/li&gt;
&lt;li&gt;写有一点逻辑的互动页面&lt;/li&gt;
&lt;li&gt;生成小游戏或多状态交互&lt;/li&gt;
&lt;li&gt;想尽量少返工&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;那 &lt;code&gt;GPT 5.5&lt;/code&gt; 基本还是最稳的答案。&lt;/p&gt;
&lt;p&gt;它的优势主要有几个：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;出代码速度快&lt;/li&gt;
&lt;li&gt;第一次成品可用度高&lt;/li&gt;
&lt;li&gt;逻辑和交互比较少出硬伤&lt;/li&gt;
&lt;li&gt;综合题表现稳定&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;说得更直接一点，&lt;code&gt;GPT 5.5&lt;/code&gt; 最像一个“你把需求扔过去，它大概率能先把地基搭对”的模型。&lt;br&gt;
很多人真正缺的不是某一项最惊艳，而是第一版别翻车。这件事上它现在还是最让人省心。&lt;/p&gt;
&lt;p&gt;当然，它也不是完全没有短板。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;某些偏视觉表现的页面，不一定是最有惊喜的&lt;/li&gt;
&lt;li&gt;有时候太稳了，反而少一点设计感上的记忆点&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;所以如果你问“要一个默认推荐”，那还是 &lt;code&gt;GPT 5.5&lt;/code&gt;。&lt;br&gt;
但如果你问“要不要只看它”，答案也不是。&lt;/p&gt;
&lt;h2 id=&#34;claude-opus-47-适合什么人&#34;&gt;&lt;code&gt;Claude Opus 4.7&lt;/code&gt; 适合什么人
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;Claude Opus 4.7&lt;/code&gt; 这类模型的吸引力，更多来自页面观感。&lt;/p&gt;
&lt;p&gt;它的长处通常是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;UI 结构更顺&lt;/li&gt;
&lt;li&gt;视觉表现更完整&lt;/li&gt;
&lt;li&gt;某些页面更有展示感&lt;/li&gt;
&lt;li&gt;在可视化和创意感上更容易出彩&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果你让模型去做的是这些东西：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;演示页面&lt;/li&gt;
&lt;li&gt;数据展示页面&lt;/li&gt;
&lt;li&gt;强调观感的小网页&lt;/li&gt;
&lt;li&gt;想要一打开就“看着比较高级”的结果&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;那 &lt;code&gt;Claude&lt;/code&gt; 依然值得进前排。&lt;/p&gt;
&lt;p&gt;不过它的问题也一直比较明显：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;稳定性不如 &lt;code&gt;GPT 5.5&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;有时看着不错，但细节逻辑会偏掉&lt;/li&gt;
&lt;li&gt;个别场景里会出现功能能跑，但核心体验不够准的情况&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;所以 &lt;code&gt;Claude&lt;/code&gt; 更像一个有审美加成的前端型选手。&lt;br&gt;
你要是更看重页面“长得好不好”，它很有优势；你要是最怕第一次输出就出逻辑问题，那还是得更谨慎一点。&lt;/p&gt;
&lt;h2 id=&#34;qwen-36-max-为什么值得认真看&#34;&gt;&lt;code&gt;Qwen 3.6 Max&lt;/code&gt; 为什么值得认真看
&lt;/h2&gt;&lt;p&gt;这几家里，&lt;code&gt;Qwen 3.6 Max&lt;/code&gt; 给人的最大变化感最明显。&lt;/p&gt;
&lt;p&gt;以前很多人看国产编程 AI，更多是抱着“能不能跟上”的心态。现在看 &lt;code&gt;Qwen 3.6 Max&lt;/code&gt;，已经是另一种问题了：&lt;br&gt;
&lt;strong&gt;它在一些前端直出场景里，到底能不能直接和国外头部模型打。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;它现在比较突出的地方有这些：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;页面观感不错&lt;/li&gt;
&lt;li&gt;某些动效和拟真效果做得挺好&lt;/li&gt;
&lt;li&gt;生成结果比较有完成感&lt;/li&gt;
&lt;li&gt;有些题目里，效果已经能接近甚至咬住 &lt;code&gt;GPT 5.5&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这说明一件事：&lt;br&gt;
如果你的使用场景偏网页、偏前端、偏展示结果，那 &lt;code&gt;Qwen 3.6 Max&lt;/code&gt; 已经不是“备用选项”，而是可以认真放进主选名单的模型。&lt;/p&gt;
&lt;p&gt;当然，它还没有稳到完全没有短板。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;交互逻辑题上，偶尔还是会掉一点完成度&lt;/li&gt;
&lt;li&gt;有些页面很好看，但有些任务又会突然平一点&lt;/li&gt;
&lt;li&gt;起伏比 &lt;code&gt;GPT 5.5&lt;/code&gt; 还是大一些&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;但整体上，它现在的存在感已经非常强了。&lt;br&gt;
如果你想知道“国产模型里现在最该重点看谁”，那 &lt;code&gt;Qwen 3.6 Max&lt;/code&gt; 很难绕开。&lt;/p&gt;
&lt;h2 id=&#34;deepseek-v4-现在处在什么位置&#34;&gt;&lt;code&gt;DeepSeek V4&lt;/code&gt; 现在处在什么位置
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;DeepSeek V4&lt;/code&gt; 的情况稍微复杂一点。&lt;/p&gt;
&lt;p&gt;它的问题不是完全做不好，而是你不太容易预判它这次会落在哪个区间。&lt;br&gt;
有时候它能把事情做出来，观感和功能都不算差；有时候遇到稍微复杂一点、同时要求动画、逻辑、数据表现的任务，它又容易掉链子。&lt;/p&gt;
&lt;p&gt;它目前给人的感觉更像这样：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;能力有&lt;/li&gt;
&lt;li&gt;不算弱&lt;/li&gt;
&lt;li&gt;某些题目可以交卷&lt;/li&gt;
&lt;li&gt;但稳定性还不够让人完全放心&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这就决定了它现在更适合什么样的人。&lt;/p&gt;
&lt;p&gt;如果你愿意多试几次、能接受偶尔需要重来、或者你本来就会自己检查和修代码，那 &lt;code&gt;DeepSeek V4&lt;/code&gt; 还是可以继续用。&lt;br&gt;
但如果你就是想少折腾、想把第一次生成成功率放在前面，那它现在还不是最稳的答案。&lt;/p&gt;
&lt;h2 id=&#34;普通用户到底该怎么选&#34;&gt;普通用户到底该怎么选
&lt;/h2&gt;&lt;p&gt;如果你不是做模型评测，而是真的想拿来干活，那其实可以直接按用途选。&lt;/p&gt;
&lt;h3 id=&#34;1-想少折腾想提高第一次成功率&#34;&gt;1. 想少折腾，想提高第一次成功率
&lt;/h3&gt;&lt;p&gt;选 &lt;code&gt;GPT 5.5&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;它最适合的就是“我给需求，你先给我一版能用的”。&lt;br&gt;
尤其是你没有太多时间来回调、反复修的时候，它的综合稳定性最有价值。&lt;/p&gt;
&lt;h3 id=&#34;2-更看重页面展示感和视觉完成度&#34;&gt;2. 更看重页面展示感和视觉完成度
&lt;/h3&gt;&lt;p&gt;选 &lt;code&gt;Claude Opus 4.7&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;如果你想要的是一个看起来更像成品的页面，或者你做的是偏演示型、展示型的东西，&lt;code&gt;Claude&lt;/code&gt; 的优势会更容易体现出来。&lt;/p&gt;
&lt;h3 id=&#34;3-想重点看国产里最强的前端直出能力&#34;&gt;3. 想重点看国产里最强的前端直出能力
&lt;/h3&gt;&lt;p&gt;优先看 &lt;code&gt;Qwen 3.6 Max&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;它现在已经不是“将就用”，而是真的可以拿来正面比较。&lt;br&gt;
如果你的任务偏网页、偏动效、偏展示，&lt;code&gt;Qwen&lt;/code&gt; 的竞争力已经很实际了。&lt;/p&gt;
&lt;h3 id=&#34;4-能接受波动想继续观察国产综合能力&#34;&gt;4. 能接受波动，想继续观察国产综合能力
&lt;/h3&gt;&lt;p&gt;可以继续看 &lt;code&gt;DeepSeek V4&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;它的问题不是没实力，而是发挥不够整齐。&lt;br&gt;
如果后面稳定性继续补上，它的存在感还会更强。&lt;/p&gt;
&lt;h2 id=&#34;最后一句话&#34;&gt;最后一句话
&lt;/h2&gt;&lt;p&gt;现在这几家主流编程 AI，差距已经不再是“谁能写、谁不能写”，而是“谁更稳、谁更好看、谁更适合你的任务”。&lt;/p&gt;
&lt;p&gt;如果你就想要一个最省事的答案，&lt;code&gt;GPT 5.5&lt;/code&gt; 还是第一选择。&lt;br&gt;
如果你想要更强的展示感，&lt;code&gt;Claude Opus 4.7&lt;/code&gt; 仍然很有味道。&lt;br&gt;
如果你关心国产模型里谁最值得认真看，&lt;code&gt;Qwen 3.6 Max&lt;/code&gt; 现在已经站到很靠前的位置。&lt;br&gt;
&lt;code&gt;DeepSeek V4&lt;/code&gt; 则更像一个还在继续补稳定性的强力选手。&lt;/p&gt;
&lt;p&gt;真要压成一句最短结论，就是：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;最稳看 &lt;code&gt;GPT 5.5&lt;/code&gt;，最有观感看 &lt;code&gt;Claude&lt;/code&gt;，国产里最值得重点看的是 &lt;code&gt;Qwen 3.6 Max&lt;/code&gt;。&lt;/strong&gt;&lt;/p&gt;
</description>
        </item>
        
    </channel>
</rss>
