<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>VLLM on KnightLi的博客</title>
        <link>https://knightli.com/tags/vllm/</link>
        <description>Recent content in VLLM on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <lastBuildDate>Sun, 31 May 2026 13:05:55 +0800</lastBuildDate><atom:link href="https://knightli.com/tags/vllm/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>NVIDIA 发布 Qwen3.6-35B-A3B-NVFP4：面向 vLLM 部署的 FP4 量化版本</title>
        <link>https://knightli.com/2026/05/31/nvidia-qwen3-6-35b-a3b-nvfp4/</link>
        <pubDate>Sun, 31 May 2026 13:05:55 +0800</pubDate>
        
        <guid>https://knightli.com/2026/05/31/nvidia-qwen3-6-35b-a3b-nvfp4/</guid>
        <description>&lt;p&gt;NVIDIA 在 Hugging Face 上发布了 &lt;code&gt;nvidia/Qwen3.6-35B-A3B-NVFP4&lt;/code&gt;。这是基于阿里 Qwen3.6-35B-A3B 的量化版本，使用 NVIDIA Model Optimizer 处理，目标是让开发者更方便地把模型部署到 vLLM、Agent、RAG、聊天机器人等推理场景中。&lt;/p&gt;
&lt;p&gt;模型卡显示，它采用 Apache-2.0 许可证，可以用于商业和非商业场景。需要注意的是，NVIDIA 明确说明该模型并不是 NVIDIA 自研基础模型，而是基于第三方模型 Qwen3.6-35B-A3B 的量化版本。&lt;/p&gt;
&lt;h2 id=&#34;模型基本信息&#34;&gt;模型基本信息
&lt;/h2&gt;&lt;p&gt;根据模型卡，&lt;code&gt;Qwen3.6-35B-A3B-NVFP4&lt;/code&gt; 的关键参数如下：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;基础模型：&lt;code&gt;Qwen/Qwen3.6-35B-A3B&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;发布方：NVIDIA&lt;/li&gt;
&lt;li&gt;量化工具：NVIDIA Model Optimizer&lt;/li&gt;
&lt;li&gt;许可证：Apache-2.0&lt;/li&gt;
&lt;li&gt;架构：Transformer&lt;/li&gt;
&lt;li&gt;网络结构：MoE with Hybrid Attention&lt;/li&gt;
&lt;li&gt;参数规模：总参数 35B，激活参数 3B&lt;/li&gt;
&lt;li&gt;输入：文本、图像、视频&lt;/li&gt;
&lt;li&gt;输出：文本&lt;/li&gt;
&lt;li&gt;上下文长度：最高 262K&lt;/li&gt;
&lt;li&gt;推理引擎：vLLM&lt;/li&gt;
&lt;li&gt;推荐硬件：NVIDIA Hopper、NVIDIA Blackwell&lt;/li&gt;
&lt;li&gt;推荐系统：Linux&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Hugging Face 页面侧边栏同时显示了模型文件相关的体积与张量类型信息。阅读时不要把页面侧边栏里的文件统计口径，直接等同于基础模型的架构参数。&lt;/p&gt;
&lt;h2 id=&#34;nvfp4-量化做了什么&#34;&gt;NVFP4 量化做了什么
&lt;/h2&gt;&lt;p&gt;这个版本的重点是 NVFP4 量化。模型卡描述中提到，NVIDIA 对 Qwen3.6-35B-A3B 的权重做了 NVFP4 量化，使其可以配合 vLLM 推理使用。&lt;/p&gt;
&lt;p&gt;这次量化不是把所有内容都粗暴压到 4-bit，而是针对 MoE Transformer block 中线性算子的权重和激活做处理。官方给出的结果是：每个参数的位宽从 16 bit 降到 4 bit，磁盘占用和 GPU 显存需求约降低 3.06 倍。&lt;/p&gt;
&lt;p&gt;对部署来说，这类预量化版本的意义很直接：不用自己重新跑量化流程，就可以直接拿来测试吞吐、显存占用和长上下文推理表现。&lt;/p&gt;
&lt;h2 id=&#34;vllm-部署命令&#34;&gt;vLLM 部署命令
&lt;/h2&gt;&lt;p&gt;模型卡给出的基础启动命令如下：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;vllm serve nvidia/Qwen3.6-35B-A3B-NVFP4 --port &lt;span class=&#34;m&#34;&gt;8000&lt;/span&gt; --quantization modelopt --max-model-len &lt;span class=&#34;m&#34;&gt;262144&lt;/span&gt; --reasoning-parser qwen3
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;这条命令保留了 262K 上下文长度，适合先在高显存环境中验证模型能力。如果显存紧张，可以先降低 &lt;code&gt;--max-model-len&lt;/code&gt;，再逐步上调。&lt;/p&gt;
&lt;p&gt;针对 NVIDIA DGX Spark，模型卡给了另一组环境变量和 vLLM 参数：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;5
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;export&lt;/span&gt; &lt;span class=&#34;nv&#34;&gt;VLLM_USE_FLASHINFER_MOE_FP4&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;m&#34;&gt;0&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;export&lt;/span&gt; &lt;span class=&#34;nv&#34;&gt;VLLM_FP8_MOE_BACKEND&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;flashinfer_cutlass
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;export&lt;/span&gt; &lt;span class=&#34;nv&#34;&gt;FLASHINFER_DISABLE_VERSION_CHECK&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;m&#34;&gt;1&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;export&lt;/span&gt; &lt;span class=&#34;nv&#34;&gt;CUTE_DSL_ARCH&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;sm_121a
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;vllm serve nvidia/Qwen3.6-35B-A3B-NVFP4 --port &lt;span class=&#34;m&#34;&gt;8000&lt;/span&gt; --tensor-parallel-size &lt;span class=&#34;m&#34;&gt;1&lt;/span&gt; --trust-remote-code --dtype auto --quantization modelopt --kv-cache-dtype fp8 --attention-backend flashinfer --moe-backend marlin --gpu-memory-utilization 0.85 --max-model-len &lt;span class=&#34;m&#34;&gt;65536&lt;/span&gt; --max-num-seqs &lt;span class=&#34;m&#34;&gt;4&lt;/span&gt; --max-num-batched-tokens &lt;span class=&#34;m&#34;&gt;8192&lt;/span&gt; --enable-chunked-prefill --async-scheduling --enable-prefix-caching --speculative-config &lt;span class=&#34;s1&#34;&gt;&amp;#39;{&amp;#34;method&amp;#34;:&amp;#34;mtp&amp;#34;,&amp;#34;num_speculative_tokens&amp;#34;:3,&amp;#34;moe_backend&amp;#34;:&amp;#34;triton&amp;#34;}&amp;#39;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;这组参数更偏向实际部署调优：降低上下文到 65536，启用 FP8 KV cache、chunked prefill、prefix caching，并配置 speculative decoding。它不是所有机器都能直接复制使用，尤其是 &lt;code&gt;CUTE_DSL_ARCH=sm_121a&lt;/code&gt;、FlashInfer、MoE backend 等参数，都和具体 GPU、驱动、CUDA、vLLM 版本有关。&lt;/p&gt;
&lt;h2 id=&#34;评测结果怎么看&#34;&gt;评测结果怎么看
&lt;/h2&gt;&lt;p&gt;模型卡对比了 BF16 基线和 NVFP4 量化版本的结果：&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;Precision&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;MMLU Pro&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;GPQA Diamond&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;τ²-Bench Telecom&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;SciCode&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;AIME 2025&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;AA-LCR&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;IFBench&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;MMMU Pro&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;BF16&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;85.6&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;84.9&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;95.5&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;40.8&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;89.2&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;62.0&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;62.3&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;74.1&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;NVFP4&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;85.0&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;84.8&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;94.7&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;40.6&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;88.8&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;62.0&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;62.8&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;74.5&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;从表格看，NVFP4 相比 BF16 有小幅波动：部分指标略降，IFBench 和 MMMU Pro 反而略高。更稳妥的理解是：这个量化版本在这些公开评测上尽量接近 BF16，但部署前仍然需要用自己的业务数据测试。&lt;/p&gt;
&lt;p&gt;尤其是 Agent、RAG、代码生成、长上下文检索这类场景，公开 benchmark 只能给一个参考。真正上线前，还是要看：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;长上下文下是否稳定遵循指令；&lt;/li&gt;
&lt;li&gt;RAG 场景中是否会忽略引用材料；&lt;/li&gt;
&lt;li&gt;工具调用是否容易产生错误参数；&lt;/li&gt;
&lt;li&gt;中文、英文和多模态输入是否符合你的业务要求；&lt;/li&gt;
&lt;li&gt;低显存配置下吞吐和延迟是否能接受。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;适合哪些场景&#34;&gt;适合哪些场景
&lt;/h2&gt;&lt;p&gt;这个模型更适合已经准备使用 NVIDIA GPU 和 vLLM 做推理服务的团队。典型场景包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;本地或私有化聊天机器人；&lt;/li&gt;
&lt;li&gt;RAG 知识库问答；&lt;/li&gt;
&lt;li&gt;Agent 系统中的规划与工具调用；&lt;/li&gt;
&lt;li&gt;长文档阅读与摘要；&lt;/li&gt;
&lt;li&gt;需要更低显存占用的大模型推理测试；&lt;/li&gt;
&lt;li&gt;想比较 BF16 与 FP4 量化效果的部署团队。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果只是想在普通消费级显卡上随便跑一跑，要先确认显存、vLLM 版本和量化支持情况。预量化模型可以降低部署门槛，但不等于所有硬件都能无痛运行 262K 上下文。&lt;/p&gt;
&lt;h2 id=&#34;使用限制&#34;&gt;使用限制
&lt;/h2&gt;&lt;p&gt;模型卡中也提醒了常见限制：基础模型的训练数据来自互联网，可能包含有害内容和社会偏见，因此模型可能在某些提示下放大偏见、生成不准确内容、遗漏关键信息，或者输出不合适的文本。&lt;/p&gt;
&lt;p&gt;如果用于生产环境，建议至少增加几层保护：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;针对业务场景做安全评测；&lt;/li&gt;
&lt;li&gt;给 RAG 和工具调用增加结果校验；&lt;/li&gt;
&lt;li&gt;对高风险输出增加人工复核；&lt;/li&gt;
&lt;li&gt;记录推理版本、量化配置和 vLLM 参数；&lt;/li&gt;
&lt;li&gt;对重要任务保留回滚到其他模型或 BF16 版本的方案。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;小结&#34;&gt;小结
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;nvidia/Qwen3.6-35B-A3B-NVFP4&lt;/code&gt; 的价值在于：它把 Qwen3.6-35B-A3B 做成了一个可以直接面向 vLLM 部署的 NVIDIA 量化版本。NVFP4 降低了显存和磁盘压力，官方评测也显示它在多项指标上接近 BF16。&lt;/p&gt;
&lt;p&gt;但它仍然是一个需要工程验证的推理模型。真正部署前，不要只看 benchmark 分数，更要结合自己的硬件、上下文长度、RAG 数据、Agent 工具链和安全要求做测试。&lt;/p&gt;
&lt;p&gt;参考链接：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/nvidia/Qwen3.6-35B-A3B-NVFP4&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;nvidia/Qwen3.6-35B-A3B-NVFP4 - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://github.com/NVIDIA/Model-Optimizer&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;NVIDIA Model Optimizer&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/Qwen/Qwen3.6-35B-A3B&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Qwen/Qwen3.6-35B-A3B&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>Gemma 4 本地调用指南：从一键运行到开发集成</title>
        <link>https://knightli.com/2026/04/10/gemma4-local-runtime-options/</link>
        <pubDate>Fri, 10 Apr 2026 22:54:17 +0800</pubDate>
        
        <guid>https://knightli.com/2026/04/10/gemma4-local-runtime-options/</guid>
        <description>&lt;p&gt;如果你想在本地调用 Gemma 4（Google 2026 年发布的新一代开源模型），可以按需求从这四类方案里选。&lt;/p&gt;
&lt;h2 id=&#34;1-最快上手ollama推荐&#34;&gt;1) 最快上手：Ollama（推荐）
&lt;/h2&gt;&lt;p&gt;这是门槛最低的方式，适合快速测试、日常对话和本地 API 调用。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama run gemma4
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;特点：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Win/Mac/Linux 都可用&lt;/li&gt;
&lt;li&gt;自动处理硬件加速&lt;/li&gt;
&lt;li&gt;提供兼容 OpenAI 风格的本地 API&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;2-图形界面lm-studio--unsloth-studio&#34;&gt;2) 图形界面：LM Studio / Unsloth Studio
&lt;/h2&gt;&lt;p&gt;如果你更习惯桌面 GUI（类似 ChatGPT），这两类工具更顺手。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;LM Studio：可直接搜索和下载 Hugging Face 上的 Gemma 4 量化模型（如 4-bit、8-bit），并查看资源占用。&lt;/li&gt;
&lt;li&gt;Unsloth Studio：除了推理，也支持低显存微调。对 6GB-8GB 显存机器更友好。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;3-低配与极致控制llamacpp&#34;&gt;3) 低配与极致控制：llama.cpp
&lt;/h2&gt;&lt;p&gt;适合老机器、纯 CPU 场景，或希望深度控制推理参数的用户。&lt;/p&gt;
&lt;p&gt;你可以使用 &lt;code&gt;.gguf&lt;/code&gt; 模型文件配合量化版本，在更低硬件门槛下运行 Gemma 4。&lt;/p&gt;
&lt;h2 id=&#34;4-开发集成transformers--vllm&#34;&gt;4) 开发集成：Transformers / vLLM
&lt;/h2&gt;&lt;p&gt;如果你要把 Gemma 4 接进自己的应用：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Transformers：适合 Python 项目内直接加载模型&lt;/li&gt;
&lt;li&gt;vLLM：适合高性能 GPU 场景和高吞吐推理服务&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;快速选型&#34;&gt;快速选型
&lt;/h2&gt;&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;需求&lt;/th&gt;
          &lt;th&gt;推荐工具&lt;/th&gt;
          &lt;th&gt;硬件门槛&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;我只想马上跑起来&lt;/td&gt;
          &lt;td&gt;Ollama&lt;/td&gt;
          &lt;td&gt;低（自动适配）&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;我更喜欢图形界面&lt;/td&gt;
          &lt;td&gt;LM Studio&lt;/td&gt;
          &lt;td&gt;中&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;显存很紧张（6GB-8GB）&lt;/td&gt;
          &lt;td&gt;Unsloth / llama.cpp&lt;/td&gt;
          &lt;td&gt;低&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;我要做本地 AI 应用开发&lt;/td&gt;
          &lt;td&gt;Ollama / Transformers / vLLM&lt;/td&gt;
          &lt;td&gt;中到高&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;我要做微调训练&lt;/td&gt;
          &lt;td&gt;Unsloth Studio&lt;/td&gt;
          &lt;td&gt;中到高&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id=&#34;模型尺寸建议&#34;&gt;模型尺寸建议
&lt;/h2&gt;&lt;p&gt;Gemma 4 有多种尺寸（如 E2B、E4B、31B）。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;普通办公本优先选量化后的 E2B / E4B&lt;/li&gt;
&lt;li&gt;显存更充足时再尝试更大版本&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        
    </channel>
</rss>
