<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>Google DeepMind on KnightLi的博客</title>
        <link>https://knightli.com/tags/google-deepmind/</link>
        <description>Recent content in Google DeepMind on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <lastBuildDate>Fri, 05 Jun 2026 21:06:59 +0800</lastBuildDate><atom:link href="https://knightli.com/tags/google-deepmind/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>Gemma 4 12B 能在本地跑吗？16GB 电脑试用与上手思路</title>
        <link>https://knightli.com/2026/06/05/gemma-4-12b-local-multimodal-agent-model/</link>
        <pubDate>Fri, 05 Jun 2026 21:06:59 +0800</pubDate>
        
        <guid>https://knightli.com/2026/06/05/gemma-4-12b-local-multimodal-agent-model/</guid>
        <description>&lt;p&gt;Google 在 2026 年 6 月 3 日发布了 &lt;code&gt;Gemma 4 12B&lt;/code&gt;。这是 Gemma 4 系列里的中型多模态开放模型，定位介于更轻量的 E4B 和更大的 26B MoE 模型之间，目标是把多模态理解、推理和 Agent 工作流带到普通笔记本与本地开发环境里。&lt;/p&gt;
&lt;p&gt;如果只问一句人话版结论：Gemma 4 12B 值得本地大模型玩家和开发者试，但不要把“16GB 能跑”理解成“所有 16GB 电脑都能流畅跑”。它更像是一个能在合适硬件上做本地多模态实验的模型，而不是马上替代 Gemini、GPT 或 Claude 的万能助手。&lt;/p&gt;
&lt;h2 id=&#34;这次发布的核心信息&#34;&gt;这次发布的核心信息
&lt;/h2&gt;&lt;p&gt;从官方介绍看，Gemma 4 12B 的重点可以概括为几件事：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;采用统一的 encoder-free 多模态架构，视觉和音频输入直接进入 LLM backbone；&lt;/li&gt;
&lt;li&gt;性能接近更大的 26B MoE 模型，但内存占用小得多；&lt;/li&gt;
&lt;li&gt;目标是在 16GB VRAM 或统一内存设备上本地运行；&lt;/li&gt;
&lt;li&gt;使用 Apache 2.0 许可证发布，方便开发者集成和二次开发；&lt;/li&gt;
&lt;li&gt;配套 Multi-Token Prediction，也就是 &lt;code&gt;MTP&lt;/code&gt; drafter，用来降低生成延迟；&lt;/li&gt;
&lt;li&gt;支持 LM Studio、Ollama、Google AI Edge Gallery、LiteRT-LM、Hugging Face、Kaggle、llama.cpp、MLX、SGLang、vLLM、Unsloth 等工具链。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果你关注本地大模型，Gemma 4 12B 的意义在于：它不是只为聊天准备的小模型，而是试图把视觉、音频、代码和 Agent 工具调用放进一个可以在消费级设备上跑起来的中型模型里。&lt;/p&gt;
&lt;h2 id=&#34;encoder-free-多模态架构是什么意思&#34;&gt;Encoder-free 多模态架构是什么意思
&lt;/h2&gt;&lt;p&gt;传统多模态模型通常会给图像和音频准备独立 encoder。图像先经过视觉 encoder，音频先经过音频 encoder，再把转换后的表示交给语言模型。这样做成熟，但会带来额外延迟、更多参数和更复杂的显存占用。&lt;/p&gt;
&lt;p&gt;Gemma 4 12B 的做法更直接：减少甚至移除这些独立 encoder，让视觉和音频输入尽量直接进入同一个 LLM backbone。&lt;/p&gt;
&lt;p&gt;官方 Developer Guide 给了两个关键细节：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;视觉部分用一个约 &lt;code&gt;35M&lt;/code&gt; 参数的轻量 embedder 取代传统中型 Gemma 4 模型里的多层视觉 transformer。原始 &lt;code&gt;48x48&lt;/code&gt; 图像 patch 会通过一次矩阵乘法投到 LLM hidden dimension，并用坐标查找方式加入空间位置信息；&lt;/li&gt;
&lt;li&gt;音频部分移除单独的 audio encoder，把 &lt;code&gt;16 kHz&lt;/code&gt; 原始音频切成 &lt;code&gt;40ms&lt;/code&gt; frame，每个 frame 线性投影到 LLM 输入空间。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这套设计的目标很清楚：少一点外置模块，多一点统一处理。对开发者来说，潜在好处包括更低的多模态延迟、更紧凑的内存 footprint，以及微调时不用分别照顾一堆冻结的视觉或音频 encoder。&lt;/p&gt;
&lt;h2 id=&#34;为什么-12b-这个尺寸重要&#34;&gt;为什么 12B 这个尺寸重要
&lt;/h2&gt;&lt;p&gt;Gemma 4 12B 填的是一个很实际的空位。&lt;/p&gt;
&lt;p&gt;太小的边缘模型适合移动设备和轻任务，但在复杂推理、代码、长链路 Agent 上经常不够稳。太大的模型能力更强，但本地部署成本上升，很难在普通笔记本上轻松跑起来。&lt;/p&gt;
&lt;p&gt;12B dense 模型的价值在于折中：它比 E2B、E4B 更有推理和多模态任务空间，又不像 26B MoE 或更大模型那样对硬件要求过高。Google 官方强调，它可以在 16GB VRAM 或统一内存设备上本地运行，这直接把目标用户指向了开发者笔记本、Apple Silicon 设备和带独显的工作站。&lt;/p&gt;
&lt;p&gt;这也是它和 Agent 场景绑定的原因。Agent 不只是生成一句回答，而是会持续读取输入、调用工具、写代码、检查结果、再继续修正。模型如果必须全程依赖云端，延迟、隐私、成本和可控性都会变成问题；如果能在本地完成相当一部分多模态推理，开发体验会完全不同。&lt;/p&gt;
&lt;h2 id=&#34;我的电脑能跑-gemma-4-12b-吗&#34;&gt;我的电脑能跑 Gemma 4 12B 吗
&lt;/h2&gt;&lt;p&gt;先看官方说法：Gemma 4 12B 的目标是可以在 &lt;code&gt;16GB VRAM&lt;/code&gt; 或 &lt;code&gt;16GB unified memory&lt;/code&gt; 的设备上本地运行。这里的关键词是 VRAM 或统一内存，不是 Windows 任务管理器里看到的普通 16GB 系统内存。&lt;/p&gt;
&lt;p&gt;大致可以这样判断：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;如果你有 16GB 显存的 NVIDIA 显卡，或者 16GB 以上统一内存的 Apple Silicon Mac，属于比较适合尝试的范围；&lt;/li&gt;
&lt;li&gt;如果是 8GB 显存独显，可能要依赖更激进的量化，速度、上下文长度和多模态输入规模都要打折；&lt;/li&gt;
&lt;li&gt;如果只有普通核显和 16GB 系统内存，能不能跑要看具体工具和量化版本，即使能加载，体验也可能偏慢；&lt;/li&gt;
&lt;li&gt;如果内存小于 16GB，就不要期待它成为日常主力模型，更适合试 E2B、E4B 这类更小的模型。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这里还要补一句：本地模型“能跑”和“好用”是两件事。纯文本聊天、短代码问答、单图理解，压力相对小；长上下文、多图、视频、长音频、Agent 连续执行，都会明显吃内存和时间。&lt;/p&gt;
&lt;h2 id=&#34;最简单的试用方式&#34;&gt;最简单的试用方式
&lt;/h2&gt;&lt;p&gt;如果你只是想先感受一下，不建议一上来就折腾一整套推理服务。可以按门槛从低到高选择：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;LM Studio：适合不想写命令的新手，界面化下载和聊天，适合快速判断模型是否合胃口；&lt;/li&gt;
&lt;li&gt;Ollama：适合习惯命令行的人，拉模型、启动、本地 API 都比较顺手；&lt;/li&gt;
&lt;li&gt;Google AI Edge Gallery：适合想体验 Google 官方本地多模态 demo 的用户，尤其是 Apple Silicon 设备；&lt;/li&gt;
&lt;li&gt;LiteRT-LM CLI：适合开发者，把模型跑成本地 OpenAI-compatible API server，方便接 Continue、Aider、OpenCode 这类工具。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果目的是“先玩起来”，优先 LM Studio 或 Ollama。如果目的是“接到自己的代码助手或 Agent 工具里”，再看 LiteRT-LM、llama.cpp、MLX、vLLM 这些路线。&lt;/p&gt;
&lt;h2 id=&#34;本地运行和云端模型有什么区别&#34;&gt;本地运行和云端模型有什么区别
&lt;/h2&gt;&lt;p&gt;本地模型最大的好处是数据不必离开自己的机器。你拿它处理本地代码、截图、音频、私有文档时，心理负担会小很多。它也没有按 token 计费的问题，跑得越多，边际成本越低。&lt;/p&gt;
&lt;p&gt;但云端模型也有现实优势：通常能力更强、上下文更大、工具生态更成熟，遇到复杂推理、多轮规划、中文写作或高可靠任务时，Gemini、GPT、Claude 这类云端大模型仍然更稳。&lt;/p&gt;
&lt;p&gt;所以更实际的用法不是二选一，而是分工：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;私有资料、离线场景、低延迟交互，优先本地模型；&lt;/li&gt;
&lt;li&gt;复杂写作、困难代码修改、长文档推理、需要更强中文能力的任务，继续用云端大模型；&lt;/li&gt;
&lt;li&gt;能自动执行命令或修改文件的 Agent 场景，不管本地还是云端，都要加权限限制和人工确认。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;适合拿来做什么&#34;&gt;适合拿来做什么
&lt;/h2&gt;&lt;p&gt;官方提到的能力覆盖了几个方向：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;自动语音识别；&lt;/li&gt;
&lt;li&gt;说话人分离和音频理解；&lt;/li&gt;
&lt;li&gt;视频理解；&lt;/li&gt;
&lt;li&gt;图像理解；&lt;/li&gt;
&lt;li&gt;多步推理；&lt;/li&gt;
&lt;li&gt;编码任务；&lt;/li&gt;
&lt;li&gt;Agent 工作流。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Developer Guide 里还展示了两个更具体的例子。&lt;/p&gt;
&lt;p&gt;第一个是让 Gemma 4 12B 在本地通过 llama.cpp 和 gemma-skills，配合 OpenCode 这类 agent harness，写出一个用于图像处理的 Gradio 应用。这个例子有点绕，但意思很直接：同一个模型既能作为 Agent 写应用，也能作为应用背后的多模态模型。&lt;/p&gt;
&lt;p&gt;第二个例子是分析一段 5 分钟视频：按 &lt;code&gt;1 FPS&lt;/code&gt; 抽取 &lt;code&gt;313&lt;/code&gt; 帧，再加入视频音频和提示词，让模型解释画面中的行为。这个场景能说明 Gemma 4 12B 不只是单张图像理解，而是面向“图像序列 + 音频 + 文本问题”的组合输入。&lt;/p&gt;
&lt;p&gt;换成更日常的说法，它比较适合拿来试这些事：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;本地代码助手：读项目、解释代码、生成脚本、配合 Continue 或 Aider 做轻量修改；&lt;/li&gt;
&lt;li&gt;图片问答：看截图、图表、界面、简单图片内容；&lt;/li&gt;
&lt;li&gt;音频转写和理解：处理会议片段、语音输入、简单音频总结；&lt;/li&gt;
&lt;li&gt;轻量视频理解：短视频抽帧分析，而不是无限长视频精读；&lt;/li&gt;
&lt;li&gt;私有资料分析：在本地处理不方便上传的文档、图片和内部材料。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;本地开发工具链&#34;&gt;本地开发工具链
&lt;/h2&gt;&lt;p&gt;Google 这次没有只发布权重，也同步强调了本地开发工具链。&lt;/p&gt;
&lt;p&gt;如果只是试用，可以从这些入口开始：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;LM Studio；&lt;/li&gt;
&lt;li&gt;Ollama；&lt;/li&gt;
&lt;li&gt;Google AI Edge Gallery App；&lt;/li&gt;
&lt;li&gt;Google AI Edge Eloquent；&lt;/li&gt;
&lt;li&gt;LiteRT-LM CLI。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果要下载权重，官方提供 Hugging Face 和 Kaggle。推理和集成可以走 Hugging Face Transformers、llama.cpp、MLX、SGLang、vLLM；微调可以用 Unsloth。&lt;/p&gt;
&lt;p&gt;对本地 Agent 开发来说，比较有意思的是 LiteRT-LM。官方 Developer Guide 提到，可以用 &lt;code&gt;litert-lm serve&lt;/code&gt; 把 Gemma 4 12B 作为本地 OpenAI-compatible API server 跑起来，这样 Continue、Aider、OpenCode 等工具更容易接入。&lt;/p&gt;
&lt;p&gt;示例命令如下：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;litert-lm import --from-huggingface-repo&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;litert-community/gemma-4-12B-it-litert-lm gemma-4-12B-it.litertlm gemma4-12b
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;litert-lm serve
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;这个方向很值得关注。因为现在很多开发者工具已经围绕 OpenAI 风格 API 组织接口，如果本地模型能提供兼容服务，就可以把已有编辑器插件、代码 Agent 和自动化脚本接到本地推理后端上。&lt;/p&gt;
&lt;h2 id=&#34;mtp-drafter-的作用&#34;&gt;MTP drafter 的作用
&lt;/h2&gt;&lt;p&gt;Gemma 4 12B 还配套了 Multi-Token Prediction，也就是 &lt;code&gt;MTP&lt;/code&gt; drafter。简单理解，它不是只预测下一个 token，而是尝试提前草拟多个后续 token，从而减少等待时间。&lt;/p&gt;
&lt;p&gt;对本地模型来说，延迟体验很关键。尤其在代码补全、对话式编辑、语音交互和 Agent 工具调用里，模型能力强但响应慢，用户体验仍然会被拖垮。MTP 的意义就在于让 12B 级别模型在本地设备上更接近“可实时交互”的状态。&lt;/p&gt;
&lt;p&gt;当然，实际速度还会受到量化方式、推理框架、硬件带宽、上下文长度和批处理策略影响。MTP 不是万能加速按钮，但它说明 Google 在把 Gemma 4 12B 当作真实本地应用模型来设计，而不是只发布一个 benchmark 模型。&lt;/p&gt;
&lt;h2 id=&#34;对开发者的实际意义&#34;&gt;对开发者的实际意义
&lt;/h2&gt;&lt;p&gt;Gemma 4 12B 比较适合三类开发者优先尝试。&lt;/p&gt;
&lt;p&gt;第一类是做本地 AI 工具的人。比如本地代码助手、知识库、桌面自动化、图像分析和轻量视频理解。如果你不想把所有输入都发到云端，这类模型会很有吸引力。&lt;/p&gt;
&lt;p&gt;第二类是做边缘或私有部署的人。12B 模型仍然不算小，但和更大的多模态模型相比，部署门槛明显低一些。对于小团队、实验室或企业内网应用，它可能是一个更现实的多模态基座。&lt;/p&gt;
&lt;p&gt;第三类是研究 Agent 工具链的人。Google 同时发布 Gemma Skills Repository，说明它希望开发者不只是调用模型，而是让 Agent 利用技能库、工具和本地运行环境完成任务。&lt;/p&gt;
&lt;h2 id=&#34;不适合期待什么&#34;&gt;不适合期待什么
&lt;/h2&gt;&lt;p&gt;Gemma 4 12B 很有意思，但也不应该被理解成“本地模型已经全面替代云端大模型”。&lt;/p&gt;
&lt;p&gt;首先，16GB VRAM 或统一内存只是进入门槛，真实体验还取决于量化、上下文长度、输入模态和推理框架。特别是长视频、多图、长音频这类任务，很容易把内存和延迟推高。&lt;/p&gt;
&lt;p&gt;其次，官方说性能接近 26B MoE，是在标准 benchmark 和官方测试语境下的表述。实际到你的任务里，代码质量、中文能力、工具调用稳定性、多轮上下文保持能力，都需要自己测。&lt;/p&gt;
&lt;p&gt;最后，开放权重和 Apache 2.0 许可证降低了使用门槛，但不等于可以不做安全评估。只要模型进入自动化工作流，尤其是能读写文件、执行代码或操作系统，就需要权限隔离、日志审计和人工确认。&lt;/p&gt;
&lt;p&gt;简单说，不要期待它马上做到这些事：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;全面替代 Gemini、GPT、Claude；&lt;/li&gt;
&lt;li&gt;在小内存机器上流畅处理长视频和大量图片；&lt;/li&gt;
&lt;li&gt;中文写作、中文知识问答天然强于云端大模型；&lt;/li&gt;
&lt;li&gt;多轮复杂 Agent 任务一次跑到底不出错；&lt;/li&gt;
&lt;li&gt;不做权限隔离就安全执行本地命令。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;小结&#34;&gt;小结
&lt;/h2&gt;&lt;p&gt;Gemma 4 12B 的看点在于，它把本地可运行、中型 dense、多模态输入、encoder-free 架构和 Agent 工具链放到了一起。它不像最小的边缘模型那样只强调轻量，也不像大型云端模型那样把能力建立在高成本推理上。&lt;/p&gt;
&lt;p&gt;对开发者来说，这更像是一个“本地多模态 Agent 基座”的候选项：可以在笔记本上试，可以用现有工具链接入，也可以继续走 Hugging Face、llama.cpp、MLX、vLLM 或 LiteRT-LM 这些生态路线。&lt;/p&gt;
&lt;p&gt;如果你已经在做本地代码助手、桌面 Agent、私有多模态分析或边缘 AI 应用，Gemma 4 12B 值得单独拉出来测试一轮。&lt;/p&gt;
&lt;h2 id=&#34;参考来源&#34;&gt;参考来源
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Introducing Gemma 4 12B: a unified, encoder-free multimodal model&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://developers.googleblog.com/gemma-4-12b-the-developer-guide/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Gemma 4 12B: The Developer Guide&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        
    </channel>
</rss>
