GLM 5.2 开源：百万上下文、Agent 编程与本地部署门槛

Thu, 18 Jun 2026 22:56:15 +0800

智谱 AI 正式开源了新的旗舰模型 GLM 5.2。

一开始这个消息看起来并不稀奇。现在几乎每天都有新模型发布，宣传语也越来越夸张。但 GLM 5.2 的测试成绩确实值得单独拿出来看：它成为首个在 Terminal-Bench 中突破 80% 的开放权重模型，并且在 LiveBench 的 Agent coding 测试里进入第一梯队。

这说明开源模型在 Agent 和编程方向的差距正在缩小。过去大家通常认为，最强 Agent 主要看 OpenAI，最强代码能力主要看 Anthropic，开源模型更多是在后面追赶。GLM 5.2 的出现，至少让这个判断变得没有那么绝对。

百万 Token 上下文

GLM 5.2 这次最醒目的升级，是 100 万 Token 上下文。

更关键的是，官方强调这是稳定运行的 100 万 Token 环境。很多模型都宣称支持长上下文，但真正把几十万字、复杂文档或大型代码库丢进去之后，前面的内容可能会逐渐被遗忘，或者回答开始漂移。

GLM 5.2 重点优化的是长周期任务。它适合处理：

一整本小说或长篇资料；
大型项目代码库；
多个文档库和知识库；
需要连续工作很久的 Agent 任务。

这对未来的 AI 助手很重要。真正有价值的 Agent 不只是回答一个问题，而是能围绕一个目标连续执行、调试、修复、总结，甚至持续工作几个小时或几天。

Agent 能力是重点

现在大模型竞争已经不只是聊天能力，而是谁更会完成任务。

这次实测里，GLM 5.2 被用来生成多个前端和 3D 示例，包括 Minecraft 风格小游戏、清明上河图 3D 场景、机场飞行模拟、地铁 FPS、GTA 风格俯视城市，以及射箭网站官网。

整体看，它在“从自然语言直接生成可运行项目”这件事上表现不错。生成出来的页面和游戏并不完美，但多数示例可以运行，有交互，有基础逻辑，也能根据报错继续修复。

代码生成实测表现

第一个测试是生成一个高度还原 Minecraft 的小游戏。

生成完成后，游戏可以正常运行：角色能够跳跃，可以删除方块，也能通过数字键切换不同方块。它不是完整游戏，但作为一次性生成的 Demo，基础交互已经具备。

第二个测试是用 Three.js 做一个清明上河图 3D 场景。GLM 5.2 生成了汴河、虹桥、两岸建筑、柳树、船只、行人、城门楼、摊位等元素，并提供上一景、下一景、漫游等交互。

这个 Demo 也暴露了一些问题。比如船的位置不合理，人物可能走进河里或穿墙，部分物体关系不够准确。但它能把场景结构、动态元素和交互逻辑搭起来，说明模型对复杂前端任务的完成度已经不低。

和 DeepSeek、Gemini 的同类生成结果对比时，GLM 5.2 的动态效果和场景完整度更突出；Gemini 对整体场景和昼夜、雾气等功能的把握也不错，但 UI 风格和市井气质还有差距；DeepSeek 的结果更偏静态展示，动态人物和汴河核心元素较弱。

飞行、FPS 和城市驾驶

机场飞行模拟测试中，GLM 5.2 生成了带跑道、座舱显示、油门控制、视角切换和复位功能的飞行 Demo。通过键盘可以推油、起飞、转向和翻转，基础功能基本可用。

地铁 FPS 的设定是 2049 年废弃隧道中的射击游戏。它生成了进入隧道、开火、音效和小地图等元素，但怪物和关卡推进并不完整，体验更像一个迷宫原型。

GTA 风格俯视城市则一次生成了车辆、警车、碰撞和驾驶控制。它可以运行，但操控手感比较粗糙，车辆更像是在城市里失控乱跑。作为原型还可以，离真正可玩的游戏还有明显距离。

这些测试共同说明一件事：GLM 5.2 已经能把复杂需求拆成可运行的前端项目，但模型生成的结果仍然需要人工检查、调参和修复。

网站设计能力

除了游戏和 3D 场景，GLM 5.2 还被用来生成一个射箭网站官网。

这个示例的完成度反而更高。模型自动生成了“瞄准本心，箭无虚发”这类文案，页面包含课程预约、训练介绍、套餐价格、报名支付方案和联系方式。视觉风格接近当前主流 AI 编程助手生成的网站，图文组织比较完整。

从这类任务看，GLM 5.2 在 Landing Page、活动页、产品官网这类前端工作上已经具备较强实用性。只要需求描述清楚，它可以快速给出一个能继续修改的初版。

本地部署并不轻松

GLM 5.2 虽然是开放权重模型，但本地部署门槛很高。

目前可选部署框架包括 SGLang、vLLM 和 Transformers。如果是部署集群 Agent，SGLang 更适合追求性能和吞吐；如果只是做常规推理，也可以考虑 vLLM、Transformers，或后续适配到 LM Studio、Ollama 等工具链。

真正的问题在硬件。

完整版模型体积接近 1TB。即使使用量化版，也往往是数百 GB 级别：

FP8 精度大约 740GB 级别，通常需要 8 张 H200，或同等级多卡服务器；
Q4_K_M 量化版大约 470GB 到 500GB，需要多张 80GB 显存 GPU 才能比较现实地运行；
Q2 量化版最低也需要约 240GB 到 280GB 的显存或统一内存；
更低量化版本依然可能需要 180GB 级别的显存资源。

这意味着普通消费级硬件基本不用考虑完整本地部署。即便使用 RTX 4090，也需要非常激进的内存、显存和推理方案，体验很难和云端 API 相比。

企业更适合用 API

如果企业想部署满血版 GLM 5.2，整体投入可能是百万元级别。

除非业务特别重视本地隐私、安全隔离和数据不出域，否则直接购买 API Key 往往更划算。现在模型迭代很快，今天刚投入高成本私有化，几周后可能又出现更强的新模型。对于多数团队来说，先用 API 验证业务价值，再决定是否私有化，会更稳妥。

小结

GLM 5.2 的重点不只是参数规模，而是长上下文、Agent 编程和复杂任务执行。

它在 Terminal-Bench 和 LiveBench Agent coding 上的表现，说明开放权重模型正在进入更强的工程实用阶段。实际生成游戏、3D 场景和网站时，它已经能完成不少可运行原型，但细节准确性、交互手感和复杂逻辑仍然需要人工接管。

如果只是体验和开发应用，优先使用在线平台或 API 更现实。如果是企业级隐私、安全和内网场景，再考虑 SGLang、vLLM 等本地部署方案。

智谱AI on KnightLi的博客