智谱 AI 正式开源了新的旗舰模型 GLM 5.2。
一开始这个消息看起来并不稀奇。现在几乎每天都有新模型发布,宣传语也越来越夸张。但 GLM 5.2 的测试成绩确实值得单独拿出来看:它成为首个在 Terminal-Bench 中突破 80% 的开放权重模型,并且在 LiveBench 的 Agent coding 测试里进入第一梯队。
这说明开源模型在 Agent 和编程方向的差距正在缩小。过去大家通常认为,最强 Agent 主要看 OpenAI,最强代码能力主要看 Anthropic,开源模型更多是在后面追赶。GLM 5.2 的出现,至少让这个判断变得没有那么绝对。
百万 Token 上下文
GLM 5.2 这次最醒目的升级,是 100 万 Token 上下文。
更关键的是,官方强调这是稳定运行的 100 万 Token 环境。很多模型都宣称支持长上下文,但真正把几十万字、复杂文档或大型代码库丢进去之后,前面的内容可能会逐渐被遗忘,或者回答开始漂移。
GLM 5.2 重点优化的是长周期任务。它适合处理:
- 一整本小说或长篇资料;
- 大型项目代码库;
- 多个文档库和知识库;
- 需要连续工作很久的 Agent 任务。
这对未来的 AI 助手很重要。真正有价值的 Agent 不只是回答一个问题,而是能围绕一个目标连续执行、调试、修复、总结,甚至持续工作几个小时或几天。
Agent 能力是重点
现在大模型竞争已经不只是聊天能力,而是谁更会完成任务。
这次实测里,GLM 5.2 被用来生成多个前端和 3D 示例,包括 Minecraft 风格小游戏、清明上河图 3D 场景、机场飞行模拟、地铁 FPS、GTA 风格俯视城市,以及射箭网站官网。
整体看,它在“从自然语言直接生成可运行项目”这件事上表现不错。生成出来的页面和游戏并不完美,但多数示例可以运行,有交互,有基础逻辑,也能根据报错继续修复。
代码生成实测表现
第一个测试是生成一个高度还原 Minecraft 的小游戏。
生成完成后,游戏可以正常运行:角色能够跳跃,可以删除方块,也能通过数字键切换不同方块。它不是完整游戏,但作为一次性生成的 Demo,基础交互已经具备。
第二个测试是用 Three.js 做一个清明上河图 3D 场景。GLM 5.2 生成了汴河、虹桥、两岸建筑、柳树、船只、行人、城门楼、摊位等元素,并提供上一景、下一景、漫游等交互。
这个 Demo 也暴露了一些问题。比如船的位置不合理,人物可能走进河里或穿墙,部分物体关系不够准确。但它能把场景结构、动态元素和交互逻辑搭起来,说明模型对复杂前端任务的完成度已经不低。
和 DeepSeek、Gemini 的同类生成结果对比时,GLM 5.2 的动态效果和场景完整度更突出;Gemini 对整体场景和昼夜、雾气等功能的把握也不错,但 UI 风格和市井气质还有差距;DeepSeek 的结果更偏静态展示,动态人物和汴河核心元素较弱。
飞行、FPS 和城市驾驶
机场飞行模拟测试中,GLM 5.2 生成了带跑道、座舱显示、油门控制、视角切换和复位功能的飞行 Demo。通过键盘可以推油、起飞、转向和翻转,基础功能基本可用。
地铁 FPS 的设定是 2049 年废弃隧道中的射击游戏。它生成了进入隧道、开火、音效和小地图等元素,但怪物和关卡推进并不完整,体验更像一个迷宫原型。
GTA 风格俯视城市则一次生成了车辆、警车、碰撞和驾驶控制。它可以运行,但操控手感比较粗糙,车辆更像是在城市里失控乱跑。作为原型还可以,离真正可玩的游戏还有明显距离。
这些测试共同说明一件事:GLM 5.2 已经能把复杂需求拆成可运行的前端项目,但模型生成的结果仍然需要人工检查、调参和修复。
网站设计能力
除了游戏和 3D 场景,GLM 5.2 还被用来生成一个射箭网站官网。
这个示例的完成度反而更高。模型自动生成了“瞄准本心,箭无虚发”这类文案,页面包含课程预约、训练介绍、套餐价格、报名支付方案和联系方式。视觉风格接近当前主流 AI 编程助手生成的网站,图文组织比较完整。
从这类任务看,GLM 5.2 在 Landing Page、活动页、产品官网这类前端工作上已经具备较强实用性。只要需求描述清楚,它可以快速给出一个能继续修改的初版。
本地部署并不轻松
GLM 5.2 虽然是开放权重模型,但本地部署门槛很高。
目前可选部署框架包括 SGLang、vLLM 和 Transformers。如果是部署集群 Agent,SGLang 更适合追求性能和吞吐;如果只是做常规推理,也可以考虑 vLLM、Transformers,或后续适配到 LM Studio、Ollama 等工具链。
真正的问题在硬件。
完整版模型体积接近 1TB。即使使用量化版,也往往是数百 GB 级别:
- FP8 精度大约 740GB 级别,通常需要 8 张 H200,或同等级多卡服务器;
- Q4_K_M 量化版大约 470GB 到 500GB,需要多张 80GB 显存 GPU 才能比较现实地运行;
- Q2 量化版最低也需要约 240GB 到 280GB 的显存或统一内存;
- 更低量化版本依然可能需要 180GB 级别的显存资源。
这意味着普通消费级硬件基本不用考虑完整本地部署。即便使用 RTX 4090,也需要非常激进的内存、显存和推理方案,体验很难和云端 API 相比。
企业更适合用 API
如果企业想部署满血版 GLM 5.2,整体投入可能是百万元级别。
除非业务特别重视本地隐私、安全隔离和数据不出域,否则直接购买 API Key 往往更划算。现在模型迭代很快,今天刚投入高成本私有化,几周后可能又出现更强的新模型。对于多数团队来说,先用 API 验证业务价值,再决定是否私有化,会更稳妥。
小结
GLM 5.2 的重点不只是参数规模,而是长上下文、Agent 编程和复杂任务执行。
它在 Terminal-Bench 和 LiveBench Agent coding 上的表现,说明开放权重模型正在进入更强的工程实用阶段。实际生成游戏、3D 场景和网站时,它已经能完成不少可运行原型,但细节准确性、交互手感和复杂逻辑仍然需要人工接管。
如果只是体验和开发应用,优先使用在线平台或 API 更现实。如果是企业级隐私、安全和内网场景,再考虑 SGLang、vLLM 等本地部署方案。