<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>智谱AI on KnightLi的博客</title>
        <link>https://knightli.com/tags/%E6%99%BA%E8%B0%B1ai/</link>
        <description>Recent content in 智谱AI on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <lastBuildDate>Thu, 18 Jun 2026 22:56:15 +0800</lastBuildDate><atom:link href="https://knightli.com/tags/%E6%99%BA%E8%B0%B1ai/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>GLM 5.2 开源：百万上下文、Agent 编程与本地部署门槛</title>
        <link>https://knightli.com/2026/06/18/glm-5-2-open-model-agent-coding/</link>
        <pubDate>Thu, 18 Jun 2026 22:56:15 +0800</pubDate>
        
        <guid>https://knightli.com/2026/06/18/glm-5-2-open-model-agent-coding/</guid>
        <description>&lt;p&gt;智谱 AI 正式开源了新的旗舰模型 GLM 5.2。&lt;/p&gt;
&lt;p&gt;一开始这个消息看起来并不稀奇。现在几乎每天都有新模型发布，宣传语也越来越夸张。但 GLM 5.2 的测试成绩确实值得单独拿出来看：它成为首个在 Terminal-Bench 中突破 80% 的开放权重模型，并且在 LiveBench 的 Agent coding 测试里进入第一梯队。&lt;/p&gt;
&lt;p&gt;这说明开源模型在 Agent 和编程方向的差距正在缩小。过去大家通常认为，最强 Agent 主要看 OpenAI，最强代码能力主要看 Anthropic，开源模型更多是在后面追赶。GLM 5.2 的出现，至少让这个判断变得没有那么绝对。&lt;/p&gt;
&lt;h2 id=&#34;百万-token-上下文&#34;&gt;百万 Token 上下文
&lt;/h2&gt;&lt;p&gt;GLM 5.2 这次最醒目的升级，是 100 万 Token 上下文。&lt;/p&gt;
&lt;p&gt;更关键的是，官方强调这是稳定运行的 100 万 Token 环境。很多模型都宣称支持长上下文，但真正把几十万字、复杂文档或大型代码库丢进去之后，前面的内容可能会逐渐被遗忘，或者回答开始漂移。&lt;/p&gt;
&lt;p&gt;GLM 5.2 重点优化的是长周期任务。它适合处理：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;一整本小说或长篇资料；&lt;/li&gt;
&lt;li&gt;大型项目代码库；&lt;/li&gt;
&lt;li&gt;多个文档库和知识库；&lt;/li&gt;
&lt;li&gt;需要连续工作很久的 Agent 任务。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这对未来的 AI 助手很重要。真正有价值的 Agent 不只是回答一个问题，而是能围绕一个目标连续执行、调试、修复、总结，甚至持续工作几个小时或几天。&lt;/p&gt;
&lt;h2 id=&#34;agent-能力是重点&#34;&gt;Agent 能力是重点
&lt;/h2&gt;&lt;p&gt;现在大模型竞争已经不只是聊天能力，而是谁更会完成任务。&lt;/p&gt;
&lt;p&gt;这次实测里，GLM 5.2 被用来生成多个前端和 3D 示例，包括 Minecraft 风格小游戏、清明上河图 3D 场景、机场飞行模拟、地铁 FPS、GTA 风格俯视城市，以及射箭网站官网。&lt;/p&gt;
&lt;p&gt;整体看，它在“从自然语言直接生成可运行项目”这件事上表现不错。生成出来的页面和游戏并不完美，但多数示例可以运行，有交互，有基础逻辑，也能根据报错继续修复。&lt;/p&gt;
&lt;h2 id=&#34;代码生成实测表现&#34;&gt;代码生成实测表现
&lt;/h2&gt;&lt;p&gt;第一个测试是生成一个高度还原 Minecraft 的小游戏。&lt;/p&gt;
&lt;p&gt;生成完成后，游戏可以正常运行：角色能够跳跃，可以删除方块，也能通过数字键切换不同方块。它不是完整游戏，但作为一次性生成的 Demo，基础交互已经具备。&lt;/p&gt;
&lt;p&gt;第二个测试是用 Three.js 做一个清明上河图 3D 场景。GLM 5.2 生成了汴河、虹桥、两岸建筑、柳树、船只、行人、城门楼、摊位等元素，并提供上一景、下一景、漫游等交互。&lt;/p&gt;
&lt;p&gt;这个 Demo 也暴露了一些问题。比如船的位置不合理，人物可能走进河里或穿墙，部分物体关系不够准确。但它能把场景结构、动态元素和交互逻辑搭起来，说明模型对复杂前端任务的完成度已经不低。&lt;/p&gt;
&lt;p&gt;和 DeepSeek、Gemini 的同类生成结果对比时，GLM 5.2 的动态效果和场景完整度更突出；Gemini 对整体场景和昼夜、雾气等功能的把握也不错，但 UI 风格和市井气质还有差距；DeepSeek 的结果更偏静态展示，动态人物和汴河核心元素较弱。&lt;/p&gt;
&lt;h2 id=&#34;飞行fps-和城市驾驶&#34;&gt;飞行、FPS 和城市驾驶
&lt;/h2&gt;&lt;p&gt;机场飞行模拟测试中，GLM 5.2 生成了带跑道、座舱显示、油门控制、视角切换和复位功能的飞行 Demo。通过键盘可以推油、起飞、转向和翻转，基础功能基本可用。&lt;/p&gt;
&lt;p&gt;地铁 FPS 的设定是 2049 年废弃隧道中的射击游戏。它生成了进入隧道、开火、音效和小地图等元素，但怪物和关卡推进并不完整，体验更像一个迷宫原型。&lt;/p&gt;
&lt;p&gt;GTA 风格俯视城市则一次生成了车辆、警车、碰撞和驾驶控制。它可以运行，但操控手感比较粗糙，车辆更像是在城市里失控乱跑。作为原型还可以，离真正可玩的游戏还有明显距离。&lt;/p&gt;
&lt;p&gt;这些测试共同说明一件事：GLM 5.2 已经能把复杂需求拆成可运行的前端项目，但模型生成的结果仍然需要人工检查、调参和修复。&lt;/p&gt;
&lt;h2 id=&#34;网站设计能力&#34;&gt;网站设计能力
&lt;/h2&gt;&lt;p&gt;除了游戏和 3D 场景，GLM 5.2 还被用来生成一个射箭网站官网。&lt;/p&gt;
&lt;p&gt;这个示例的完成度反而更高。模型自动生成了“瞄准本心，箭无虚发”这类文案，页面包含课程预约、训练介绍、套餐价格、报名支付方案和联系方式。视觉风格接近当前主流 AI 编程助手生成的网站，图文组织比较完整。&lt;/p&gt;
&lt;p&gt;从这类任务看，GLM 5.2 在 Landing Page、活动页、产品官网这类前端工作上已经具备较强实用性。只要需求描述清楚，它可以快速给出一个能继续修改的初版。&lt;/p&gt;
&lt;h2 id=&#34;本地部署并不轻松&#34;&gt;本地部署并不轻松
&lt;/h2&gt;&lt;p&gt;GLM 5.2 虽然是开放权重模型，但本地部署门槛很高。&lt;/p&gt;
&lt;p&gt;目前可选部署框架包括 SGLang、vLLM 和 Transformers。如果是部署集群 Agent，SGLang 更适合追求性能和吞吐；如果只是做常规推理，也可以考虑 vLLM、Transformers，或后续适配到 LM Studio、Ollama 等工具链。&lt;/p&gt;
&lt;p&gt;真正的问题在硬件。&lt;/p&gt;
&lt;p&gt;完整版模型体积接近 1TB。即使使用量化版，也往往是数百 GB 级别：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;FP8 精度大约 740GB 级别，通常需要 8 张 H200，或同等级多卡服务器；&lt;/li&gt;
&lt;li&gt;Q4_K_M 量化版大约 470GB 到 500GB，需要多张 80GB 显存 GPU 才能比较现实地运行；&lt;/li&gt;
&lt;li&gt;Q2 量化版最低也需要约 240GB 到 280GB 的显存或统一内存；&lt;/li&gt;
&lt;li&gt;更低量化版本依然可能需要 180GB 级别的显存资源。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这意味着普通消费级硬件基本不用考虑完整本地部署。即便使用 RTX 4090，也需要非常激进的内存、显存和推理方案，体验很难和云端 API 相比。&lt;/p&gt;
&lt;h2 id=&#34;企业更适合用-api&#34;&gt;企业更适合用 API
&lt;/h2&gt;&lt;p&gt;如果企业想部署满血版 GLM 5.2，整体投入可能是百万元级别。&lt;/p&gt;
&lt;p&gt;除非业务特别重视本地隐私、安全隔离和数据不出域，否则直接购买 API Key 往往更划算。现在模型迭代很快，今天刚投入高成本私有化，几周后可能又出现更强的新模型。对于多数团队来说，先用 API 验证业务价值，再决定是否私有化，会更稳妥。&lt;/p&gt;
&lt;h2 id=&#34;小结&#34;&gt;小结
&lt;/h2&gt;&lt;p&gt;GLM 5.2 的重点不只是参数规模，而是长上下文、Agent 编程和复杂任务执行。&lt;/p&gt;
&lt;p&gt;它在 Terminal-Bench 和 LiveBench Agent coding 上的表现，说明开放权重模型正在进入更强的工程实用阶段。实际生成游戏、3D 场景和网站时，它已经能完成不少可运行原型，但细节准确性、交互手感和复杂逻辑仍然需要人工接管。&lt;/p&gt;
&lt;p&gt;如果只是体验和开发应用，优先使用在线平台或 API 更现实。如果是企业级隐私、安全和内网场景，再考虑 SGLang、vLLM 等本地部署方案。&lt;/p&gt;
</description>
        </item>
        
    </channel>
</rss>
