GLM 5.2 開源：百萬上下文、Agent 編程與本地部署門檻

Thu, 18 Jun 2026 22:56:15 +0800

智譜 AI 正式開源了新的旗艦模型 GLM 5.2。

一開始這個消息看起來並不稀奇。現在幾乎每天都有新模型發布，宣傳語也越來越誇張。但 GLM 5.2 的測試成績確實值得單獨拿出來看：它成為首個在 Terminal-Bench 中突破 80% 的開放權重模型，並且在 LiveBench 的 Agent coding 測試裡進入第一梯隊。

這說明開源模型在 Agent 和編程方向的差距正在縮小。過去大家通常認為，最強 Agent 主要看 OpenAI，最強代碼能力主要看 Anthropic，開源模型更多是在後面追趕。GLM 5.2 的出現，至少讓這個判斷變得沒有那麼絕對。

百萬 Token 上下文

GLM 5.2 這次最醒目的升級，是 100 萬 Token 上下文。

更關鍵的是，官方強調這是穩定運行的 100 萬 Token 環境。很多模型都宣稱支援長上下文，但真正把幾十萬字、複雜文件或大型代碼庫丟進去之後，前面的內容可能會逐漸被遺忘，或者回答開始漂移。

GLM 5.2 重點優化的是長週期任務。它適合處理：

一整本小說或長篇資料；
大型專案代碼庫；
多個文件庫和知識庫；
需要連續工作很久的 Agent 任務。

這對未來的 AI 助手很重要。真正有價值的 Agent 不只是回答一個問題，而是能圍繞一個目標連續執行、除錯、修復、總結，甚至持續工作幾個小時或幾天。

Agent 能力是重點

現在大模型競爭已經不只是聊天能力，而是誰更會完成任務。

這次實測裡，GLM 5.2 被用來生成多個前端和 3D 示例，包括 Minecraft 風格小遊戲、清明上河圖 3D 場景、機場飛行模擬、地鐵 FPS、GTA 風格俯視城市，以及射箭網站官網。

整體看，它在「從自然語言直接生成可運行專案」這件事上表現不錯。生成出來的頁面和遊戲並不完美，但多數示例可以運行，有互動，有基礎邏輯，也能根據報錯繼續修復。

代碼生成實測表現

第一個測試是生成一個高度還原 Minecraft 的小遊戲。

生成完成後，遊戲可以正常運行：角色能夠跳躍，可以刪除方塊，也能透過數字鍵切換不同方塊。它不是完整遊戲，但作為一次性生成的 Demo，基礎互動已經具備。

第二個測試是用 Three.js 做一個清明上河圖 3D 場景。GLM 5.2 生成了汴河、虹橋、兩岸建築、柳樹、船隻、行人、城門樓、攤位等元素，並提供上一景、下一景、漫遊等互動。

這個 Demo 也暴露了一些問題。比如船的位置不合理，人物可能走進河裡或穿牆，部分物體關係不夠準確。但它能把場景結構、動態元素和互動邏輯搭起來，說明模型對複雜前端任務的完成度已經不低。

和 DeepSeek、Gemini 的同類生成結果對比時，GLM 5.2 的動態效果和場景完整度更突出；Gemini 對整體場景和晝夜、霧氣等功能的把握也不錯，但 UI 風格和市井氣質還有差距；DeepSeek 的結果更偏靜態展示，動態人物和汴河核心元素較弱。

飛行、FPS 和城市駕駛

機場飛行模擬測試中，GLM 5.2 生成了帶跑道、座艙顯示、油門控制、視角切換和復位功能的飛行 Demo。透過鍵盤可以推油、起飛、轉向和翻轉，基礎功能基本可用。

地鐵 FPS 的設定是 2049 年廢棄隧道中的射擊遊戲。它生成了進入隧道、開火、音效和小地圖等元素，但怪物和關卡推進並不完整，體驗更像一個迷宮原型。

GTA 風格俯視城市則一次生成了車輛、警車、碰撞和駕駛控制。它可以運行，但操控手感比較粗糙，車輛更像是在城市裡失控亂跑。作為原型還可以，離真正可玩的遊戲還有明顯距離。

這些測試共同說明一件事：GLM 5.2 已經能把複雜需求拆成可運行的前端專案，但模型生成的結果仍然需要人工檢查、調參和修復。

網站設計能力

除了遊戲和 3D 場景，GLM 5.2 還被用來生成一個射箭網站官網。

這個示例的完成度反而更高。模型自動生成了「瞄準本心，箭無虛發」這類文案，頁面包含課程預約、訓練介紹、套餐價格、報名支付方案和聯絡方式。視覺風格接近當前主流 AI 編程助手生成的網站，圖文組織比較完整。

從這類任務看，GLM 5.2 在 Landing Page、活動頁、產品官網這類前端工作上已經具備較強實用性。只要需求描述清楚，它可以快速給出一個能繼續修改的初版。

本地部署並不輕鬆

GLM 5.2 雖然是開放權重模型，但本地部署門檻很高。

目前可選部署框架包括 SGLang、vLLM 和 Transformers。如果是部署叢集 Agent，SGLang 更適合追求性能和吞吐；如果只是做常規推理，也可以考慮 vLLM、Transformers，或後續適配到 LM Studio、Ollama 等工具鏈。

真正的問題在硬體。

完整版模型體積接近 1TB。即使使用量化版，也往往是數百 GB 級別：

FP8 精度大約 740GB 級別，通常需要 8 張 H200，或同等級多卡伺服器；
Q4_K_M 量化版大約 470GB 到 500GB，需要多張 80GB 顯存 GPU 才能比較現實地運行；
Q2 量化版最低也需要約 240GB 到 280GB 的顯存或統一記憶體；
更低量化版本依然可能需要 180GB 級別的顯存資源。

這意味著普通消費級硬體基本不用考慮完整本地部署。即便使用 RTX 4090，也需要非常激進的記憶體、顯存和推理方案，體驗很難和雲端 API 相比。

企業更適合用 API

如果企業想部署滿血版 GLM 5.2，整體投入可能是百萬元級別。

除非業務特別重視本地隱私、安全隔離和資料不出域，否則直接購買 API Key 往往更划算。現在模型迭代很快，今天剛投入高成本私有化，幾週後可能又出現更強的新模型。對於多數團隊來說，先用 API 驗證業務價值，再決定是否私有化，會更穩妥。

小結

GLM 5.2 的重點不只是參數規模，而是長上下文、Agent 編程和複雜任務執行。

它在 Terminal-Bench 和 LiveBench Agent coding 上的表現，說明開放權重模型正在進入更強的工程實用階段。實際生成遊戲、3D 場景和網站時，它已經能完成不少可運行原型，但細節準確性、互動手感和複雜邏輯仍然需要人工接管。

如果只是體驗和開發應用，優先使用線上平台或 API 更現實。如果是企業級隱私、安全和內網場景，再考慮 SGLang、vLLM 等本地部署方案。

GLM on KnightLi的博客