GLM 5.2 開源:百萬上下文、Agent 編程與本地部署門檻

整理 GLM 5.2 的主要亮點、Agent 編程實測、長上下文能力,以及本地部署時需要面對的硬體成本。

智譜 AI 正式開源了新的旗艦模型 GLM 5.2。

一開始這個消息看起來並不稀奇。現在幾乎每天都有新模型發布,宣傳語也越來越誇張。但 GLM 5.2 的測試成績確實值得單獨拿出來看:它成為首個在 Terminal-Bench 中突破 80% 的開放權重模型,並且在 LiveBench 的 Agent coding 測試裡進入第一梯隊。

這說明開源模型在 Agent 和編程方向的差距正在縮小。過去大家通常認為,最強 Agent 主要看 OpenAI,最強代碼能力主要看 Anthropic,開源模型更多是在後面追趕。GLM 5.2 的出現,至少讓這個判斷變得沒有那麼絕對。

百萬 Token 上下文

GLM 5.2 這次最醒目的升級,是 100 萬 Token 上下文。

更關鍵的是,官方強調這是穩定運行的 100 萬 Token 環境。很多模型都宣稱支援長上下文,但真正把幾十萬字、複雜文件或大型代碼庫丟進去之後,前面的內容可能會逐漸被遺忘,或者回答開始漂移。

GLM 5.2 重點優化的是長週期任務。它適合處理:

  • 一整本小說或長篇資料;
  • 大型專案代碼庫;
  • 多個文件庫和知識庫;
  • 需要連續工作很久的 Agent 任務。

這對未來的 AI 助手很重要。真正有價值的 Agent 不只是回答一個問題,而是能圍繞一個目標連續執行、除錯、修復、總結,甚至持續工作幾個小時或幾天。

Agent 能力是重點

現在大模型競爭已經不只是聊天能力,而是誰更會完成任務。

這次實測裡,GLM 5.2 被用來生成多個前端和 3D 示例,包括 Minecraft 風格小遊戲、清明上河圖 3D 場景、機場飛行模擬、地鐵 FPS、GTA 風格俯視城市,以及射箭網站官網。

整體看,它在「從自然語言直接生成可運行專案」這件事上表現不錯。生成出來的頁面和遊戲並不完美,但多數示例可以運行,有互動,有基礎邏輯,也能根據報錯繼續修復。

代碼生成實測表現

第一個測試是生成一個高度還原 Minecraft 的小遊戲。

生成完成後,遊戲可以正常運行:角色能夠跳躍,可以刪除方塊,也能透過數字鍵切換不同方塊。它不是完整遊戲,但作為一次性生成的 Demo,基礎互動已經具備。

第二個測試是用 Three.js 做一個清明上河圖 3D 場景。GLM 5.2 生成了汴河、虹橋、兩岸建築、柳樹、船隻、行人、城門樓、攤位等元素,並提供上一景、下一景、漫遊等互動。

這個 Demo 也暴露了一些問題。比如船的位置不合理,人物可能走進河裡或穿牆,部分物體關係不夠準確。但它能把場景結構、動態元素和互動邏輯搭起來,說明模型對複雜前端任務的完成度已經不低。

和 DeepSeek、Gemini 的同類生成結果對比時,GLM 5.2 的動態效果和場景完整度更突出;Gemini 對整體場景和晝夜、霧氣等功能的把握也不錯,但 UI 風格和市井氣質還有差距;DeepSeek 的結果更偏靜態展示,動態人物和汴河核心元素較弱。

飛行、FPS 和城市駕駛

機場飛行模擬測試中,GLM 5.2 生成了帶跑道、座艙顯示、油門控制、視角切換和復位功能的飛行 Demo。透過鍵盤可以推油、起飛、轉向和翻轉,基礎功能基本可用。

地鐵 FPS 的設定是 2049 年廢棄隧道中的射擊遊戲。它生成了進入隧道、開火、音效和小地圖等元素,但怪物和關卡推進並不完整,體驗更像一個迷宮原型。

GTA 風格俯視城市則一次生成了車輛、警車、碰撞和駕駛控制。它可以運行,但操控手感比較粗糙,車輛更像是在城市裡失控亂跑。作為原型還可以,離真正可玩的遊戲還有明顯距離。

這些測試共同說明一件事:GLM 5.2 已經能把複雜需求拆成可運行的前端專案,但模型生成的結果仍然需要人工檢查、調參和修復。

網站設計能力

除了遊戲和 3D 場景,GLM 5.2 還被用來生成一個射箭網站官網。

這個示例的完成度反而更高。模型自動生成了「瞄準本心,箭無虛發」這類文案,頁面包含課程預約、訓練介紹、套餐價格、報名支付方案和聯絡方式。視覺風格接近當前主流 AI 編程助手生成的網站,圖文組織比較完整。

從這類任務看,GLM 5.2 在 Landing Page、活動頁、產品官網這類前端工作上已經具備較強實用性。只要需求描述清楚,它可以快速給出一個能繼續修改的初版。

本地部署並不輕鬆

GLM 5.2 雖然是開放權重模型,但本地部署門檻很高。

目前可選部署框架包括 SGLang、vLLM 和 Transformers。如果是部署叢集 Agent,SGLang 更適合追求性能和吞吐;如果只是做常規推理,也可以考慮 vLLM、Transformers,或後續適配到 LM Studio、Ollama 等工具鏈。

真正的問題在硬體。

完整版模型體積接近 1TB。即使使用量化版,也往往是數百 GB 級別:

  • FP8 精度大約 740GB 級別,通常需要 8 張 H200,或同等級多卡伺服器;
  • Q4_K_M 量化版大約 470GB 到 500GB,需要多張 80GB 顯存 GPU 才能比較現實地運行;
  • Q2 量化版最低也需要約 240GB 到 280GB 的顯存或統一記憶體;
  • 更低量化版本依然可能需要 180GB 級別的顯存資源。

這意味著普通消費級硬體基本不用考慮完整本地部署。即便使用 RTX 4090,也需要非常激進的記憶體、顯存和推理方案,體驗很難和雲端 API 相比。

企業更適合用 API

如果企業想部署滿血版 GLM 5.2,整體投入可能是百萬元級別。

除非業務特別重視本地隱私、安全隔離和資料不出域,否則直接購買 API Key 往往更划算。現在模型迭代很快,今天剛投入高成本私有化,幾週後可能又出現更強的新模型。對於多數團隊來說,先用 API 驗證業務價值,再決定是否私有化,會更穩妥。

小結

GLM 5.2 的重點不只是參數規模,而是長上下文、Agent 編程和複雜任務執行。

它在 Terminal-Bench 和 LiveBench Agent coding 上的表現,說明開放權重模型正在進入更強的工程實用階段。實際生成遊戲、3D 場景和網站時,它已經能完成不少可運行原型,但細節準確性、互動手感和複雜邏輯仍然需要人工接管。

如果只是體驗和開發應用,優先使用線上平台或 API 更現實。如果是企業級隱私、安全和內網場景,再考慮 SGLang、vLLM 等本地部署方案。

记录并分享
使用 Hugo 建立
主題 StackJimmy 設計