<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>GLM on KnightLi的博客</title>
        <link>https://knightli.com/zh-tw/tags/glm/</link>
        <description>Recent content in GLM on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-tw</language>
        <lastBuildDate>Thu, 18 Jun 2026 22:56:15 +0800</lastBuildDate><atom:link href="https://knightli.com/zh-tw/tags/glm/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>GLM 5.2 開源：百萬上下文、Agent 編程與本地部署門檻</title>
        <link>https://knightli.com/zh-tw/2026/06/18/glm-5-2-open-model-agent-coding/</link>
        <pubDate>Thu, 18 Jun 2026 22:56:15 +0800</pubDate>
        
        <guid>https://knightli.com/zh-tw/2026/06/18/glm-5-2-open-model-agent-coding/</guid>
        <description>&lt;p&gt;智譜 AI 正式開源了新的旗艦模型 GLM 5.2。&lt;/p&gt;
&lt;p&gt;一開始這個消息看起來並不稀奇。現在幾乎每天都有新模型發布，宣傳語也越來越誇張。但 GLM 5.2 的測試成績確實值得單獨拿出來看：它成為首個在 Terminal-Bench 中突破 80% 的開放權重模型，並且在 LiveBench 的 Agent coding 測試裡進入第一梯隊。&lt;/p&gt;
&lt;p&gt;這說明開源模型在 Agent 和編程方向的差距正在縮小。過去大家通常認為，最強 Agent 主要看 OpenAI，最強代碼能力主要看 Anthropic，開源模型更多是在後面追趕。GLM 5.2 的出現，至少讓這個判斷變得沒有那麼絕對。&lt;/p&gt;
&lt;h2 id=&#34;百萬-token-上下文&#34;&gt;百萬 Token 上下文
&lt;/h2&gt;&lt;p&gt;GLM 5.2 這次最醒目的升級，是 100 萬 Token 上下文。&lt;/p&gt;
&lt;p&gt;更關鍵的是，官方強調這是穩定運行的 100 萬 Token 環境。很多模型都宣稱支援長上下文，但真正把幾十萬字、複雜文件或大型代碼庫丟進去之後，前面的內容可能會逐漸被遺忘，或者回答開始漂移。&lt;/p&gt;
&lt;p&gt;GLM 5.2 重點優化的是長週期任務。它適合處理：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;一整本小說或長篇資料；&lt;/li&gt;
&lt;li&gt;大型專案代碼庫；&lt;/li&gt;
&lt;li&gt;多個文件庫和知識庫；&lt;/li&gt;
&lt;li&gt;需要連續工作很久的 Agent 任務。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這對未來的 AI 助手很重要。真正有價值的 Agent 不只是回答一個問題，而是能圍繞一個目標連續執行、除錯、修復、總結，甚至持續工作幾個小時或幾天。&lt;/p&gt;
&lt;h2 id=&#34;agent-能力是重點&#34;&gt;Agent 能力是重點
&lt;/h2&gt;&lt;p&gt;現在大模型競爭已經不只是聊天能力，而是誰更會完成任務。&lt;/p&gt;
&lt;p&gt;這次實測裡，GLM 5.2 被用來生成多個前端和 3D 示例，包括 Minecraft 風格小遊戲、清明上河圖 3D 場景、機場飛行模擬、地鐵 FPS、GTA 風格俯視城市，以及射箭網站官網。&lt;/p&gt;
&lt;p&gt;整體看，它在「從自然語言直接生成可運行專案」這件事上表現不錯。生成出來的頁面和遊戲並不完美，但多數示例可以運行，有互動，有基礎邏輯，也能根據報錯繼續修復。&lt;/p&gt;
&lt;h2 id=&#34;代碼生成實測表現&#34;&gt;代碼生成實測表現
&lt;/h2&gt;&lt;p&gt;第一個測試是生成一個高度還原 Minecraft 的小遊戲。&lt;/p&gt;
&lt;p&gt;生成完成後，遊戲可以正常運行：角色能夠跳躍，可以刪除方塊，也能透過數字鍵切換不同方塊。它不是完整遊戲，但作為一次性生成的 Demo，基礎互動已經具備。&lt;/p&gt;
&lt;p&gt;第二個測試是用 Three.js 做一個清明上河圖 3D 場景。GLM 5.2 生成了汴河、虹橋、兩岸建築、柳樹、船隻、行人、城門樓、攤位等元素，並提供上一景、下一景、漫遊等互動。&lt;/p&gt;
&lt;p&gt;這個 Demo 也暴露了一些問題。比如船的位置不合理，人物可能走進河裡或穿牆，部分物體關係不夠準確。但它能把場景結構、動態元素和互動邏輯搭起來，說明模型對複雜前端任務的完成度已經不低。&lt;/p&gt;
&lt;p&gt;和 DeepSeek、Gemini 的同類生成結果對比時，GLM 5.2 的動態效果和場景完整度更突出；Gemini 對整體場景和晝夜、霧氣等功能的把握也不錯，但 UI 風格和市井氣質還有差距；DeepSeek 的結果更偏靜態展示，動態人物和汴河核心元素較弱。&lt;/p&gt;
&lt;h2 id=&#34;飛行fps-和城市駕駛&#34;&gt;飛行、FPS 和城市駕駛
&lt;/h2&gt;&lt;p&gt;機場飛行模擬測試中，GLM 5.2 生成了帶跑道、座艙顯示、油門控制、視角切換和復位功能的飛行 Demo。透過鍵盤可以推油、起飛、轉向和翻轉，基礎功能基本可用。&lt;/p&gt;
&lt;p&gt;地鐵 FPS 的設定是 2049 年廢棄隧道中的射擊遊戲。它生成了進入隧道、開火、音效和小地圖等元素，但怪物和關卡推進並不完整，體驗更像一個迷宮原型。&lt;/p&gt;
&lt;p&gt;GTA 風格俯視城市則一次生成了車輛、警車、碰撞和駕駛控制。它可以運行，但操控手感比較粗糙，車輛更像是在城市裡失控亂跑。作為原型還可以，離真正可玩的遊戲還有明顯距離。&lt;/p&gt;
&lt;p&gt;這些測試共同說明一件事：GLM 5.2 已經能把複雜需求拆成可運行的前端專案，但模型生成的結果仍然需要人工檢查、調參和修復。&lt;/p&gt;
&lt;h2 id=&#34;網站設計能力&#34;&gt;網站設計能力
&lt;/h2&gt;&lt;p&gt;除了遊戲和 3D 場景，GLM 5.2 還被用來生成一個射箭網站官網。&lt;/p&gt;
&lt;p&gt;這個示例的完成度反而更高。模型自動生成了「瞄準本心，箭無虛發」這類文案，頁面包含課程預約、訓練介紹、套餐價格、報名支付方案和聯絡方式。視覺風格接近當前主流 AI 編程助手生成的網站，圖文組織比較完整。&lt;/p&gt;
&lt;p&gt;從這類任務看，GLM 5.2 在 Landing Page、活動頁、產品官網這類前端工作上已經具備較強實用性。只要需求描述清楚，它可以快速給出一個能繼續修改的初版。&lt;/p&gt;
&lt;h2 id=&#34;本地部署並不輕鬆&#34;&gt;本地部署並不輕鬆
&lt;/h2&gt;&lt;p&gt;GLM 5.2 雖然是開放權重模型，但本地部署門檻很高。&lt;/p&gt;
&lt;p&gt;目前可選部署框架包括 SGLang、vLLM 和 Transformers。如果是部署叢集 Agent，SGLang 更適合追求性能和吞吐；如果只是做常規推理，也可以考慮 vLLM、Transformers，或後續適配到 LM Studio、Ollama 等工具鏈。&lt;/p&gt;
&lt;p&gt;真正的問題在硬體。&lt;/p&gt;
&lt;p&gt;完整版模型體積接近 1TB。即使使用量化版，也往往是數百 GB 級別：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;FP8 精度大約 740GB 級別，通常需要 8 張 H200，或同等級多卡伺服器；&lt;/li&gt;
&lt;li&gt;Q4_K_M 量化版大約 470GB 到 500GB，需要多張 80GB 顯存 GPU 才能比較現實地運行；&lt;/li&gt;
&lt;li&gt;Q2 量化版最低也需要約 240GB 到 280GB 的顯存或統一記憶體；&lt;/li&gt;
&lt;li&gt;更低量化版本依然可能需要 180GB 級別的顯存資源。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這意味著普通消費級硬體基本不用考慮完整本地部署。即便使用 RTX 4090，也需要非常激進的記憶體、顯存和推理方案，體驗很難和雲端 API 相比。&lt;/p&gt;
&lt;h2 id=&#34;企業更適合用-api&#34;&gt;企業更適合用 API
&lt;/h2&gt;&lt;p&gt;如果企業想部署滿血版 GLM 5.2，整體投入可能是百萬元級別。&lt;/p&gt;
&lt;p&gt;除非業務特別重視本地隱私、安全隔離和資料不出域，否則直接購買 API Key 往往更划算。現在模型迭代很快，今天剛投入高成本私有化，幾週後可能又出現更強的新模型。對於多數團隊來說，先用 API 驗證業務價值，再決定是否私有化，會更穩妥。&lt;/p&gt;
&lt;h2 id=&#34;小結&#34;&gt;小結
&lt;/h2&gt;&lt;p&gt;GLM 5.2 的重點不只是參數規模，而是長上下文、Agent 編程和複雜任務執行。&lt;/p&gt;
&lt;p&gt;它在 Terminal-Bench 和 LiveBench Agent coding 上的表現，說明開放權重模型正在進入更強的工程實用階段。實際生成遊戲、3D 場景和網站時，它已經能完成不少可運行原型，但細節準確性、互動手感和複雜邏輯仍然需要人工接管。&lt;/p&gt;
&lt;p&gt;如果只是體驗和開發應用，優先使用線上平台或 API 更現實。如果是企業級隱私、安全和內網場景，再考慮 SGLang、vLLM 等本地部署方案。&lt;/p&gt;
</description>
        </item>
        
    </channel>
</rss>
