零度博客最近介紹了一款熱度很高的本地模型:Qwen3.6-35B-A3B Uncensored HauhauCS Aggressive。原文把它稱為「越獄版」「無審查」開源模型,並給出了 GGUF 量化包、llama.cpp 啟動方式和 Agent 對接思路。
這類模型值得關注,但更適合冷靜理解:它的重點不只是「限制少」,而是把幾個本地 AI 關鍵能力放到了一起:
- MoE 架構下的 35B 級模型。
- GGUF 量化後可在消費級顯卡上運行。
- 透過 llama.cpp 提供 OpenAI API 相容介面。
- 搭配
mmproj支援多模態視覺輸入。 - 可以接入 Hermes、OpenClaw 等本地 Agent 工具。
如果你關心本地模型,這篇更值得看的不是「越獄」噱頭,而是它代表的趨勢:本地模型正在從「能聊天」走向「能接入工具、能看圖、能做 Agent 後端」。
這個模型是什麼
原文提到的模型全名是:
|
|
從名字可以拆出幾個關鍵資訊:
Qwen3.6:基於 Qwen 系列模型。35B:總參數規模約 35B。A3B:每次推理啟用參數約 3B,屬於 MoE 思路。Uncensored/Aggressive:經過更少安全限制或更激進風格調整的版本。GGUF:面向 llama.cpp 等本地推理工具的量化格式。
這裡要特別注意:Uncensored 並不等於「更可靠」。它通常意味著模型更少拒答,也更可能產生不受約束、未經事實核驗或有風險的內容。對技術研究來說可以實驗,但不適合直接接入公開服務、生產系統或無人值守任務。
為什麼 35B 模型還能在本地跑
很多人看到 35B 會以為必須用伺服器或高階多卡機器。原文強調的關鍵點是:這個模型採用 MoE 架構。
MoE 可以簡單理解為:模型總參數很大,但每次推理不會啟用全部參數,而是只啟用其中一部分專家。原文稱它每次實際運行大約啟用 3B 參數,因此在一定量化下,速度和顯存壓力會比傳統 dense 35B 模型低很多。
再疊加 GGUF 量化後,它就有機會在消費級顯卡上運行。原文提到最小量化版本約 11GB,6G/8G 顯存也能嘗試,但更建議至少 8G 顯存。
更現實的理解是:
- 6G 顯存:可以嘗試低比特量化,但上下文和速度都要降低預期。
- 8G 顯存:更適合入門測試,建議選更小量化。
- 16G 顯存:體驗會明顯寬鬆,適合更長上下文和更多 GPU offload。
- 24G 顯存:更適合 Q4_K_M、Q4_K_P 這類品質更好的量化版本。
本地模型能不能「好用」,不能只看能不能啟動,還要看上下文長度、生成速度、顯存餘量、KV cache、是否啟用多模態、並發需求和實際任務類型。
推薦量化怎麼理解
原文給出的選擇大致是:
Q4_K_P:更適合 RTX 4090 等 24G 顯存機器。Q4_K_M:偏穩定、品質較好。IQ4_NL:高壓縮同時盡量保留品質。IQ2_M:面向 6G/8G 顯存使用者。
可以把它理解為品質和資源占用的取捨:
- Q4 類量化通常品質更穩,但顯存占用更高。
- IQ2 / IQ3 類量化更省資源,但回答品質、長文本穩定性和細節能力可能下降。
- 如果你只是測試 Agent 調用和本地 API,低量化可以先跑通流程。
- 如果你要長時間寫程式、讀圖、做複雜推理,盡量選更高品質量化。
不要只因為「能跑」就認為「適合長期用」。低顯存能啟動是一回事,能否穩定完成任務是另一回事。
llama.cpp 部署思路
原文推薦使用 llama.cpp,原因是它支援 Windows、Linux、macOS,也支援 NVIDIA CUDA、AMD、Intel、Vulkan 和純 CPU 等多種後端。
一個典型啟動方式類似:
|
|
幾個參數值得單獨理解:
-m:主模型 GGUF 檔案路徑。--mmproj:多模態投影檔案,啟用視覺能力時需要。-ngl:盡量把層 offload 到 GPU,具體效果取決於顯存和後端。-c:上下文長度,越大越吃記憶體和顯存。-n:單次生成 token 上限。--host 127.0.0.1:只監聽本機,安全性比暴露公網高。--port 8080:本地 API 服務端口。--jinja:新版 Qwen 模型常需要正確聊天模板,否則可能出現格式錯亂、重複或中文異常。
這裡最容易踩坑的是上下文長度。-c 131072 看起來很誘人,但長上下文會顯著增加 KV cache 占用。低顯存機器不建議盲目拉滿,應該先用較小上下文跑通,再逐步增加。
多模態能力怎麼用
原文提到這個版本支援多模態視覺識圖,可以分析圖片、截圖、OCR、複雜 UI 和程式碼截圖。
在 llama.cpp 裡,多模態通常需要主模型和 mmproj 檔案配套。沒有正確載入 --mmproj 時,前端裡的圖片上傳能力可能不可用,或者模型無法正確理解圖像。
多模態本地模型的實用場景包括:
- 分析截圖裡的 UI。
- OCR 識別圖片文字。
- 閱讀程式碼截圖或報錯截圖。
- 給本地 Agent 提供視覺輸入。
- 在不上傳雲端的情況下處理隱私圖片。
但它也有邊界:視覺理解不等於嚴格 OCR,不適合作為唯一事實來源。涉及帳單、合約、證件、醫療圖像等高風險內容時,仍然需要人工複核。
OpenAI API 相容介面
llama.cpp 的 llama-server 可以提供類似 OpenAI API 的本地介面。原文給出的本地 base URL 是:
|
|
這意味著很多支援自訂 OpenAI-compatible provider 的工具,可以把請求轉到本地模型上。API key 通常可以隨便填一個占位值,具體取決於客戶端是否強制校驗。
這類能力的意義很大:
- 不需要雲端 API key。
- 不產生按 token 計費。
- 資料可以留在本機。
- 可以接入本地 Agent、程式碼助手或聊天前端。
- 可以作為 OpenAI API 的本地替代後端做實驗。
但不要把本地介面直接暴露到公網。即使模型在本地,API 一旦開放到區域網路或公網,也可能被別人濫用,導致機器資源被打滿,甚至讓模型輸出你不希望生成的內容。
對接 Hermes 和 OpenClaw 的意義
原文提到,將這個本地模型接入 Hermes 或 OpenClaw,才能真正體現它的價值。
這句話的意思是:模型本身只是推理核心,Agent 工具才負責把它接到真實任務裡。比如:
- 寫程式碼。
- 調用工具。
- 讀取檔案。
- 分析圖片。
- 聯網搜尋。
- 執行多步驟任務。
- 維護長上下文工作流。
本地模型如果只用來聊天,價值有限;如果能穩定作為 Agent 後端,才更接近「本地 AI 工作站」。
不過,無審查模型接入 Agent 時要更謹慎。Agent 能操作檔案、運行命令、訪問網頁、調用工具時,模型的輸出會轉化為真實動作。模型越少限制,越需要外層權限控制、人工確認和審計日誌。
無審查模型的風險邊界
這類模型最大賣點通常是「少拒答」。但少拒答也意味著更大的風險。
需要注意幾件事:
- 它可能更容易輸出違法、危險或誤導性內容。
- 它可能不會主動提醒安全邊界。
- 它可能在高風險問題上給出過度自信的建議。
- 它可能被提示詞誘導執行不合適的任務。
- 它不適合直接面向公眾開放。
更穩妥的做法是:
- 只在本機或受控區域網路內測試。
- 不把它接入高權限工具。
- 不讓它自動執行刪除、支付、發文、批量提交等不可逆操作。
- 給 Agent 工具設定檔案、命令、網路和瀏覽器權限邊界。
- 對高風險輸出保持人工複核。
換句話說,越是「自由」的模型,越需要外層系統約束。
適合誰嘗試
這類模型適合以下使用者:
- 想研究本地大模型部署的人。
- 有 8G 以上顯存,願意折騰 GGUF 和 llama.cpp 的使用者。
- 想把本地模型接入 OpenAI-compatible 客戶端的人。
- 關注本地多模態、截圖分析和 Agent 後端的人。
- 想離線處理部分隱私資料的開發者。
不太適合以下場景:
- 完全不想調參數的新手。
- 需要穩定生產 SLA 的服務。
- 對安全合規要求高的團隊。
- 需要嚴格事實可靠性的業務流程。
- 想把模型直接公開給外部使用者的人。
簡單結論
Qwen3.6-35B-A3B Uncensored HauhauCS Aggressive 這類模型的出現,說明本地 AI 的能力邊界正在快速往前推:消費級顯卡可以跑更大模型,GGUF 量化讓部署門檻下降,llama.cpp 讓本地模型具備 OpenAI API 相容介面,多模態和 Agent 工具又把它從聊天推進到任務執行。
但不要把它只理解成「越獄模型」。更有價值的角度是:本地 AI 正在成為可組合的基礎設施。模型、推理引擎、API 服務、前端、Agent 工具、權限控制,會一起決定最終體驗。
如果你要嘗試,建議先從低風險本地測試開始:選合適量化,降低上下文長度,確認 --jinja 和 --mmproj 配置正確,再接入客戶端。等穩定後,再考慮接入 Agent 工作流。
參考資料:
- 零度博客原文:https://www.freedidi.com/24284.html
- llama.cpp GitHub:https://github.com/ggml-org/llama.cpp