Qwen3.6-35B-A3B 越獄版本地部署：無審查 GGUF、llama.cpp 與安全邊界

零度博客最近介紹了一款熱度很高的本地模型：Qwen3.6-35B-A3B Uncensored HauhauCS Aggressive。原文把它稱為「越獄版」「無審查」開源模型，並給出了 GGUF 量化包、llama.cpp 啟動方式和 Agent 對接思路。

這類模型值得關注，但更適合冷靜理解：它的重點不只是「限制少」，而是把幾個本地 AI 關鍵能力放到了一起：

MoE 架構下的 35B 級模型。
GGUF 量化後可在消費級顯卡上運行。
透過 llama.cpp 提供 OpenAI API 相容介面。
搭配 mmproj 支援多模態視覺輸入。
可以接入 Hermes、OpenClaw 等本地 Agent 工具。

如果你關心本地模型，這篇更值得看的不是「越獄」噱頭，而是它代表的趨勢：本地模型正在從「能聊天」走向「能接入工具、能看圖、能做 Agent 後端」。

這個模型是什麼

原文提到的模型全名是：

1

Qwen3.6-35B-A3B Uncensored HauhauCS Aggressive

從名字可以拆出幾個關鍵資訊：

Qwen3.6：基於 Qwen 系列模型。
35B：總參數規模約 35B。
A3B：每次推理啟用參數約 3B，屬於 MoE 思路。
Uncensored / Aggressive：經過更少安全限制或更激進風格調整的版本。
GGUF：面向 llama.cpp 等本地推理工具的量化格式。

這裡要特別注意：Uncensored 並不等於「更可靠」。它通常意味著模型更少拒答，也更可能產生不受約束、未經事實核驗或有風險的內容。對技術研究來說可以實驗，但不適合直接接入公開服務、生產系統或無人值守任務。

為什麼 35B 模型還能在本地跑

很多人看到 35B 會以為必須用伺服器或高階多卡機器。原文強調的關鍵點是：這個模型採用 MoE 架構。

MoE 可以簡單理解為：模型總參數很大，但每次推理不會啟用全部參數，而是只啟用其中一部分專家。原文稱它每次實際運行大約啟用 3B 參數，因此在一定量化下，速度和顯存壓力會比傳統 dense 35B 模型低很多。

再疊加 GGUF 量化後，它就有機會在消費級顯卡上運行。原文提到最小量化版本約 11GB，6G/8G 顯存也能嘗試，但更建議至少 8G 顯存。

更現實的理解是：

6G 顯存：可以嘗試低比特量化，但上下文和速度都要降低預期。
8G 顯存：更適合入門測試，建議選更小量化。
16G 顯存：體驗會明顯寬鬆，適合更長上下文和更多 GPU offload。
24G 顯存：更適合 Q4_K_M、Q4_K_P 這類品質更好的量化版本。

本地模型能不能「好用」，不能只看能不能啟動，還要看上下文長度、生成速度、顯存餘量、KV cache、是否啟用多模態、並發需求和實際任務類型。

llama.cpp 部署思路

原文推薦使用 llama.cpp，原因是它支援 Windows、Linux、macOS，也支援 NVIDIA CUDA、AMD、Intel、Vulkan 和純 CPU 等多種後端。

一個典型啟動方式類似：

1
2
3
4
5
6
7
8
9


llama-server.exe ^
  -m "模型路徑.gguf" ^
  --mmproj "mmproj.gguf" ^
  -ngl 999 ^
  -c 131072 ^
  -n 8192 ^
  --host 127.0.0.1 ^
  --port 8080 ^
  --jinja

幾個參數值得單獨理解：

-m：主模型 GGUF 檔案路徑。
--mmproj：多模態投影檔案，啟用視覺能力時需要。
-ngl：盡量把層 offload 到 GPU，具體效果取決於顯存和後端。
-c：上下文長度，越大越吃記憶體和顯存。
-n：單次生成 token 上限。
--host 127.0.0.1：只監聽本機，安全性比暴露公網高。
--port 8080：本地 API 服務端口。
--jinja：新版 Qwen 模型常需要正確聊天模板，否則可能出現格式錯亂、重複或中文異常。

這裡最容易踩坑的是上下文長度。-c 131072 看起來很誘人，但長上下文會顯著增加 KV cache 占用。低顯存機器不建議盲目拉滿，應該先用較小上下文跑通，再逐步增加。

多模態能力怎麼用

原文提到這個版本支援多模態視覺識圖，可以分析圖片、截圖、OCR、複雜 UI 和程式碼截圖。

在 llama.cpp 裡，多模態通常需要主模型和 mmproj 檔案配套。沒有正確載入 --mmproj 時，前端裡的圖片上傳能力可能不可用，或者模型無法正確理解圖像。

多模態本地模型的實用場景包括：

分析截圖裡的 UI。
OCR 識別圖片文字。
閱讀程式碼截圖或報錯截圖。
給本地 Agent 提供視覺輸入。
在不上傳雲端的情況下處理隱私圖片。

但它也有邊界：視覺理解不等於嚴格 OCR，不適合作為唯一事實來源。涉及帳單、合約、證件、醫療圖像等高風險內容時，仍然需要人工複核。

OpenAI API 相容介面

llama.cpp 的 llama-server 可以提供類似 OpenAI API 的本地介面。原文給出的本地 base URL 是：

1

http://127.0.0.1:8080/v1

這意味著很多支援自訂 OpenAI-compatible provider 的工具，可以把請求轉到本地模型上。API key 通常可以隨便填一個占位值，具體取決於客戶端是否強制校驗。

這類能力的意義很大：

不需要雲端 API key。
不產生按 token 計費。
資料可以留在本機。
可以接入本地 Agent、程式碼助手或聊天前端。
可以作為 OpenAI API 的本地替代後端做實驗。

但不要把本地介面直接暴露到公網。即使模型在本地，API 一旦開放到區域網路或公網，也可能被別人濫用，導致機器資源被打滿，甚至讓模型輸出你不希望生成的內容。

對接 Hermes 和 OpenClaw 的意義

原文提到，將這個本地模型接入 Hermes 或 OpenClaw，才能真正體現它的價值。

這句話的意思是：模型本身只是推理核心，Agent 工具才負責把它接到真實任務裡。比如：

寫程式碼。
調用工具。
讀取檔案。
分析圖片。
聯網搜尋。
執行多步驟任務。
維護長上下文工作流。

本地模型如果只用來聊天，價值有限；如果能穩定作為 Agent 後端，才更接近「本地 AI 工作站」。

不過，無審查模型接入 Agent 時要更謹慎。Agent 能操作檔案、運行命令、訪問網頁、調用工具時，模型的輸出會轉化為真實動作。模型越少限制，越需要外層權限控制、人工確認和審計日誌。

無審查模型的風險邊界

這類模型最大賣點通常是「少拒答」。但少拒答也意味著更大的風險。

需要注意幾件事：

它可能更容易輸出違法、危險或誤導性內容。
它可能不會主動提醒安全邊界。
它可能在高風險問題上給出過度自信的建議。
它可能被提示詞誘導執行不合適的任務。
它不適合直接面向公眾開放。

更穩妥的做法是：

只在本機或受控區域網路內測試。
不把它接入高權限工具。
不讓它自動執行刪除、支付、發文、批量提交等不可逆操作。
給 Agent 工具設定檔案、命令、網路和瀏覽器權限邊界。
對高風險輸出保持人工複核。

換句話說，越是「自由」的模型，越需要外層系統約束。

適合誰嘗試

這類模型適合以下使用者：

想研究本地大模型部署的人。
有 8G 以上顯存，願意折騰 GGUF 和 llama.cpp 的使用者。
想把本地模型接入 OpenAI-compatible 客戶端的人。
關注本地多模態、截圖分析和 Agent 後端的人。
想離線處理部分隱私資料的開發者。

不太適合以下場景：

完全不想調參數的新手。
需要穩定生產 SLA 的服務。
對安全合規要求高的團隊。
需要嚴格事實可靠性的業務流程。
想把模型直接公開給外部使用者的人。

簡單結論

Qwen3.6-35B-A3B Uncensored HauhauCS Aggressive 這類模型的出現，說明本地 AI 的能力邊界正在快速往前推：消費級顯卡可以跑更大模型，GGUF 量化讓部署門檻下降，llama.cpp 讓本地模型具備 OpenAI API 相容介面，多模態和 Agent 工具又把它從聊天推進到任務執行。

但不要把它只理解成「越獄模型」。更有價值的角度是：本地 AI 正在成為可組合的基礎設施。模型、推理引擎、API 服務、前端、Agent 工具、權限控制，會一起決定最終體驗。

如果你要嘗試，建議先從低風險本地測試開始：選合適量化，降低上下文長度，確認 --jinja 和 --mmproj 配置正確，再接入客戶端。等穩定後，再考慮接入 Agent 工作流。

參考資料：

零度博客原文：https://www.freedidi.com/24284.html
llama.cpp GitHub：https://github.com/ggml-org/llama.cpp