Qwen3.6-35B-A3B 越獄版本地部署:無審查 GGUF、llama.cpp 與安全邊界

整理 Qwen3.6-35B-A3B Uncensored GGUF 版本的本地部署思路,包括量化版本、顯存需求、llama.cpp 參數、多模態 mmproj、OpenAI API 相容介面,以及使用無審查模型時需要注意的安全邊界。

零度博客最近介紹了一款熱度很高的本地模型:Qwen3.6-35B-A3B Uncensored HauhauCS Aggressive。原文把它稱為「越獄版」「無審查」開源模型,並給出了 GGUF 量化包、llama.cpp 啟動方式和 Agent 對接思路。

這類模型值得關注,但更適合冷靜理解:它的重點不只是「限制少」,而是把幾個本地 AI 關鍵能力放到了一起:

  • MoE 架構下的 35B 級模型。
  • GGUF 量化後可在消費級顯卡上運行。
  • 透過 llama.cpp 提供 OpenAI API 相容介面。
  • 搭配 mmproj 支援多模態視覺輸入。
  • 可以接入 Hermes、OpenClaw 等本地 Agent 工具。

如果你關心本地模型,這篇更值得看的不是「越獄」噱頭,而是它代表的趨勢:本地模型正在從「能聊天」走向「能接入工具、能看圖、能做 Agent 後端」。

這個模型是什麼

原文提到的模型全名是:

1
Qwen3.6-35B-A3B Uncensored HauhauCS Aggressive

從名字可以拆出幾個關鍵資訊:

  • Qwen3.6:基於 Qwen 系列模型。
  • 35B:總參數規模約 35B。
  • A3B:每次推理啟用參數約 3B,屬於 MoE 思路。
  • Uncensored / Aggressive:經過更少安全限制或更激進風格調整的版本。
  • GGUF:面向 llama.cpp 等本地推理工具的量化格式。

這裡要特別注意:Uncensored 並不等於「更可靠」。它通常意味著模型更少拒答,也更可能產生不受約束、未經事實核驗或有風險的內容。對技術研究來說可以實驗,但不適合直接接入公開服務、生產系統或無人值守任務。

為什麼 35B 模型還能在本地跑

很多人看到 35B 會以為必須用伺服器或高階多卡機器。原文強調的關鍵點是:這個模型採用 MoE 架構。

MoE 可以簡單理解為:模型總參數很大,但每次推理不會啟用全部參數,而是只啟用其中一部分專家。原文稱它每次實際運行大約啟用 3B 參數,因此在一定量化下,速度和顯存壓力會比傳統 dense 35B 模型低很多。

再疊加 GGUF 量化後,它就有機會在消費級顯卡上運行。原文提到最小量化版本約 11GB,6G/8G 顯存也能嘗試,但更建議至少 8G 顯存。

更現實的理解是:

  • 6G 顯存:可以嘗試低比特量化,但上下文和速度都要降低預期。
  • 8G 顯存:更適合入門測試,建議選更小量化。
  • 16G 顯存:體驗會明顯寬鬆,適合更長上下文和更多 GPU offload。
  • 24G 顯存:更適合 Q4_K_M、Q4_K_P 這類品質更好的量化版本。

本地模型能不能「好用」,不能只看能不能啟動,還要看上下文長度、生成速度、顯存餘量、KV cache、是否啟用多模態、並發需求和實際任務類型。

推薦量化怎麼理解

原文給出的選擇大致是:

  • Q4_K_P:更適合 RTX 4090 等 24G 顯存機器。
  • Q4_K_M:偏穩定、品質較好。
  • IQ4_NL:高壓縮同時盡量保留品質。
  • IQ2_M:面向 6G/8G 顯存使用者。

可以把它理解為品質和資源占用的取捨:

  • Q4 類量化通常品質更穩,但顯存占用更高。
  • IQ2 / IQ3 類量化更省資源,但回答品質、長文本穩定性和細節能力可能下降。
  • 如果你只是測試 Agent 調用和本地 API,低量化可以先跑通流程。
  • 如果你要長時間寫程式、讀圖、做複雜推理,盡量選更高品質量化。

不要只因為「能跑」就認為「適合長期用」。低顯存能啟動是一回事,能否穩定完成任務是另一回事。

llama.cpp 部署思路

原文推薦使用 llama.cpp,原因是它支援 Windows、Linux、macOS,也支援 NVIDIA CUDA、AMD、Intel、Vulkan 和純 CPU 等多種後端。

一個典型啟動方式類似:

1
2
3
4
5
6
7
8
9
llama-server.exe ^
  -m "模型路徑.gguf" ^
  --mmproj "mmproj.gguf" ^
  -ngl 999 ^
  -c 131072 ^
  -n 8192 ^
  --host 127.0.0.1 ^
  --port 8080 ^
  --jinja

幾個參數值得單獨理解:

  • -m:主模型 GGUF 檔案路徑。
  • --mmproj:多模態投影檔案,啟用視覺能力時需要。
  • -ngl:盡量把層 offload 到 GPU,具體效果取決於顯存和後端。
  • -c:上下文長度,越大越吃記憶體和顯存。
  • -n:單次生成 token 上限。
  • --host 127.0.0.1:只監聽本機,安全性比暴露公網高。
  • --port 8080:本地 API 服務端口。
  • --jinja:新版 Qwen 模型常需要正確聊天模板,否則可能出現格式錯亂、重複或中文異常。

這裡最容易踩坑的是上下文長度。-c 131072 看起來很誘人,但長上下文會顯著增加 KV cache 占用。低顯存機器不建議盲目拉滿,應該先用較小上下文跑通,再逐步增加。

多模態能力怎麼用

原文提到這個版本支援多模態視覺識圖,可以分析圖片、截圖、OCR、複雜 UI 和程式碼截圖。

在 llama.cpp 裡,多模態通常需要主模型和 mmproj 檔案配套。沒有正確載入 --mmproj 時,前端裡的圖片上傳能力可能不可用,或者模型無法正確理解圖像。

多模態本地模型的實用場景包括:

  • 分析截圖裡的 UI。
  • OCR 識別圖片文字。
  • 閱讀程式碼截圖或報錯截圖。
  • 給本地 Agent 提供視覺輸入。
  • 在不上傳雲端的情況下處理隱私圖片。

但它也有邊界:視覺理解不等於嚴格 OCR,不適合作為唯一事實來源。涉及帳單、合約、證件、醫療圖像等高風險內容時,仍然需要人工複核。

OpenAI API 相容介面

llama.cpp 的 llama-server 可以提供類似 OpenAI API 的本地介面。原文給出的本地 base URL 是:

1
http://127.0.0.1:8080/v1

這意味著很多支援自訂 OpenAI-compatible provider 的工具,可以把請求轉到本地模型上。API key 通常可以隨便填一個占位值,具體取決於客戶端是否強制校驗。

這類能力的意義很大:

  • 不需要雲端 API key。
  • 不產生按 token 計費。
  • 資料可以留在本機。
  • 可以接入本地 Agent、程式碼助手或聊天前端。
  • 可以作為 OpenAI API 的本地替代後端做實驗。

但不要把本地介面直接暴露到公網。即使模型在本地,API 一旦開放到區域網路或公網,也可能被別人濫用,導致機器資源被打滿,甚至讓模型輸出你不希望生成的內容。

對接 Hermes 和 OpenClaw 的意義

原文提到,將這個本地模型接入 Hermes 或 OpenClaw,才能真正體現它的價值。

這句話的意思是:模型本身只是推理核心,Agent 工具才負責把它接到真實任務裡。比如:

  • 寫程式碼。
  • 調用工具。
  • 讀取檔案。
  • 分析圖片。
  • 聯網搜尋。
  • 執行多步驟任務。
  • 維護長上下文工作流。

本地模型如果只用來聊天,價值有限;如果能穩定作為 Agent 後端,才更接近「本地 AI 工作站」。

不過,無審查模型接入 Agent 時要更謹慎。Agent 能操作檔案、運行命令、訪問網頁、調用工具時,模型的輸出會轉化為真實動作。模型越少限制,越需要外層權限控制、人工確認和審計日誌。

無審查模型的風險邊界

這類模型最大賣點通常是「少拒答」。但少拒答也意味著更大的風險。

需要注意幾件事:

  • 它可能更容易輸出違法、危險或誤導性內容。
  • 它可能不會主動提醒安全邊界。
  • 它可能在高風險問題上給出過度自信的建議。
  • 它可能被提示詞誘導執行不合適的任務。
  • 它不適合直接面向公眾開放。

更穩妥的做法是:

  • 只在本機或受控區域網路內測試。
  • 不把它接入高權限工具。
  • 不讓它自動執行刪除、支付、發文、批量提交等不可逆操作。
  • 給 Agent 工具設定檔案、命令、網路和瀏覽器權限邊界。
  • 對高風險輸出保持人工複核。

換句話說,越是「自由」的模型,越需要外層系統約束。

適合誰嘗試

這類模型適合以下使用者:

  • 想研究本地大模型部署的人。
  • 有 8G 以上顯存,願意折騰 GGUF 和 llama.cpp 的使用者。
  • 想把本地模型接入 OpenAI-compatible 客戶端的人。
  • 關注本地多模態、截圖分析和 Agent 後端的人。
  • 想離線處理部分隱私資料的開發者。

不太適合以下場景:

  • 完全不想調參數的新手。
  • 需要穩定生產 SLA 的服務。
  • 對安全合規要求高的團隊。
  • 需要嚴格事實可靠性的業務流程。
  • 想把模型直接公開給外部使用者的人。

簡單結論

Qwen3.6-35B-A3B Uncensored HauhauCS Aggressive 這類模型的出現,說明本地 AI 的能力邊界正在快速往前推:消費級顯卡可以跑更大模型,GGUF 量化讓部署門檻下降,llama.cpp 讓本地模型具備 OpenAI API 相容介面,多模態和 Agent 工具又把它從聊天推進到任務執行。

但不要把它只理解成「越獄模型」。更有價值的角度是:本地 AI 正在成為可組合的基礎設施。模型、推理引擎、API 服務、前端、Agent 工具、權限控制,會一起決定最終體驗。

如果你要嘗試,建議先從低風險本地測試開始:選合適量化,降低上下文長度,確認 --jinja--mmproj 配置正確,再接入客戶端。等穩定後,再考慮接入 Agent 工作流。

參考資料:

记录并分享
使用 Hugo 建立
主題 StackJimmy 設計