這篇記錄整理一套本地 Agent 部署方案:用 llama.cpp 在 WSL2 中運行 Qwen3.6 GGUF 模型,再把 Hermes Agent 接到本地 OpenAI-compatible API。這樣可以在自己的電腦上獲得一個可長期在線的本地 AI 助手,不再按在線服務的 Token 額度計費。
這套方案適合想體驗本地 AI Agent、又希望保留資料隱私和長期可控性的使用者。它可以用於日常問答、寫作、程式碼輔助、資料整理和簡單自動化任務。需要注意的是,模型規模越大,對顯存要求越高;原文示例使用的是 Qwen3.6-27B,顯存 24GB 更穩。如果顯存較小,應選擇更小尺寸或更低量化的模型。
方案結構
整體鏈路很簡單:
- Windows 上安裝 WSL2 和 Ubuntu 24.04。
- 在 WSL2 中安裝 CUDA Toolkit、編譯
llama.cpp。 - 下載 Qwen3.6 GGUF 模型。
- 用
llama-server啟動本地模型服務。 - 安裝 Hermes Agent,並把它配置到
http://localhost:8080/v1。 - 可選:寫啟動腳本,讓 WSL2 打開時自動啟動模型服務。
Hermes 負責 Agent 能力,Qwen3.6 負責本地大模型能力。兩者組合後,可以把電腦變成一個本地私有 AI 助理。
安裝 WSL2 和 Ubuntu
在 Windows PowerShell 管理員視窗中執行:
|
|
重啟後安裝 Ubuntu 24.04:
|
|
安裝完成後,Ubuntu 會提示設定使用者名稱和密碼。進入 Ubuntu 後,先檢查 NVIDIA GPU 是否能在 WSL2 中正常識別:
|
|
如果無法識別 GPU,通常需要先更新 Windows 端的 NVIDIA 顯示卡驅動。WSL2 會繼承 Windows 驅動,但 CUDA Toolkit 仍需要在 WSL2 內單獨安裝。
安裝 Python 和基礎工具
|
|
後續還需要編譯工具、Git 和 CMake:
|
|
編譯 llama.cpp
先拉取源碼:
|
|
如果 WSL2 中已經有可用 CUDA 環境,可以直接編譯:
|
|
CMAKE_CUDA_ARCHITECTURES=89 適合 Ada 架構顯示卡,例如 RTX 40 系列。其他顯示卡應按實際架構調整。
如果編譯時報 CUDA Toolkit 缺失,先在 WSL2 中安裝 CUDA Toolkit:
|
|
安裝完成後配置環境變數:
|
|
然後重新編譯:
|
|
下載 Qwen3.6 GGUF 模型
原文示例使用 unsloth/Qwen3.6-27B-GGUF 中的 Qwen3.6-27B-UD-Q4_K_XL.gguf:
|
|
這個文件約 17GB。如果 Hugging Face 下載慢,可以換 ModelScope 等國內鏡像。顯存不足時不要硬上 27B,可以換更小模型或更低量化版本。
啟動本地模型服務
根據自己的模型文件名啟動 llama-server:
|
|
啟動成功後,在 Windows 瀏覽器訪問:
|
|
如果要讓 Hermes Agent 或其他 OpenAI-compatible 客戶端調用,API 地址通常是:
|
|
Thinking 模式取捨
Qwen3.6 預設可能啟用 Thinking 模式。它適合複雜推理、複雜程式碼問題、多步驟分析,但速度會慢一些。
如果想關閉 Thinking 模式,可以停止服務後增加 --chat-template-kwargs 參數:
|
|
關閉 Thinking 後,簡單問答、寫作、程式碼補全和解釋程式碼會更快;但複雜演算法設計、疑難 Debug 和架構分析仍建議開啟 Thinking。
安裝 Hermes Agent
保持 llama-server 運行,再新開一個 WSL2 終端安裝 Hermes Agent:
|
|
安裝腳本會處理 Python、Node.js、ripgrep、ffmpeg 等依賴。配置模型端點時選擇自訂 endpoint:
|
|
API Key 對本地 llama-server 來說可以隨便填一個佔位值。配置完成後,可以繼續接 Telegram、微信、QQ、Discord 等聊天工具,讓 Hermes Agent 透過這些入口調用本地模型並執行任務。
自動啟動模型服務
可以寫一個啟動腳本,讓 WSL2 終端打開時自動啟動模型服務。
創建腳本:
|
|
寫入 .bashrc:
|
|
這樣每次打開 WSL2 終端時,如果 llama-server 沒有運行,就會自動啟動;如果已經在運行,就會跳過,避免重複啟動。
注意事項
- 27B 模型對顯存要求較高,24GB 顯存體驗更穩;顯存較小時應換小模型。
--ctx-size 65536會顯著增加顯存和記憶體壓力,不穩定時先降到32768或更低。- WSL2 中 CUDA Toolkit 和 Windows 顯示卡驅動都要正常,缺一邊都可能導致 CUDA 編譯或運行失敗。
- Hermes Agent 接本地服務時,本質上是調用 OpenAI-compatible API,關鍵是
http://localhost:8080/v1能正常回應。 - 如果要從手機或其他設備訪問,需要額外處理 Windows 防火牆、區域網地址和安全隔離,不要把本地模型服務直接暴露到公網。
相關連結
- 原文:Hermes + Qwen3.6:本地最強 Agent 組合!零成本、無限 Token,太香了!
- llama.cpp:ggerganov/llama.cpp
- Hermes Agent:NousResearch/hermes-agent
- Qwen3.6 GGUF 示例:unsloth/Qwen3.6-27B-GGUF