🍥

KnightLi的博客

记录并分享日常

Tags

第 11 頁

Llama.cpp

llama.cpp 多 GPU 性能實測思路：2x V100 16GB 會比單卡 32GB 快嗎？

適合 RTX 3060 顯卡運行的本地 LLM 模型推薦

Hermes + Qwen3.6：本地 Agent 的一套低成本部署方案

8G 顯存跑 llama.cpp 怎麼調：32K 更穩，64K 要開 KV Cache 量化

llama.cpp ???????CUDA?ROCm?Vulkan ?????pp512 / tg128 / FA ????

顯卡推理速度測試的常用指標具體含義：FA、pp512、tg128、Q4_0 都是什麼意思

llama-cli -hf 下載 Hugging Face 模型預設儲存在哪裡

Windows 下 llama-cli 直連 Hugging Face 出現 SSL 憑證驗證失敗怎麼辦

llama-quantize 怎麼用：GGUF 模型量化入門

llama.cpp 如何從 Hugging Face 取得 GGUF 模型

Gemma 4 本地調用指南：從一鍵啟動到開發整合