🍥

KnightLi的博客

记录并分享日常

Tags

第 34 頁

本地大模型

Ollama 接入 Codex App：本地大模型如何變成 AI 編程 Agent

RTX 3060 也能跑 35B？llama.cpp 的 --n-cpu-moe 讓老電腦繼續跑本地大模型

Qwen3.6-35B-A3B 越獄版本地部署：無審查 GGUF、llama.cpp 與安全邊界

RTX 3070 8GB 本地運行 Qwen3.6-35B：llama.cpp 部署要點與最佳化參數

llama.cpp b9196 更新：Windows 預編譯版支援 CUDA 13.1、Vulkan、HIP 和 SYCL

Claude Code + Ollama 本地部署教學：用 CC Switch 打造免費 AI 編程助手

本地執行 DeepSeek 4：Antirez ds4 在 Apple Silicon Mac 上的嘗試

llama.cpp 多 GPU 性能實測思路：2x V100 16GB 會比單卡 32GB 快嗎？

RTX 5090 / 5080 AI 推理效能實測：本地大模型、4K 影片生成和即時 3D 怎麼選

DeepSeek V4 本地私有化部署方案：國產晶片與消費級顯卡叢集怎麼選

適合 RTX 3060 顯卡運行的本地 LLM 模型推薦

Hermes + Qwen3.6：本地 Agent 的一套低成本部署方案

NVIDIA 發布 Nemotron 3 Nano Omni：面向智慧體的開放全模態推理模型

本地部署 Qwen3.6：27B 與 35B-A3B 各量化版本需要多少顯存

本地部署 DeepSeek V4：Pro、Flash 與 Base 版本顯存占用估算表

本地部署 Gemma 4：E2B、E4B、26B、31B 各量化版本需要多少顯存

8G 顯存跑 llama.cpp 怎麼調：32K 更穩，64K 要開 KV Cache 量化

16G 顯卡也能跑 35B 模型：LM Studio 下 MoE 模型的顯存壓縮思路

Ollama 多顯卡使用筆記：顯存疊加、GPU 選擇和常見誤區

Gemma 4 E4B 越獄版和官方普通版有什麼差別

llama-quantize 怎麼用：GGUF 模型量化入門

llama.cpp 如何從 Hugging Face 取得 GGUF 模型

Gemma-4-31B-it 裡的 it 是什麼意思

Hugging Face 選擇 Llama 的 GGUF 模型時，量化怎麼選：從 Q8 到 Q2 的實用建議

Windows 區域網存取 Ollama API 設定指南

Gemma 4 本地調用指南：從一鍵啟動到開發整合

Ollama 雲模型是什麼，怎麼用

從 Hugging Face 下載 GGUF 模型並匯入 Ollama

Ollama 下載模型 pull 速度很慢的排查與解決辦法

樹莓派 5 跑 Gemma 4 實測：可行，但回應較慢

OpenClaw 對接本地 Gemma 4：完整配置指南

如何在筆記型電腦上運行 Gemma 4：5 分鐘本地部署指南

Android 上安裝並運行 Gemma 4：完整上手指南

Google Gemma 4 模型對比：2B/4B/26B/31B 怎麼選？