Tags
19 个页面
Llama.cpp
Holo 3.1 本地 Agent 部署:用 llama.cpp 接入 OpenClaw
Gemma 4 MTP 实测调参:用 assistant 草稿模型冲 120 tokens/s
8GB 显存跑 Gemma 4 12B:llama-cli 混合卸载参数怎么配
Hermes Agent 桌面版发布:Windows、macOS、Linux 都能图形化上手
RTX 3060 也能跑 35B?llama.cpp 的 --n-cpu-moe 让老电脑继续本地大模型
Qwen3.6-35B-A3B 越狱版本地部署:无审查 GGUF、llama.cpp 与安全边界
RTX 3070 8GB 本地运行 Qwen3.6-35B:llama.cpp 部署要点与优化参数
llama.cpp b9196 更新:Windows 预编译版支持 CUDA 13.1、Vulkan、HIP 和 SYCL
llama.cpp 多 GPU 性能实测思路:2x V100 16GB 会比单卡 32GB 快吗?
适合 RTX 3060 显卡运行的本地 LLM 模型推荐
Hermes + Qwen3.6:本地 Agent 的一套低成本部署方案
8G 显存跑 llama.cpp 怎么调:32K 更稳,64K 要开 KV Cache 量化
llama.cpp ollama 显卡性能天梯:CUDA、ROCm、Vulkan
显卡推理速度测试的常用指标具体含义:FA、pp512、tg128、Q4_0 都是什么意思
llama-cli -hf 下载 Hugging Face 模型默认保存在哪里
Windows 下 llama-cli 直连 Hugging Face 报 SSL 证书验证失败怎么办
llama-quantize 怎么用:GGUF 模型量化入门
llama.cpp 如何从 Hugging Face 获取 GGUF 模型
Gemma 4 本地调用指南:从一键运行到开发集成