🍥

记录并分享日常

Tags

12 páginas

Llama.cpp

Actualización llama.cpp b9196: los binarios precompilados para Windows soportan CUDA 13.1, Vulkan, HIP y SYCL

Cómo medir el rendimiento multi-GPU en llama.cpp: ¿2x V100 16GB son más rápidas que una sola GPU de 32GB?

Modelos LLM locales recomendados para una GPU RTX 3060

Hermes + Qwen3.6: una solucion barata para desplegar un Agent local

Cómo ajustar llama.cpp con 8GB de VRAM: por qué 32K es más seguro y 64K necesita cuantización de KV Cache

Ranking de rendimiento GPU en llama.cpp: cómo leer los scoreboards CUDA, ROCm y Vulkan con pp512 / tg128 / FA

Qué significan realmente las métricas comunes de benchmark GPU: FA, pp512, tg128 y Q4_0

¿Dónde guarda llama-cli -hf los modelos de caras abrazadas de forma predeterminada?

Cómo reparar el error de verificación del certificado SSL cuando llama-cli se descarga desde Hugging Face en Windows

Cómo usar llama-quantize para modelos GGUF

Cómo obtener modelos GGUF desde Hugging Face con llama.cpp

Guía local de Gemma 4: de ejecutarlo con un comando a integrarlo en desarrollo