Actualización llama.cpp b9196: los binarios precompilados para Windows soportan CUDA 13.1, Vulkan, HIP y SYCL
Guía de despliegue local de Claude Code + Ollama: crear un asistente de programación AI gratuito con CC Switch
Cómo medir el rendimiento multi-GPU en llama.cpp: ¿2x V100 16GB son más rápidas que una sola GPU de 32GB?
Benchmarks de inferencia AI en RTX 5090 / 5080: como elegir para LLM locales, video 4K y 3D en tiempo real
Cómo ajustar llama.cpp con 8GB de VRAM: por qué 32K es más seguro y 64K necesita cuantización de KV Cache
Una GPU de 16GB aún puede ejecutar modelos 35B: estrategias de compresión VRAM para modelos MoE en LM Studio