Ranking de rendimiento GPU en llama.cpp: cómo leer los scoreboards CUDA, ROCm y Vulkan con pp512 / tg128 / FA
Una GPU de 16GB aún puede ejecutar modelos 35B: estrategias de compresión VRAM para modelos MoE en LM Studio
12V-2x6 frente a 12VHPWR: notas sobre las diferencias en el conector de alimentación de 16 pines de la GPU