🍥

记录并分享日常

Tags

13 páginas

GGUF

RTX 3060 ejecuta la mejor versión cuantificada de Qwen3: cómo elegir una memoria de video de 12 GB

Ejecutar Gemma 4 12B con 8GB de VRAM: cómo ajustar la descarga híbrida en llama-cli

¿Puede una RTX 3060 ejecutar 35B? --n-cpu-moe de llama.cpp mantiene útiles los PC antiguos para LLM locales

Despliegue local de Qwen3.6-35B-A3B jailbreak: GGUF sin censura, llama.cpp y límites de seguridad

Ejecutar Qwen3.6-35B en local con una RTX 3070 de 8GB: claves de despliegue y parámetros para llama.cpp

Actualización llama.cpp b9196: los binarios precompilados para Windows soportan CUDA 13.1, Vulkan, HIP y SYCL

Modelos LLM locales recomendados para una GPU RTX 3060

Ejecutar Qwen3.6 en local: requisitos de VRAM para modelos cuantizados 27B y 35B-A3B

Ejecutar Gemma 4 en local: requisitos de VRAM para modelos cuantizados E2B, E4B, 26B y 31B

Cómo usar llama-quantize para modelos GGUF

Cómo obtener modelos GGUF desde Hugging Face con llama.cpp

Elegir cuantización GGUF de Llama en Hugging Face: consejos prácticos de Q8 a Q2

Descargar modelos GGUF desde Hugging Face e importarlos en Ollama