Ejecutar Qwen3.6-35B en local con una RTX 3070 de 8GB: claves de despliegue y parámetros para llama.cpp

Fri, 22 May 2026 22:44:16 +0800

Que una GPU de 8GB pueda ejecutar un modelo de clase 35B no depende solo del número total de parámetros. También importan la arquitectura del modelo, el formato de cuantización y la forma en que el framework de inferencia distribuye el trabajo.

La idea central de este caso es usar una versión GGUF cuantizada de un modelo MoE como Qwen3.6-35B-A3B, y combinarla con aceleración CUDA en llama.cpp, CPU Offload, ajuste de parámetros MoE y cuantización de KV Cache para repartir la presión de memoria entre la GPU y la RAM del sistema. Así, una GPU veterana como la RTX 3070 de 8GB puede llegar a ejecutar un modelo multimodal local de clase 35B.

Conviene aclarar algo desde el principio: esto no significa “meter un modelo 35B completo en 8GB de VRAM”. La forma más precisa de entenderlo es que la GPU se encarga de las partes de cómputo más adecuadas para aceleración, mientras algunas capas expertas y parte de la presión de caché recaen en la memoria del sistema. La experiencia real dependerá de la RAM disponible, el rendimiento de la CPU, el formato de cuantización, la longitud de contexto y los parámetros elegidos.

Entorno de prueba

Este tipo de configuración es sensible a la memoria del sistema. Un entorno de referencia sería:

CPU: clase Intel Core i7-12700
GPU: NVIDIA RTX 3070 8GB
RAM: 64GB
Sistema: Windows 11
Framework de inferencia: versión CUDA de llama.cpp
Formato del modelo: GGUF

Si solo tienes 16GB o 32GB de RAM, no es necesariamente imposible probarlo, pero un modelo MoE de 35B generará más presión de memoria durante la carga y la inferencia con contexto largo. Para un uso estable, 64GB de RAM es una opción más segura.

Por qué 8GB de VRAM pueden bastar para probar un 35B

La clave de Qwen3.6-35B-A3B está en su arquitectura MoE. Su escala total es de 35B parámetros, pero en cada paso de inferencia no se activan todos los parámetros al mismo tiempo; solo se activa una parte de los parámetros expertos.

Esto tiene dos consecuencias:

El archivo completo del modelo sigue siendo grande y requiere suficiente disco y memoria del sistema.
El cómputo activo por paso de inferencia es menor que en un modelo Dense completo de 35B.

CPU Offload y los parámetros relacionados con MoE en llama.cpp pueden reducir aún más el umbral de VRAM. La GPU se encarga principalmente de la atención y de algunas partes de alto rendimiento, mientras la CPU y la RAM cargan parte de los pesos de capas expertas. El coste es que la velocidad, la latencia de respuesta y la estabilidad dependen más de toda la máquina, no solo del modelo de GPU.

Preparar llama.cpp

Los usuarios de Windows pueden descargar directamente una versión precompilada de llama.cpp con CUDA. Hay tres puntos importantes:

El controlador de la GPU debe ser suficientemente reciente, y el entorno CUDA debe coincidir con el paquete de llama.cpp descargado.
Después de descargarlo, conviene colocarlo en una ruta sin caracteres chinos ni caracteres especiales, para facilitar el uso de scripts batch.
Es mejor poner los archivos del modelo en un directorio models, evitando rutas demasiado largas en los comandos.

Si usas GPU AMD, Intel o un entorno solo CPU, también puedes elegir versiones Vulkan, HIP, SYCL o CPU, pero los parámetros y el rendimiento serán distintos. Este artículo se centra en la ruta CUDA para tarjetas NVIDIA.

Descargar el modelo y el archivo de proyección multimodal

El modelo usado aquí es:

Qwen3.6-35B-A3B-UD-Q4_K_M.gguf

El formato de cuantización Q4_K_M se elige principalmente para equilibrar precisión, tamaño y velocidad. En máquinas con poca VRAM no conviene empezar con versiones de mayor precisión, porque aumenta claramente la probabilidad de fallos de carga o paginación frecuente del sistema.

Si quieres usar capacidades de comprensión de imágenes, también necesitas preparar el archivo de proyección multimodal, por ejemplo:

mmproj-BF16.gguf

Este archivo es muy importante. Descargar solo el modelo principal normalmente permite inferencia de texto, pero no visión. Si falta mmproj, es posible que la interfaz web no muestre correctamente la carga de imágenes o que no pueda procesarlas después de subirlas.

Mantén una estructura de directorios sencilla:

llama.cpp/
├─ llama-server.exe
└─ models/
   ├─ Qwen3.6-35B-A3B-UD-Q4_K_M.gguf
   └─ mmproj-BF16.gguf

Parámetros de inicio para RTX 3070 8GB

El siguiente es un ejemplo de script de inicio para una RTX 3070 de 8GB. Cambia la ruta por la ubicación real de tu directorio de llama.cpp.

@echo off
chcp 65001 >nul
cd /d D:\AI\llama.cpp

llama-server.exe ^
  -m "models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf" ^
  --mmproj "models\mmproj-BF16.gguf" ^
  -ngl 99 ^
  --n-cpu-moe 999 ^
  --flash-attn on ^
  --jinja ^
  -c 32768 ^
  -t 12 ^
  -b 512 ^
  -ub 128 ^
  --cache-type-k q4_0 ^
  --cache-type-v q4_0 ^
  --mlock ^
  --host 127.0.0.1 ^
  --port 8080

pause

Después de iniciar, abre esta dirección en el navegador:

`1`	`http://127.0.0.1:8080`

Si la página se abre y el modelo responde normalmente, el servicio se inició correctamente. La primera carga del modelo puede tardar. No conviene ejecutar varias instancias repetidamente durante la carga, porque es más fácil llenar la memoria.

Cómo entender los parámetros clave

-ngl 99 intenta colocar en la GPU tantas capas como sea posible. Cuántas caben realmente depende de la estructura del modelo, el formato de cuantización y el uso de VRAM.

--n-cpu-moe 999 hace que más capas expertas MoE se ejecuten del lado de la CPU, reduciendo la presión sobre la VRAM. Es uno de los parámetros clave para ejecutar modelos MoE grandes en hardware con poca VRAM.

--flash-attn on activa Flash Attention, lo que ayuda a reducir el coste del cálculo de atención. Su disponibilidad depende de la versión actual de llama.cpp y del soporte de la GPU.

-c 32768 establece la longitud de contexto. Los contextos largos aumentan notablemente la presión sobre KV Cache. Si el inicio falla o la inferencia es muy lenta, prueba primero con 8192 o 16384.

--cache-type-k q4_0 y --cache-type-v q4_0 cuantizan KV Cache, ahorrando memoria y VRAM, aunque pueden tener un impacto leve en la calidad de salida y la velocidad.

-b 512 y -ub 128 controlan parámetros relacionados con batching. En un entorno con poca VRAM, no conviene empezar con valores demasiado agresivos.

Problemas habituales

Si al iniciar aparece un error de VRAM insuficiente, reduce primero la longitud de contexto, por ejemplo cambiando -c 32768 por -c 8192, y luego prueba a bajar -b y -ub.

Si el botón para subir imágenes no está disponible, revisa primero si la ruta de --mmproj es correcta y si el archivo mmproj corresponde al modelo usado.

Si el modelo responde muy lento después de cargar, normalmente no significa que la GPU no esté trabajando. Puede que gran parte de los pesos o capas expertas estén en CPU y RAM. Observa el uso de GPU, CPU, memoria y disco en el Administrador de tareas para identificar el cuello de botella.

Si el formato de salida es extraño, confirma que --jinja está habilitado y revisa si el modelo actual necesita la plantilla de chat correspondiente.

Si el servicio inicia pero el navegador no puede abrirlo, revisa --host y --port, y confirma que el puerto 8080 no esté ocupado por otro programa.

Para quién tiene sentido

Esta configuración es adecuada para usuarios que ya tienen dispositivos de 8GB de VRAM, como RTX 3070, RTX 4060 Laptop o RTX 3060 8GB, y quieren probar modelos MoE más grandes.

No es ideal para quienes buscan velocidad máxima. Ejecutar un MoE 35B con poca VRAM consiste, en esencia, en intercambiar memoria del sistema y CPU por un umbral menor de VRAM. Que funcione es una cosa; que sea suficientemente fluido es otra.

Si el objetivo es chatear a diario con alta frecuencia, modelos de 7B, 8B o 14B pueden ser más cómodos. Si el objetivo es experimentar con modelos MoE más grandes, capacidades multimodales y los límites del despliegue local, una RTX 3070 de 8GB con 64GB de RAM todavía merece una prueba.

Resumen

La clave para que una RTX 3070 de 8GB ejecute Qwen3.6-35B-A3B no es que la VRAM haya aumentado de repente, sino la combinación de arquitectura MoE, cuantización GGUF, CPU Offload en llama.cpp y optimización de KV Cache.

Lo más interesante de este enfoque es que permite a GPU antiguas participar todavía en experimentos locales con modelos grandes. Si aceptas los compromisos de velocidad y estabilidad, una máquina con 8GB de VRAM también puede ser una plataforma de pruebas de IA local, no solo un equipo de entrada para modelos pequeños.

Referencias:

Artículo original: https://www.freedidi.com/24267.html

RTX 3070 on KnightLi Blog