Cómo usar Gemma 4 12B: tarjeta de modelo en Hugging Face y guía de carga local

Google ya publicó google/gemma-4-12B en Hugging Face. Esta tarjeta de modelo es más útil para desarrolladores que una publicación de lanzamiento: explica la posición, arquitectura, modalidades de entrada, longitud de contexto, uso con Transformers, thinking mode y limitaciones de Gemma 4 12B Unified.

Si solo quieres saber “qué es Gemma 4 12B”, basta con leer el blog de lanzamiento. Si quieres descargarlo, cargarlo e integrarlo en una aplicación, la tarjeta de Hugging Face merece una lectura más cuidadosa. Esto es especialmente importante para despliegues locales, donde términos como 12B, 256K, cuantización, VRAM y longitud de contexto deben compararse con tu propia máquina, no solo con una tabla de especificaciones.

Qué modelo es

google/gemma-4-12B es el modelo 12B Unified de la familia Gemma 4. Es un dense model, no MoE. La tarjeta de modelo lista estos parámetros principales:

Parámetros totales: 11.95B
Capas: 48
sliding window: 1024 tokens
context length: 256K tokens
vocabulary size: 262K
Modalidades compatibles: texto, imagen, audio
Licencia: Apache 2.0

La palabra clave aquí es Unified. Se refiere a la arquitectura multimodal encoder-free de Gemma 4 12B: los image patches y las formas de onda de audio se proyectan directamente al LLM embedding space mediante capas lineales ligeras, en lugar de pasar primero por un vision encoder o audio encoder independiente.

Esto lo diferencia de muchos modelos multimodales tradicionales, que suelen usar una arquitectura de “encoder de imagen/audio + LLM”. Gemma 4 12B busca reducir los encoders externos y permitir que las entradas multimodales entren de forma más directa en un único decoder-only transformer.

Cómo elegir entre los modelos Gemma 4

La familia Gemma 4 cubre varios tamaños:

E2B
E4B
12B Unified
26B A4B MoE
31B Dense

Una forma práctica de entenderlos es separarlos por coste de despliegue e intensidad de tarea:

Modelo	Posición aproximada	Mejor para	Expectativa de despliegue local
E2B	Modelo edge más ligero	Teléfonos, dispositivos embebidos, Q&A ligero, demos	El más fácil de ejecutar, con poca presión de recursos, pero también con el techo más bajo
E4B	Versión ligera reforzada para edge/local	Asistentes locales pequeños, apps multimodales móviles, apps privadas de bajo coste	Más fácil de probar en equipos normales; buen punto de entrada
12B Unified	Modelo multimodal dense de tamaño medio	Asistente local de código, preguntas sobre imágenes, comprensión de audio, análisis de documentos privados	Requiere mirar en serio VRAM y cuantización; 16GB de VRAM o memoria unificada suficiente es más realista
26B A4B MoE	Modelo MoE mayor que activa solo parte de sus parámetros por inferencia	Razonamiento más fuerte, tareas multimodales, aplicaciones de servidor	Más complejo de desplegar; mejor para workstations o servidores pequeños
31B Dense	Modelo dense más grande	Mayor capacidad en texto, razonamiento, código y multimodalidad	Requisitos locales claramente más altos; más orientado a GPU de gama alta o servidores

12B Unified ocupa una posición interesante: es más potente que E2B y E4B, pero más fácil de encajar en una workstation personal o un portátil potente que 26B o 31B. Además, acepta texto, imagen y audio, así que su objetivo no es reemplazar a los modelos insignia en la nube, sino ofrecer una base multimodal local suficientemente capaz y flexible para desarrollo.

Una regla simple de elección:

Si tu máquina es normal y solo quieres probar: empieza por E4B.
Si tienes VRAM de clase 16GB, o un Apple Silicon con suficiente memoria unificada: mira primero 12B Unified.
Si necesitas servir a un equipo, ejecutar tareas largas o buscar razonamiento más fuerte: considera 26B A4B MoE o 31B Dense.
Si solo tienes CPU o una iGPU con poca memoria: no empieces por 12B. La experiencia probablemente será dura.

Qué significa el contexto de 256K

La tarjeta de modelo indica que Gemma 4 12B admite un contexto de 256K tokens.

Esto ayuda en tareas como:

Análisis de documentos largos;
Lectura de código en múltiples archivos;
Historiales largos de conversación;
Historial de llamadas a herramientas de un Agent;
Entradas mixtas con muchas imágenes y fragmentos de texto;
Audio largo o comprensión de video mediante frames extraídos.

Pero el contexto largo no es gratis. Cuanto más largo sea el contexto, más VRAM, RAM, KV cache, tiempo de inferencia y coste de atención necesitarás. Aunque el modelo admita 256K, la ejecución local real depende de tu hardware, método de cuantización, framework de inferencia y configuración de batch.

Lo más práctico es tratar 256K como un límite superior, no como algo que debas llenar siempre. Para despliegue local, la recuperación, fragmentación, caché y recorte de contexto siguen siendo importantes.

Primero mira hardware y cuantización

12B no suena tan intimidante como 70B, pero tampoco es un modelo que cualquier ordenador pueda ejecutar cómodamente.

Con bf16 o fp16, solo los pesos de un modelo 12B se acercan a 24GB, sin contar sobrecostes de ejecución, KV cache, entradas multimodales ni contexto largo. En otras palabras, el 256K de la tarjeta de modelo es un techo de capacidad. No significa que una máquina con 16GB de VRAM pueda llenar sin problemas un contexto completo de 256K.

Una expectativa más realista:

24GB de VRAM: mejor para precisión original o pruebas con contexto más largo, pero aún debes controlar batch y longitud de contexto;
16GB de VRAM: conviene usar cuantización; adecuado para inferencia local diaria, asistente de código, preguntas sobre imágenes y tareas con contexto más corto;
Memoria unificada en Apple Silicon: posible si hay memoria suficiente, pero la velocidad y la optimización del framework son claves;
8GB de VRAM: espera versiones cuantizadas o prueba con contexto corto; no esperes una experiencia multimodal completa con contexto largo;
CPU-only o iGPU común con poca memoria: mejor probar E2B o E4B. 12B será lento y más bien una prueba de “si arranca”.

La cuantización significa algo simple: sacrificar un poco de precisión para reducir memoria y facilitar el despliegue. Para uso local personal, 4-bit u 8-bit suelen ser más prácticos que la precisión original. Para usarlo a largo plazo, también debes comprobar si tu framework de inferencia soporta las entradas multimodales de este modelo, thinking mode, contexto largo y llamadas a herramientas.

Por eso, no conviene empezar el despliegue local persiguiendo “256K completo”. Una ruta más estable sería:

Primero cargar la versión -it con Transformers y confirmar que el modelo y el entorno funcionan.
Luego buscar una opción de cuantización o inferencia adecuada para tu GPU o Apple Silicon.
Aumentar la longitud de contexto poco a poco y medir, sin ir directo al máximo.
Finalmente conectarlo a tus notas, base de código, imágenes o flujo de audio.

Qué capacidades soporta

La tarjeta de modelo lista de forma bastante completa las capacidades de Gemma 4. Para 12B Unified, las más importantes son:

Thinking: modo de razonamiento configurable;
Long Context: hasta 256K tokens;
Image Understanding: reconocimiento de objetos, análisis de documentos/PDF, comprensión de pantallas e interfaces, gráficos, OCR, escritura manual, etc.;
Video Understanding: comprensión de video mediante secuencias de frames;
Interleaved Multimodal Input: mezcla libre de texto e imágenes en el mismo prompt;
Function Calling: llamadas estructuradas a herramientas de forma nativa;
Coding: generación, autocompletado y corrección de código;
Multilingual: soporte multilingüe, con preentrenamiento sobre 140+ idiomas;
Audio: reconocimiento automático de voz y traducción de voz a texto.

En lenguaje de desarrollador, sirve para:

Asistentes locales de código;
Preguntas sobre imágenes;
Comprensión de capturas de pantalla e interfaces;
OCR de documentos y comprensión de tablas;
Transcripción de audio;
Comprensión ligera de video;
Agent demos con llamadas a herramientas;
Análisis de documentos privados.

Pero sigue siendo un modelo que genera texto. No es un modelo de generación de imágenes, síntesis de voz ni generación completa de video.

Cómo cargarlo con Transformers

La tarjeta de modelo ofrece una entrada con Transformers. La carga mínima se parece a esto:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10


from transformers import AutoProcessor, AutoModelForMultimodalLM

MODEL_ID = "google/gemma-4-12B-it"

processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForMultimodalLM.from_pretrained(
    MODEL_ID,
    dtype="auto",
    device_map="auto"
)

Observa que el ejemplo usa la versión instruction-tuned:

1

google/gemma-4-12B-it

Si estás creando una aplicación o experiencia conversacional, normalmente conviene empezar por la versión -it. El modelo base preentrenado es más adecuado para entrenamiento adicional, investigación o adaptación específica.

Las dependencias básicas se instalan con:

1

pip install -U transformers torch accelerate

Si vas a procesar imágenes, audio o video, necesitarás dependencias adicionales, por ejemplo:

1

pip install -U transformers torch torchvision librosa accelerate

En un despliegue real, también debes ajustar el entorno según CUDA, PyTorch, drivers de GPU y la estrategia de cuantización. El ejemplo de la tarjeta de modelo es un punto de partida, no una garantía de que cualquier máquina lo ejecutará de forma fluida al copiar y pegar.

Cómo activar o desactivar thinking mode

Gemma 4 soporta thinking mode. La tarjeta de modelo menciona que se pueden usar control tokens para gestionar el proceso de razonamiento.

Si usas librerías como Transformers, muchos detalles del chat template los maneja la propia librería. Una forma común es controlarlo mediante parámetros de plantilla:

1
2
3
4
5
6
7
8


inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
    add_generation_prompt=True,
    enable_thinking=False
).to(model.device)

Al poner enable_thinking en True, el modelo entra en modo de razonamiento. Con thinking mode desactivado, el modelo es más adecuado para respuestas rápidas, clasificación simple y procesamiento de textos cortos.

Una regla práctica:

Razonamiento complejo, cambios de código, análisis de documentos largos: activar thinking;
Q&A simple, resúmenes, extracción de campos, procesamiento por lotes: desactivar thinking;
Aplicaciones en tiempo real sensibles a latencia: empezar con thinking desactivado, medir velocidad y ajustar.

Thinking mode no siempre es mejor. Aumenta el coste de salida y cómputo, así que tiene más sentido cuando importa la calidad del razonamiento.

El orden de entrada multimodal también importa

Las best practices de la tarjeta de modelo mencionan que el orden de las modalidades afecta el resultado.

Para tareas de imagen o video, normalmente conviene poner la imagen o el video antes de la pregunta de texto, para que el modelo vea primero la entrada visual y luego responda. Por ejemplo:

1
2
3
4
5
6
7
8
9


messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "url": "https://example.com/image.png"},
            {"type": "text", "text": "What is shown in this image?"}
        ]
    }
]

En tareas de audio, el orden puede variar según el caso. Para transcripción, dar primero una instrucción clara y luego añadir el audio suele estabilizar mejor el formato de salida.

Estos detalles parecen pequeños, pero importan en aplicaciones reales. Un modelo multimodal no se vuelve estable solo porque “le metas un archivo”. El orden de entrada, los prompts, los parámetros de muestreo y el parsing de salida afectan el resultado.

Parámetros de muestreo recomendados

La tarjeta de modelo da un conjunto estándar de parámetros de muestreo:

temperature=1.0
top_p=0.95
top_k=64

Esta configuración sirve para generación general. Si haces aplicaciones más deterministas, como extracción de campos, clasificación o salida estructurada, puedes bajar la temperature. Para escritura creativa, brainstorming o respuestas abiertas, puedes mantener los valores por defecto o aumentar ligeramente la aleatoriedad.

Para producción, no conviene depender solo de los valores por defecto. Lo mejor es crear un pequeño conjunto de pruebas por tarea y comparar cómo distintos parámetros afectan precisión, estabilidad y latencia.

Cómo leer los benchmarks

La tarjeta de modelo lista varios benchmarks. Algunos resultados de 12B Unified son:

MMLU Pro: 77.2%
AIME 2026 no tools: 77.5%
LiveCodeBench v6: 72.0%
Codeforces ELO: 1659
GPQA Diamond: 78.8%
MMMU Pro: 69.1%
MATH-Vision: 79.7%
MRCR v2 8 needle 128k: 43.4%

Estos números muestran que Gemma 4 12B tiene una buena base en razonamiento, código, visión y contexto largo. Pero los benchmarks no son toda la experiencia real.

Si quieres usarlo para escritura en chino, bases de conocimiento empresariales, Q&A sobre código privado, transcripción de voz o agents locales, todavía debes probarlo por tu cuenta:

¿La expresión en chino es natural?
¿Los términos de dominio son estables?
¿Mantiene el contexto en múltiples turnos?
¿El formato de llamadas a herramientas es fiable?
¿La recuperación en documentos largos omite detalles clave?
¿La latencia en tu hardware local es aceptable?

La tarjeta de modelo puede mostrarte el techo y la dirección. No puede hacer la validación de negocio por ti.

Límites y notas de seguridad

Gemma 4 12B es un modelo abierto con licencia Apache 2.0, algo muy cómodo para desarrolladores. Pero pesos abiertos no significa ausencia de riesgo.

Debes vigilar:

El modelo puede generar información incorrecta;
Puede omitir detalles clave en contextos largos;
Puede interpretar mal entradas multimodales;
El código generado necesita revisión y pruebas;
Las llamadas a herramientas de un Agent necesitan aislamiento de permisos;
Los escenarios con información personal, medicina, derecho o finanzas requieren cuidado adicional.

Si conectas Gemma 4 12B a archivos locales, una terminal, un navegador o una base de datos, no le des permisos ilimitados directamente. Como mínimo, usa logs, pasos de confirmación, sandbox y un plan de rollback.

Quién debería probarlo primero

Recomendaría probar google/gemma-4-12B primero a:

Desarrolladores que están creando asistentes multimodales locales;
Personas que quieren ejecutar localmente tareas mezclando imagen, audio y texto;
Quienes construyen asistentes de código, desktop agents o bases de conocimiento privadas;
Investigadores interesados en arquitecturas multimodales encoder-free;
Usuarios con VRAM de clase 16GB o equipos Apple Silicon con memoria unificada suficiente;
Equipos que quieren desarrollar sobre un modelo abierto con licencia Apache 2.0.

Si solo quieres chat casual, o tu equipo tiene poca potencia, quizá convenga probar primero E2B o E4B, o usar directamente un servicio alojado.

Resumen

El valor real de la tarjeta de modelo google/gemma-4-12B en Hugging Face es que convierte Gemma 4 12B de “noticia de lanzamiento” en “cómo lo usan los desarrolladores”.

Nos dice que es un modelo abierto de 12B dense, 256K context, encoder-free, entrada multimodal y licencia Apache 2.0. Soporta imagen, audio, video y texto, además de thinking mode, function calling, coding y tareas multilingües.

Pero no es un botón mágico. En un despliegue real todavía hay que pensar en hardware, cuantización, frameworks de inferencia, prompts, orden de entrada multimodal, parámetros de muestreo, límites de seguridad y pruebas de negocio. La tarjeta de modelo debe ser el punto de partida, no el destino final.

Referencias

google/gemma-4-12B - Hugging Face