DeepSeek-V4 on KnightLi Blog

DeepSeek-V4 KV Cache explicado: por qué el contexto de 1M usa menos VRAM

Mon, 18 May 2026 18:38:26 +0800

El costo real de los modelos de contexto largo no suele estar en si aceptan un millón de tokens, sino en cuánta VRAM consume el KV Cache durante la inferencia.

Durante la decodificación Transformer, cada nuevo token generado necesita acceder a los estados Key y Value de los tokens anteriores. Cuanto más largo es el contexto, más grande es el KV Cache. Un KV Cache mayor presiona VRAM, ancho de banda de memoria, tiempo al primer token y throughput.

DeepSeek-V4 es interesante porque no solo reduce caché en la dimensión de cabezas de atención. Lleva la compresión a la dimensión de longitud de secuencia. Según el análisis de Hugging Face sobre DeepSeek-V4, en un escenario de 1M tokens, el KV Cache de DeepSeek-V4-Pro es alrededor del 10% del de DeepSeek-V3.2, y alrededor del 2% de una arquitectura GQA bf16 común.

Esa es la diferencia clave: DeepSeek-V4 no solo guarda cada entrada KV en un formato más pequeño. Reduce la cantidad de entradas KV que deben conservarse y buscarse en una historia larga.

Varias generaciones de optimización de KV Cache

La optimización de KV Cache ha seguido varias rutas.

La primera es MHA tradicional, Multi-Head Attention. Cada cabeza Query suele tener sus propias cabezas Key/Value. La estructura es directa, pero en contextos largos la caché crece linealmente con la longitud de secuencia, generando mucha presión de VRAM.

La segunda es GQA, Grouped Query Attention. Varias cabezas Query comparten menos cabezas Key/Value. Muchos modelos modernos como LLaMA, Mistral y Qwen usan ideas similares. Reduce mucho el número de cabezas KV y hoy es una optimización común para contexto largo.

La tercera es MLA, Multi-head Latent Attention. DeepSeek-V2 y DeepSeek-V3 usan esta ruta, comprimiendo Key/Value en representaciones latentes de bajo rango y reduciendo aún más la caché en la dimensión de cabezas.

La cuarta es la atención comprimida híbrida de DeepSeek-V4. Se centra en la longitud de secuencia: no solo reduce cuánto KV guarda cada token, sino que comprime múltiples tokens históricos en menos entradas KV y las recupera mediante atención dispersa o densa.

En términos simples:

MHA: cada cabeza recuerda por separado.
GQA: varias cabezas Query comparten memoria.
MLA: la representación KV de cada token se comprime en un vector latente.
DeepSeek-V4: muchos tokens históricos se agregan en menos bloques de memoria comprimida.

Cambio clave: de comprimir cabezas a comprimir secuencia

GQA y MLA optimizan principalmente cuánto KV guarda cada token. Funciona bien, pero cuando el contexto llega a 1M tokens, el número de tokens se vuelve el problema principal.

DeepSeek-V4 comprime el contexto antiguo en bloques. El modelo no necesita preservar KV completo para cada token lejano. En su lugar, varios tokens forman entradas comprimidas.

Es parecido a leer un libro muy largo: recuerdas con detalle las páginas recientes, mientras que los capítulos anteriores quedan como resúmenes, temas y pistas importantes. La atención de DeepSeek-V4 sigue una división similar: conservar detalle cerca y usar representación comprimida lejos.

CSA: compresión 4x más recuperación dispersa

CSA significa Compressed Sparse Attention. Es el mecanismo de compresión de largo alcance de grano más fino.

En CSA, el modelo comprime tokens vecinos en menos entradas KV. La documentación de Hugging Face Transformers da una razón de compresión por defecto m=4, es decir, aproximadamente cada cuatro tokens forman una entrada comprimida.

No es un promedio simple. CSA usa un pool de compresión aprendido y ventanas solapadas para preservar información útil. Después de comprimir, la consulta no atiende a todos los bloques comprimidos directamente. Primero usa Lightning Indexer para puntuarlos, selecciona los bloques top-k más relevantes y luego realiza la atención principal.

Esto aporta dos beneficios:

El número de entradas KV históricas disminuye.
Cada consulta mira solo un subconjunto relevante de bloques comprimidos.

CSA encaja con contextos lejanos donde todavía importan detalles: bases de código, documentos largos e historiales de llamadas a herramientas.

HCA: compresión 128x más atención densa

HCA significa Heavily Compressed Attention, y es más agresivo.

La documentación de Transformers da una razón por defecto m'=128. HCA comprime un tramo mucho más largo de contexto en una sola entrada comprimida. Como la secuencia resultante ya es muy corta, no necesita recuperación dispersa top-k como CSA. La consulta puede hacer atención densa sobre todas las entradas HCA comprimidas.

HCA se parece más a un resumen global. No intenta conservar todos los detalles. Cubre una historia muy larga a costo muy bajo, ayudando al modelo a mantener conciencia de contexto global, temas de largo alcance e información lejana.

Si CSA es “notas comprimidas consultables”, HCA es más bien un “índice global y resumen”.

Ventana deslizante: el contexto reciente conserva detalle

DeepSeek-V4 no comprime todo.

Además de CSA y HCA, mantiene una rama de ventana deslizante para el contexto reciente sin comprimir. La documentación de Transformers indica que los attention blocks de DeepSeek-V4 concatenan ramas comprimidas de largo alcance con K/V de ventana deslizante.

Esto importa. Al generar el siguiente token, el contexto más cercano suele ser el más importante: nombres de variables, firmas de funciones, la frase actual, resultados recientes de herramientas o la última instrucción del usuario. Si se comprimiera demasiado, la calidad de salida caería.

La idea de DeepSeek-V4 es:

Cerca: conservar detalles sin comprimir.
Medio y largo alcance: usar CSA para compresión consultable.
Más lejos: usar HCA para resumen global muy comprimido.

Pila híbrida de capas: distintas capas usan distinta atención

DeepSeek-V4 no usa el mismo mecanismo de atención en todas las capas.

El artículo de Hugging Face sobre DeepSeek-V4 señala que la estructura de 61 capas de V4-Pro usa HCA en las dos primeras capas, alterna CSA y HCA después, y usa una sliding-window MTP block al final. La documentación de Transformers también describe V4-Pro como dos capas HCA bootstrap seguidas por capas alternas CSA/HCA.

Esto muestra que DeepSeek-V4 trata la atención como un sistema por capas. Algunas capas favorecen compresión global, otras recuperación dispersa, y otras conservan ventanas locales.

Es más complejo que usar un solo tipo de atención en todas partes, pero se ajusta mejor a contextos extremos de 1M tokens.

FP8 y FP4 reducen aún más el costo de caché

El ahorro de DeepSeek-V4 no viene solo de la razón de compresión.

El artículo de Hugging Face indica que la mayoría de entradas KV en V4 usan almacenamiento FP8, las dimensiones relacionadas con RoPE permanecen en BF16, y el Lightning Indexer de CSA usa FP4. La combinación de compresión, baja precisión y recuperación dispersa produce un uso muy bajo de KV Cache.

Esto recuerda algo importante: no basta mirar el número de longitud de contexto. La viabilidad de despliegue depende de VRAM, presión de ancho de banda, latencia y calidad de implementación bajo contexto largo.

Diferencias con otros modelos

Frente a MHA tradicional, DeepSeek-V4 ya no mantiene memoria de atención completa para cada token en una historia larga, así que la presión de caché cae mucho.

Frente a GQA, DeepSeek-V4 no solo reduce el número de cabezas KV. También reduce el número de entradas KV para historia larga. GQA sigue acumulando caché linealmente con la longitud de secuencia; V4 comprime el contexto lejano en bloques.

Frente al MLA de DeepSeek-V3, V4 extiende la optimización desde “hacer más compacta la representación de cada token” hacia “comprimir también la cantidad de entradas históricas”. MLA ya reduce mucho el costo KV por token, pero en contexto de millones de tokens la longitud de secuencia sigue siendo un cuello de botella.

Frente a atención dispersa ordinaria, CSA primero comprime y luego recupera de forma dispersa sobre una secuencia comprimida más corta. HCA va más lejos: con compresión 128x, incluso la atención densa resulta barata.

Qué significa para agentes y tareas largas

Los workflows de agentes consumen mucho contexto. Leen archivos, llaman herramientas, reciben resultados, generan planes, corrigen planes y vuelven a llamar herramientas. Cuanto más largo es el contexto, más probable es que KV Cache sea el cuello de botella.

El diseño de caché de DeepSeek-V4 puede ayudar en varias formas:

Manejar bases de código largas, documentos extensos e historiales de herramientas de muchas rondas.
Reducir presión sobre tiempo al primer token y throughput causada por KV Cache.
Ejecutar contextos más largos o más solicitudes concurrentes con el mismo hardware.
Acercar el contexto de un millón de tokens a un despliegue práctico, no solo a un número de benchmark.

Pero la atención comprimida no es gratis. Comprimir tokens históricos en bloques implica elegir qué información se conserva. El modelo debe equilibrar ahorro de VRAM con retención de detalles recuperables. El rendimiento real depende de la tarea: navegación de código, documentos legales, QA largo y toolchains de agentes tienen necesidades distintas de recuperación de detalles.

No leas 2% como 2% de todo el costo

“KV Cache alrededor del 2% de GQA” puede malinterpretarse.

Se refiere principalmente al tamaño de memoria de KV Cache. No significa que el costo total de inferencia caiga al 2%, ni que todos los escenarios sean 50 veces más rápidos. La inferencia también incluye lectura de pesos, enrutamiento MoE, redes feed-forward, cómputo de atención, scheduling y comunicación.

El artículo de Hugging Face separa dos números: en contexto de 1M tokens, los FLOPs por token de DeepSeek-V4-Pro son 27% de DeepSeek-V3.2, mientras que KV Cache es 10%. Caché y cómputo son dimensiones distintas.

La afirmación más segura es: DeepSeek-V4 reduce mucho la presión de KV Cache en contexto ultralargo, mejorando la viabilidad de despliegue en escenarios de un millón de tokens. Latencia y throughput reales dependen de implementación, hardware, batching, cuantización y framework de inferencia.

Resumen

La mayor diferencia entre DeepSeek-V4 y otros modelos grandes es que mueve la optimización de KV Cache desde la dimensión de cabezas de atención hacia la dimensión de longitud de secuencia.

GQA guarda menos cabezas KV. MLA hace más compacta la representación KV de cada token. DeepSeek-V4 además agrega tokens lejanos en bloques comprimidos y combina CSA, HCA, ventanas deslizantes y almacenamiento de baja precisión, para que el contexto de un millón de tokens no quede bloqueado de inmediato por KV Cache.

No es un truco único. Es una arquitectura de inferencia para contexto largo: conservar detalles cerca, comprimir lo lejano, recuperar detalles cuando hacen falta y resumir globalmente cuando es posible.

Para desarrolladores y aplicaciones de agentes, el significado es directo: contexto largo no es solo aceptar más entrada. Debe poder ejecutarse, ser estable y tener costo aceptable. Eso es lo que DeepSeek-V4 cambia.

Referencias

DeepSeek V4 Flash para una demo de juego en Godot: ¿hasta dónde llegan unos centavos?

Wed, 06 May 2026 09:22:18 +0800

¿Puede DeepSeek V4 Flash encargarse del desarrollo de una demo de juego en Godot?

El foco es simple: ¿puede crear una pequeña demo de Godot que se ejecute, se observe y tenga efectos físicos?

La respuesta corta es sí. La calidad no es comercial, pero ya es suficiente para prototipos de gameplay y demos de interacción física. Más importante aún, el costo es muy bajo, lo que lo hace adecuado para validar ideas rápidamente.

Rendimiento de la demo

El foco de esta demo es la interacción física.

Varios efectos visibles incluyen:

La cuerda puede cortarse.
La caja cae al suelo.
Después de aumentar la masa, las colisiones de la caja se vuelven más contundentes.
La cuerda muestra elasticidad evidente.
Después de ajustar fricción y elasticidad, la caja muestra deslizamiento y rebote claros.

Por lo que presenta, esto ya no es solo “unos scripts de Godot generados”. Es un pequeño prototipo que puede ejecutarse y mostrar comportamiento físico observable.

Usabilidad

El valor de esta demo es que puede ejecutarse, verse y modificarse. No es un juego completo ni un proyecto de ingeniería listo para comercialización directa, pero ya demuestra varias cosas:

DeepSeek V4 Flash puede entender el objetivo básico de una demo de Godot.
Un AI Agent puede convertir requisitos en un proyecto ejecutable.
Tareas no web como interacción física en Godot están entrando en una etapa de prototipado de bajo costo.
Para desarrolladores individuales, puede convertir rápidamente una idea en algo visible.

Si el objetivo es construir un juego formal, claramente no basta. Pero si el objetivo es verificar si una idea de gameplay es interesante o si el efecto físico aproximado puede hacerse, esta demo ya es usable.

Significado del costo

La parte más notable no es lo pulidos que son los visuales, sino el costo.

Si una demo física de Godot puede producir una versión ejecutable con costos de modelo de unos pocos centavos, su significado no es reemplazar el desarrollo profesional de videojuegos. Es reducir de forma drástica el costo de prueba y error de prototipos.

Antes, validar una pequeña idea de juego normalmente requería saber Godot, escribir scripts, configurar escenas y ajustar parámetros físicos. Ahora un AI Agent puede generar primero una versión ejecutable, y los humanos pueden juzgar si la dirección tiene sentido.

Para desarrolladores indie, este tipo de experimentación de bajo costo es útil:

Validar rápidamente conceptos de gameplay.
Generar demos temporales para que otros las vean.
Explorar APIs de Godot y el sistema físico.
Convertir ideas en un primer proyecto ejecutable.
Reducir el costo de código escrito a mano antes de aclarar la dirección.

Rendimiento de DeepSeek V4 Flash

Vale la pena notar que el modelo usado aquí es DeepSeek V4 Flash, no un modelo insignia más caro y pesado.

Funciona bien en el rol de modelo de prototipado de bajo costo. No es el más fuerte, estable ni adecuado para entregar ingeniería de producción, pero resulta atractivo en escenarios sensibles al presupuesto donde el objetivo es probar rápidamente una dirección.

Escenarios adecuados

DeepSeek V4 Flash + Agent + Godot encaja mejor con estas tareas:

Pequeños prototipos de gameplay.
Demos de efectos físicos.
Validación de conceptos de UI o interacción.
Ejemplos de enseñanza.
Ayuda para entender la estructura de proyectos Godot.
Generar un primer proyecto ejecutable.

Es menos adecuado para asumir directamente estas tareas:

Arquitectura de juego grande.
Controladores de personaje complejos.
Sincronización de red.
Código central para proyectos comerciales.
Simulación física de alta precisión.
Envío automático sin pruebas humanas.

En otras palabras, sirve como primer borrador y banco de pruebas, no como responsable de ingeniería de producción.

Qué demuestra esto

Esto muestra que AI coding sigue expandiéndose desde sitios web, scripts y APIs backend hacia desarrollo de juegos y prototipado interactivo.

El desarrollo de juegos solía tener una barrera alta de entrada, especialmente cuando motores, scripts, gestión de assets y sistemas físicos se mezclaban. Los principiantes podían atascarse fácilmente. Ahora modelos más herramientas Agent pueden configurar primero el proyecto, permitiendo a los desarrolladores centrarse en juzgar el gameplay y ajustar efectos.

Esto puede traer tres cambios:

Primero, los prototipos de juegos se vuelven más baratos. Muchas ideas ya no tienen que esperar a un desarrollo completo para validarse; pueden convertirse primero en demos ejecutables.

Segundo, los desarrolladores indie pueden estar más dispuestos a experimentar. Personas que no conocen Godot pueden aun así usar IA para tocar la estructura del proyecto y el flujo básico.

Tercero, la estabilidad del modelo se vuelve más importante. El desarrollo de juegos no consiste solo en que el código corra. El efecto también debe ser razonable, la sensación debe ser normal y los parámetros deben ser controlables. En el futuro, modelos que combinen mejor visuales reales y estado de ejecución serán más adecuados para este tipo de tarea.

Resumen

DeepSeek V4 Flash para una demo de Godot se puede resumir en una frase: no perfecto, pero lo bastante barato, rápido y adecuado para prototipar.

Todavía está lejos de los juegos comerciales, pero si el objetivo es validar una pequeña idea de juego a costo extremadamente bajo, ya tiene valor.

Para desarrolladores individuales, el uso más realista no es entregar todo el juego a la IA, sino dejar que la IA produzca primero un proyecto ejecutable mientras los humanos hacen juicio, compromisos y pulido. Usados así, modelos de bajo costo como DeepSeek V4 Flash se vuelven realmente atractivos.

Ejecutar DeepSeek V4 en local: estimaciones de VRAM para versiones Pro, Flash y Base

Fri, 01 May 2026 11:55:25 +0800

DeepSeek V4 y Gemma 4 no están en la misma categoría para despliegue local. Con Gemma 4 todavía tiene sentido hablar de ejecutar modelos 26B o 31B en GPUs de 24GB o 32GB. DeepSeek V4 es un modelo MoE enorme, y el despliegue local completo entra rápidamente en territorio de estaciones multi-GPU o servidores.

El lanzamiento oficial DeepSeek V4 Preview incluye principalmente dos modelos de inferencia:

DeepSeek-V4-Pro: 1.6T total / 49B active params
DeepSeek-V4-Flash: 284B total / 13B active params

La colección oficial de Hugging Face también incluye dos modelos Base:

DeepSeek-V4-Pro-Base
DeepSeek-V4-Flash-Base

Este artículo solo estima VRAM cuando se cargan los pesos completos. En modelos MoE, active params afecta sobre todo al cómputo por token. No significa que solo esos parámetros deban cargarse.

Resumen rápido

Escala de VRAM	Realista	No esperes
24GB	No puede cargar DeepSeek V4 completo; usa modelos destilados o API	V4-Flash / V4-Pro local completo
48GB	Aún no es adecuado para carga completa	V4-Flash Q4 estable
80GB	Pruebas V4-Flash Q2/Q3 u offload pesado	V4-Pro
128GB	V4-Flash Q4 empieza a ser más realista	V4-Pro Q4
192GB	V4-Flash FP8/Q6 más cómodo; Pro Q2 experimental	V4-Pro Q4
256GB	V4-Flash FP8 cómodo; Pro Q2/Q3 puede probarse	V4-Pro Q5+
512GB	V4-Pro Q4 empieza a discutirse	V4-Pro FP8
1TB+	V4-Pro FP8 y Pro-Base de bajo bit	Despliegue barato en una máquina
2TB+	Clase Pro-Base FP8	Estación común

Si tu objetivo es correr un modelo en un PC personal, DeepSeek V4 no es el objetivo adecuado. Es más realista usar API oficial, esperar cuantizaciones comunitarias maduras, usar modelos destilados o elegir modelos locales de 7B a 70B.

Tamaños oficiales de pesos

Las cifras vienen de model.safetensors.index.json en los repositorios oficiales de Hugging Face.

Model	Parameter Scale	Official Weight Size	Notes
`DeepSeek-V4-Flash`	284B total / 13B active	159.61GB	Inference model, smallest in this group
`DeepSeek-V4-Pro`	1.6T total / 49B active	864.70GB	Inference model, stronger but enormous
`DeepSeek-V4-Flash-Base`	284B total	294.67GB	Base model, closer to full FP8 weight size
`DeepSeek-V4-Pro-Base`	1.6T total	1606.03GB	Base model, about 1.6TB

Incluso el V4-Flash más pequeño se acerca a 160GB de pesos oficiales. No debe tratarse como un 13B solo por tener 13B active params.

Estimación de VRAM para DeepSeek V4 Flash

V4-Flash es la variante más abordable para experimentos locales, pero sigue sin ser un modelo de una sola GPU de consumo.

Version / Quantization	Estimated Weight Size	Minimum VRAM	Safer VRAM	Best For
`FP8 / official weights`	159.61GB	192GB	256GB	Multi-GPU servers, inference service
`Q6`	120GB	160GB	192GB	Quality-first quantization tests
`Q5`	100GB	128GB	160GB	Quality/size balance
`Q4`	80GB	96GB	128GB	More realistic starting point for Flash
`Q3`	60GB	80GB	96GB	Large-VRAM single GPU or multi-GPU tests
`Q2`	40GB	48GB	64GB	Extreme low-bit experiments with clear quality risk

Si aparecen builds maduros de V4-Flash Q4, probablemente seguirán sin ser modelos para 24GB. El punto de partida realista es 96GB a 128GB de VRAM total, o setups con offload que sacrifican velocidad por capacidad.

Estimación de VRAM para DeepSeek V4 Pro

V4-Pro es el modelo de inferencia insignia, con unos 864.70GB de pesos oficiales.

Version / Quantization	Estimated Weight Size	Minimum VRAM	Safer VRAM	Best For
`FP8 / official weights`	864.70GB	1TB	1.2TB+	Multi-node or multi-GPU inference service
`Q6`	648GB	768GB	1TB	High-quality quantized service
`Q5`	540GB	640GB	768GB	Quality/cost balance
`Q4`	432GB	512GB	640GB	Lowest practical quality line for Pro
`Q3`	324GB	384GB	512GB	Low-bit experiments
`Q2`	216GB	256GB	320GB	Extreme experiments with high risk

Para usuarios individuales, V4-Pro se consume mejor por API. Para despliegue local completo, trátalo como modelo de servidor multi-GPU.

Estimación de VRAM para Flash-Base y Pro-Base

Los modelos Base suelen ser para investigación, fine-tuning o entrenamiento continuo, no para chat común.

V4-Flash-Base pesa unos 294.67GB:

Version / Quantization	Estimated Weight Size	Minimum VRAM	Safer VRAM	Best For
`FP8 / official weights`	294.67GB	384GB	512GB	Research, preprocessing, evaluation
`Q6`	221GB	256GB	320GB	High-quality quantization research
`Q5`	184GB	224GB	256GB	Quality/size balance
`Q4`	147GB	192GB	224GB	Lower-cost Base experiments
`Q3`	111GB	128GB	160GB	Low-bit experiments
`Q2`	74GB	96GB	128GB	Extreme experiments

V4-Pro-Base pesa unos 1606.03GB:

Version / Quantization	Estimated Weight Size	Minimum VRAM	Safer VRAM	Best For
`FP8 / official weights`	1606.03GB	2TB	2.4TB+	Large-scale research clusters
`Q6`	1205GB	1.5TB	2TB	High-quality quantization research
`Q5`	1004GB	1.2TB	1.5TB	Research and evaluation
`Q4`	803GB	1TB	1.2TB	Low-bit research
`Q3`	602GB	768GB	1TB	Extreme low-bit research
`Q2`	402GB	512GB	640GB	Extreme experiments

Este tipo de modelo no debe evaluarse con la pregunta “¿lo corre una GPU doméstica?”. Incluso Q4 queda fuera de la comodidad de la mayoría de estaciones.

Por qué active params no basta

MoE activa solo parte de los expertos por token, por eso el cómputo puede ser mucho menor que el total de parámetros. Pero eso no significa que la VRAM solo tenga que cargar los parámetros activos.

El despliegue local completo depende de:

si todos los expertos deben residir en GPU;
si hay carga bajo demanda de expertos;
coste de transferencia CPU-GPU;
latencia de offload a NVMe;
crecimiento de KV cache con contexto largo;
sobrecarga de runtime en contexto muy largo;
coste de comunicación multi-GPU o multinodo.

V4-Pro con 49B active no se despliega como un 49B. V4-Flash con 13B active tampoco debe tratarse como un 13B pequeño.

Cómo elegir

Si eres usuario individual:

no intentes alojar DeepSeek V4 completo;
usa la API oficial cuando necesites sus capacidades;
para despliegue privado, revisa primero tu infraestructura multi-GPU;
con 24GB a 48GB, los modelos cuantizados 7B, 14B, 32B o 70B son más prácticos.

Con 128GB a 256GB de VRAM total, observa implementaciones estables de V4-Flash Q4/Q5. Con 512GB+, V4-Pro Q4 empieza a ser un objetivo de validación de ingeniería.

La pregunta clave no es “qué archivo cuantizado descargo”, sino “si tengo capacidad de inferencia de sistema para este modelo”.

Referencias

Cómo elegir entre GPT 5.5, Claude Opus 4.7, DeepSeek V4 y Qwen 3.6 Max

Tue, 28 Apr 2026 22:18:00 +0800

Si solo quieres la respuesta corta, recuerda primero esta versión:

Si desea la opción más confiable y la menor pérdida de tiempo, comience con GPT 5.5
Si lo que más le importa es la presentación de la página, la creatividad y el pulido visual, Claude Opus 4.7 sigue siendo potente.
Si desea saber qué modelo nacional se acerca más al nivel superior, “Qwen 3.6 Max” es altamente competitivo ahora
DeepSeek V4 no es débil, pero su salida es más desigual que la de los demás

Cuando la gente pregunta qué IA de codificación es la más potente en este momento, normalmente no preguntan por una tabla de clasificación. Piden algo más práctico:
Si necesito crear una página, hacer una demostración, generar una pequeña herramienta o agregar interacción, ¿qué modelo es más probable que me brinde algo utilizable en el primer intento?

Desde ese ángulo, las diferencias entre estos modelos ya son bastante claras.

El veredicto general

Si coloca GPT 5.5, Claude Opus 4.7, DeepSeek V4 y Qwen 3.6 Max uno al lado del otro, la opción más consistente sigue siendo GPT 5.5.

No siempre es el más llamativo, pero rara vez te deja claramente decepcionado. Es rápido, el primer borrador generalmente sale con un alto nivel de finalización y maneja la lógica, la interacción, el movimiento y los juegos pequeños con mano firme.

Claude Opus 4.7 se siente diferente. Su mayor fortaleza no es la pura estabilidad. Es la atmósfera de la página, la organización de la interfaz de usuario y la presentación. Muchas veces, abres lo que hizo y tu primera reacción es simplemente que se ve pulido. Si la presentación visual te importa más, vale la pena considerarla.

Qwen 3.6 Max es el que más merece una nueva apariencia. Ya no es sólo “utilizable para un modelo doméstico”. En algunos escenarios, realmente puede competir con “GPT 5.5” en calidad de salida. En las páginas frontales, la integridad visual y el realismo, ha comenzado a generar una presencia real.

DeepSeek V4 no falla porque no puede hacer el trabajo. El problema es que es menos predecible. Cuando funciona, puede ser perfectamente sólido y, a veces, sorprendentemente bueno. Pero la brecha entre sus mejores y más débiles resultados es aún más obvia que en el caso de los demás.

Dónde `GPT 5.5` es más fuerte

Si las cosas que haces con más frecuencia se ven así:

Generar una página web completa.
Crea una pequeña demostración con movimiento.
Crear una página interactiva con algo de lógica.
Generar un pequeño juego o una interacción multiestado.
Mantener el retrabajo al mínimo

Entonces “GPT 5.5” sigue siendo la respuesta predeterminada más segura.

Sus ventajas son principalmente estas:

Generación rápida de código.
Alta usabilidad desde el primer borrador
Menos errores graves en lógica e interacción.
Rendimiento estable en tareas mixtas

Para decirlo de manera más simple, “GPT 5.5” parece el modelo con más probabilidades de lograr las bases correctas en la primera pasada.
Lo que mucha gente realmente necesita no es el resultado más deslumbrante en una categoría. Necesitan que la primera versión no se rompa. En ese frente, sigue siendo la opción menos estresante.

Por supuesto, no está exenta de debilidades.

En páginas muy visuales, no siempre es lo más sorprendente.
A veces es tan estable que deja menos impresión de diseño

Entonces, si desea una recomendación predeterminada, sigue siendo “GPT 5.5”.
Eso no significa que sea el único que vale la pena mirar.

¿A quién se adapta mejor `Claude Opus 4.7`?

El atractivo de “Claude Opus 4.7” proviene más de cómo se siente la página.

Sus puntos fuertes suelen ser:

Estructura de interfaz de usuario más limpia
Presentación visual más completa
Mayor calidad de presentación en algunas páginas.
Creatividad más notoria en visualización y diseño.

Si el modelo te ayuda a construir cosas como:

Páginas de demostración
Páginas de presentación de datos.
Páginas pequeñas donde la sensación visual importa mucho.
Resultados que deberían lucir pulidos inmediatamente

Entonces “Claude” todavía merece un lugar cerca de la cima.

Sus debilidades también son bastante claras:

No es tan estable como GPT 5.5
A veces se ve bien, pero la lógica detallada se desvía.
En algunos casos, el código se ejecuta, pero la experiencia principal no es del todo correcta.

Así que “Claude” se siente más como un modelo frontal con instinto estético extra.
Si su primera prioridad es el aspecto de la página, tiene ventajas reales. Si tu mayor temor es un error lógico en el primer resultado, debes tener un poco más de cuidado.

Por qué `Qwen 3.6 Max` merece una atención seria

Entre estos modelos, el “Qwen 3.6 Max” ofrece la mayor sensación de impulso.

No hace mucho, muchas personas analizaban la IA de codificación doméstica preguntándose principalmente si podría mantenerse al día. Con Qwen 3.6 Max, la pregunta ya es diferente:
En escenarios de producción frontal, ¿puede competir directamente con los mejores modelos extranjeros?

Sus áreas más fuertes en este momento incluyen:

Salida de página atractiva
Movimiento sólido y efectos visuales realistas en algunos casos.
Salidas que se sienten más completas.
Resultados que a veces pueden acercarse o permanecer cerca de GPT 5.5

Eso dice algo importante.
Si su caso de uso se inclina hacia páginas web, trabajo frontend y resultados con muchas presentaciones, Qwen 3.6 Max ya no es solo una opción de respaldo. Puede ser tratado como un candidato principal serio.

Sin embargo, todavía tiene algunas debilidades.

En tareas lógicas con mucha interacción, aún puede perder un poco de integridad.
Algunas páginas se ven muy bien, mientras que algunas tareas son más planas de lo esperado.
Su variación es aún mayor que GPT 5.5

Aun así, su presencia actual ya es muy fuerte.
Si desea saber qué modelo doméstico merece la mayor atención en este momento, es difícil pasar por alto el “Qwen 3.6 Max”.

Dónde se encuentra `DeepSeek V4` ahora mismo

DeepSeek V4 es un poco más complicado de colocar.

El problema no es que no pueda hacer el trabajo. El problema es que es más difícil predecir dónde aterrizará un resultado determinado.
A veces puede terminar la tarea con imágenes y funcionalidad de trabajo decentes. A veces, una vez que la tarea requiere animación, lógica y presentación de datos al mismo tiempo, es más probable que tropiece.

Ahora mismo se siente más así:

Tiene habilidad real.
No es débil
Aún puede dar resultados aceptables en algunas tareas.
Pero su estabilidad aún no es lo suficientemente tranquilizadora.

Eso moldea a quién le conviene más.

Si no le importa intentarlo varias veces, puede tolerar un reinicio ocasional o ya planea verificar y editar el código usted mismo, aún vale la pena usar “DeepSeek V4”.
Pero si su principal prioridad es reducir la fricción y maximizar el éxito del primer paso, todavía no es la opción más segura.

Entonces, ¿qué debería elegir un usuario normal?

Si no está comparando modelos por diversión y realmente quiere trabajar, la forma más sencilla es elegir por caso de uso.

1. Quiere menos complicaciones y una mayor tasa de éxito en el primer paso

Elija “GPT 5.5”.

Lo mejor es este flujo de trabajo: “Este es mi requisito, denme una primera versión utilizable”.
Eso importa aún más cuando no tienes tiempo para seguir iterando y arreglando.

2. Te importa más la presentación y el acabado visual

Elija Claude Opus 4.7.

Si lo que desea es una página que ya se parezca más a un producto terminado, o si su trabajo está más orientado a demostraciones y presentaciones, Claude muestra su valor más fácilmente.

3. Quiere el modelo nacional más sólido para la producción inicial

Comience con Qwen 3.6 Max.

Ya no es algo que se utiliza únicamente como compromiso. Ahora se puede comparar directa y seriamente.
Si sus tareas se inclinan hacia las páginas web, el movimiento y la presentación, su competitividad ya es muy real.

4. Puedes tolerar algunas variaciones y quieres seguir observando el progreso interno.

Esté atento a DeepSeek V4.

Su problema no es la falta de capacidad. Es que el nivel de ejecución aún varía demasiado.
Si la estabilidad sigue mejorando, podría volverse mucho más importante.

Una última línea

La diferencia entre estas IA de codificación convencionales ya no es quién puede codificar y quién no. Se trata de quién es más estable, quién tiene mejor aspecto y quién se adapta a su tipo de trabajo.

Si desea la respuesta más sencilla, “GPT 5.5” sigue siendo la primera opción.
Si desea una calidad de presentación más fuerte, “Claude Opus 4.7” todavía tiene sabor real.
Si le interesa qué modelo nacional merece la mayor atención, “Qwen 3.6 Max” ya está cerca del frente.
DeepSeek V4 se siente más como un fuerte contendiente que todavía está trabajando en la coherencia.

Si quieres la conclusión más breve posible:

Para mayor estabilidad, elija GPT 5.5. Para la presentación, elija “Claude”. Entre los modelos nacionales, el que más vale la pena ver es el Qwen 3.6 Max.

DeepSeek-V4 on KnightLi Blog

DeepSeek-V4 KV Cache explicado: por qué el contexto de 1M usa menos VRAM

Varias generaciones de optimización de KV Cache

Cambio clave: de comprimir cabezas a comprimir secuencia

CSA: compresión 4x más recuperación dispersa

HCA: compresión 128x más atención densa

Ventana deslizante: el contexto reciente conserva detalle

Pila híbrida de capas: distintas capas usan distinta atención

FP8 y FP4 reducen aún más el costo de caché

Diferencias con otros modelos

Qué significa para agentes y tareas largas

No leas 2% como 2% de todo el costo

Resumen

Referencias

DeepSeek V4 Flash para una demo de juego en Godot: ¿hasta dónde llegan unos centavos?

Rendimiento de la demo

Usabilidad

Significado del costo

Rendimiento de DeepSeek V4 Flash

Escenarios adecuados

Qué demuestra esto

Resumen

Ejecutar DeepSeek V4 en local: estimaciones de VRAM para versiones Pro, Flash y Base

Resumen rápido

Tamaños oficiales de pesos

Estimación de VRAM para DeepSeek V4 Flash

Estimación de VRAM para DeepSeek V4 Pro

Estimación de VRAM para Flash-Base y Pro-Base

Por qué active params no basta

Cómo elegir

Referencias

Cómo elegir entre GPT 5.5, Claude Opus 4.7, DeepSeek V4 y Qwen 3.6 Max

El veredicto general

Dónde GPT 5.5 es más fuerte

¿A quién se adapta mejor Claude Opus 4.7?

Por qué Qwen 3.6 Max merece una atención seria

Dónde se encuentra DeepSeek V4 ahora mismo

Entonces, ¿qué debería elegir un usuario normal?

1. Quiere menos complicaciones y una mayor tasa de éxito en el primer paso

2. Te importa más la presentación y el acabado visual

3. Quiere el modelo nacional más sólido para la producción inicial

4. Puedes tolerar algunas variaciones y quieres seguir observando el progreso interno.

Una última línea

Dónde `GPT 5.5` es más fuerte

¿A quién se adapta mejor `Claude Opus 4.7`?

Por qué `Qwen 3.6 Max` merece una atención seria

Dónde se encuentra `DeepSeek V4` ahora mismo