<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>DeepSeek-V4 on KnightLi Blog</title>
        <link>https://knightli.com/es/tags/deepseek-v4/</link>
        <description>Recent content in DeepSeek-V4 on KnightLi Blog</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>es</language>
        <lastBuildDate>Mon, 18 May 2026 18:38:26 +0800</lastBuildDate><atom:link href="https://knightli.com/es/tags/deepseek-v4/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>DeepSeek-V4 KV Cache explicado: por qué el contexto de 1M usa menos VRAM</title>
        <link>https://knightli.com/es/2026/05/18/deepseek-v4-kv-cache-compressed-attention/</link>
        <pubDate>Mon, 18 May 2026 18:38:26 +0800</pubDate>
        
        <guid>https://knightli.com/es/2026/05/18/deepseek-v4-kv-cache-compressed-attention/</guid>
        <description>&lt;p&gt;El costo real de los modelos de contexto largo no suele estar en si aceptan un millón de tokens, sino en cuánta VRAM consume el KV Cache durante la inferencia.&lt;/p&gt;
&lt;p&gt;Durante la decodificación Transformer, cada nuevo token generado necesita acceder a los estados Key y Value de los tokens anteriores. Cuanto más largo es el contexto, más grande es el KV Cache. Un KV Cache mayor presiona VRAM, ancho de banda de memoria, tiempo al primer token y throughput.&lt;/p&gt;
&lt;p&gt;DeepSeek-V4 es interesante porque no solo reduce caché en la dimensión de cabezas de atención. Lleva la compresión a la dimensión de longitud de secuencia. Según el análisis de Hugging Face sobre DeepSeek-V4, en un escenario de 1M tokens, el KV Cache de DeepSeek-V4-Pro es alrededor del 10% del de DeepSeek-V3.2, y alrededor del 2% de una arquitectura GQA bf16 común.&lt;/p&gt;
&lt;p&gt;Esa es la diferencia clave: DeepSeek-V4 no solo guarda cada entrada KV en un formato más pequeño. Reduce la cantidad de entradas KV que deben conservarse y buscarse en una historia larga.&lt;/p&gt;
&lt;h2 id=&#34;varias-generaciones-de-optimización-de-kv-cache&#34;&gt;Varias generaciones de optimización de KV Cache
&lt;/h2&gt;&lt;p&gt;La optimización de KV Cache ha seguido varias rutas.&lt;/p&gt;
&lt;p&gt;La primera es MHA tradicional, Multi-Head Attention. Cada cabeza Query suele tener sus propias cabezas Key/Value. La estructura es directa, pero en contextos largos la caché crece linealmente con la longitud de secuencia, generando mucha presión de VRAM.&lt;/p&gt;
&lt;p&gt;La segunda es GQA, Grouped Query Attention. Varias cabezas Query comparten menos cabezas Key/Value. Muchos modelos modernos como LLaMA, Mistral y Qwen usan ideas similares. Reduce mucho el número de cabezas KV y hoy es una optimización común para contexto largo.&lt;/p&gt;
&lt;p&gt;La tercera es MLA, Multi-head Latent Attention. DeepSeek-V2 y DeepSeek-V3 usan esta ruta, comprimiendo Key/Value en representaciones latentes de bajo rango y reduciendo aún más la caché en la dimensión de cabezas.&lt;/p&gt;
&lt;p&gt;La cuarta es la atención comprimida híbrida de DeepSeek-V4. Se centra en la longitud de secuencia: no solo reduce cuánto KV guarda cada token, sino que comprime múltiples tokens históricos en menos entradas KV y las recupera mediante atención dispersa o densa.&lt;/p&gt;
&lt;p&gt;En términos simples:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;MHA: cada cabeza recuerda por separado.&lt;/li&gt;
&lt;li&gt;GQA: varias cabezas Query comparten memoria.&lt;/li&gt;
&lt;li&gt;MLA: la representación KV de cada token se comprime en un vector latente.&lt;/li&gt;
&lt;li&gt;DeepSeek-V4: muchos tokens históricos se agregan en menos bloques de memoria comprimida.&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;cambio-clave-de-comprimir-cabezas-a-comprimir-secuencia&#34;&gt;Cambio clave: de comprimir cabezas a comprimir secuencia
&lt;/h2&gt;&lt;p&gt;GQA y MLA optimizan principalmente cuánto KV guarda cada token. Funciona bien, pero cuando el contexto llega a 1M tokens, el número de tokens se vuelve el problema principal.&lt;/p&gt;
&lt;p&gt;DeepSeek-V4 comprime el contexto antiguo en bloques. El modelo no necesita preservar KV completo para cada token lejano. En su lugar, varios tokens forman entradas comprimidas.&lt;/p&gt;
&lt;p&gt;Es parecido a leer un libro muy largo: recuerdas con detalle las páginas recientes, mientras que los capítulos anteriores quedan como resúmenes, temas y pistas importantes. La atención de DeepSeek-V4 sigue una división similar: conservar detalle cerca y usar representación comprimida lejos.&lt;/p&gt;
&lt;h2 id=&#34;csa-compresión-4x-más-recuperación-dispersa&#34;&gt;CSA: compresión 4x más recuperación dispersa
&lt;/h2&gt;&lt;p&gt;CSA significa Compressed Sparse Attention. Es el mecanismo de compresión de largo alcance de grano más fino.&lt;/p&gt;
&lt;p&gt;En CSA, el modelo comprime tokens vecinos en menos entradas KV. La documentación de Hugging Face Transformers da una razón de compresión por defecto &lt;code&gt;m=4&lt;/code&gt;, es decir, aproximadamente cada cuatro tokens forman una entrada comprimida.&lt;/p&gt;
&lt;p&gt;No es un promedio simple. CSA usa un pool de compresión aprendido y ventanas solapadas para preservar información útil. Después de comprimir, la consulta no atiende a todos los bloques comprimidos directamente. Primero usa Lightning Indexer para puntuarlos, selecciona los bloques top-k más relevantes y luego realiza la atención principal.&lt;/p&gt;
&lt;p&gt;Esto aporta dos beneficios:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;El número de entradas KV históricas disminuye.&lt;/li&gt;
&lt;li&gt;Cada consulta mira solo un subconjunto relevante de bloques comprimidos.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;CSA encaja con contextos lejanos donde todavía importan detalles: bases de código, documentos largos e historiales de llamadas a herramientas.&lt;/p&gt;
&lt;h2 id=&#34;hca-compresión-128x-más-atención-densa&#34;&gt;HCA: compresión 128x más atención densa
&lt;/h2&gt;&lt;p&gt;HCA significa Heavily Compressed Attention, y es más agresivo.&lt;/p&gt;
&lt;p&gt;La documentación de Transformers da una razón por defecto &lt;code&gt;m&#39;=128&lt;/code&gt;. HCA comprime un tramo mucho más largo de contexto en una sola entrada comprimida. Como la secuencia resultante ya es muy corta, no necesita recuperación dispersa top-k como CSA. La consulta puede hacer atención densa sobre todas las entradas HCA comprimidas.&lt;/p&gt;
&lt;p&gt;HCA se parece más a un resumen global. No intenta conservar todos los detalles. Cubre una historia muy larga a costo muy bajo, ayudando al modelo a mantener conciencia de contexto global, temas de largo alcance e información lejana.&lt;/p&gt;
&lt;p&gt;Si CSA es &amp;ldquo;notas comprimidas consultables&amp;rdquo;, HCA es más bien un &amp;ldquo;índice global y resumen&amp;rdquo;.&lt;/p&gt;
&lt;h2 id=&#34;ventana-deslizante-el-contexto-reciente-conserva-detalle&#34;&gt;Ventana deslizante: el contexto reciente conserva detalle
&lt;/h2&gt;&lt;p&gt;DeepSeek-V4 no comprime todo.&lt;/p&gt;
&lt;p&gt;Además de CSA y HCA, mantiene una rama de ventana deslizante para el contexto reciente sin comprimir. La documentación de Transformers indica que los attention blocks de DeepSeek-V4 concatenan ramas comprimidas de largo alcance con K/V de ventana deslizante.&lt;/p&gt;
&lt;p&gt;Esto importa. Al generar el siguiente token, el contexto más cercano suele ser el más importante: nombres de variables, firmas de funciones, la frase actual, resultados recientes de herramientas o la última instrucción del usuario. Si se comprimiera demasiado, la calidad de salida caería.&lt;/p&gt;
&lt;p&gt;La idea de DeepSeek-V4 es:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Cerca: conservar detalles sin comprimir.&lt;/li&gt;
&lt;li&gt;Medio y largo alcance: usar CSA para compresión consultable.&lt;/li&gt;
&lt;li&gt;Más lejos: usar HCA para resumen global muy comprimido.&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;pila-híbrida-de-capas-distintas-capas-usan-distinta-atención&#34;&gt;Pila híbrida de capas: distintas capas usan distinta atención
&lt;/h2&gt;&lt;p&gt;DeepSeek-V4 no usa el mismo mecanismo de atención en todas las capas.&lt;/p&gt;
&lt;p&gt;El artículo de Hugging Face sobre DeepSeek-V4 señala que la estructura de 61 capas de V4-Pro usa HCA en las dos primeras capas, alterna CSA y HCA después, y usa una sliding-window MTP block al final. La documentación de Transformers también describe V4-Pro como dos capas HCA bootstrap seguidas por capas alternas CSA/HCA.&lt;/p&gt;
&lt;p&gt;Esto muestra que DeepSeek-V4 trata la atención como un sistema por capas. Algunas capas favorecen compresión global, otras recuperación dispersa, y otras conservan ventanas locales.&lt;/p&gt;
&lt;p&gt;Es más complejo que usar un solo tipo de atención en todas partes, pero se ajusta mejor a contextos extremos de 1M tokens.&lt;/p&gt;
&lt;h2 id=&#34;fp8-y-fp4-reducen-aún-más-el-costo-de-caché&#34;&gt;FP8 y FP4 reducen aún más el costo de caché
&lt;/h2&gt;&lt;p&gt;El ahorro de DeepSeek-V4 no viene solo de la razón de compresión.&lt;/p&gt;
&lt;p&gt;El artículo de Hugging Face indica que la mayoría de entradas KV en V4 usan almacenamiento FP8, las dimensiones relacionadas con RoPE permanecen en BF16, y el Lightning Indexer de CSA usa FP4. La combinación de compresión, baja precisión y recuperación dispersa produce un uso muy bajo de KV Cache.&lt;/p&gt;
&lt;p&gt;Esto recuerda algo importante: no basta mirar el número de longitud de contexto. La viabilidad de despliegue depende de VRAM, presión de ancho de banda, latencia y calidad de implementación bajo contexto largo.&lt;/p&gt;
&lt;h2 id=&#34;diferencias-con-otros-modelos&#34;&gt;Diferencias con otros modelos
&lt;/h2&gt;&lt;p&gt;Frente a MHA tradicional, DeepSeek-V4 ya no mantiene memoria de atención completa para cada token en una historia larga, así que la presión de caché cae mucho.&lt;/p&gt;
&lt;p&gt;Frente a GQA, DeepSeek-V4 no solo reduce el número de cabezas KV. También reduce el número de entradas KV para historia larga. GQA sigue acumulando caché linealmente con la longitud de secuencia; V4 comprime el contexto lejano en bloques.&lt;/p&gt;
&lt;p&gt;Frente al MLA de DeepSeek-V3, V4 extiende la optimización desde &amp;ldquo;hacer más compacta la representación de cada token&amp;rdquo; hacia &amp;ldquo;comprimir también la cantidad de entradas históricas&amp;rdquo;. MLA ya reduce mucho el costo KV por token, pero en contexto de millones de tokens la longitud de secuencia sigue siendo un cuello de botella.&lt;/p&gt;
&lt;p&gt;Frente a atención dispersa ordinaria, CSA primero comprime y luego recupera de forma dispersa sobre una secuencia comprimida más corta. HCA va más lejos: con compresión 128x, incluso la atención densa resulta barata.&lt;/p&gt;
&lt;h2 id=&#34;qué-significa-para-agentes-y-tareas-largas&#34;&gt;Qué significa para agentes y tareas largas
&lt;/h2&gt;&lt;p&gt;Los workflows de agentes consumen mucho contexto. Leen archivos, llaman herramientas, reciben resultados, generan planes, corrigen planes y vuelven a llamar herramientas. Cuanto más largo es el contexto, más probable es que KV Cache sea el cuello de botella.&lt;/p&gt;
&lt;p&gt;El diseño de caché de DeepSeek-V4 puede ayudar en varias formas:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Manejar bases de código largas, documentos extensos e historiales de herramientas de muchas rondas.&lt;/li&gt;
&lt;li&gt;Reducir presión sobre tiempo al primer token y throughput causada por KV Cache.&lt;/li&gt;
&lt;li&gt;Ejecutar contextos más largos o más solicitudes concurrentes con el mismo hardware.&lt;/li&gt;
&lt;li&gt;Acercar el contexto de un millón de tokens a un despliegue práctico, no solo a un número de benchmark.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Pero la atención comprimida no es gratis. Comprimir tokens históricos en bloques implica elegir qué información se conserva. El modelo debe equilibrar ahorro de VRAM con retención de detalles recuperables. El rendimiento real depende de la tarea: navegación de código, documentos legales, QA largo y toolchains de agentes tienen necesidades distintas de recuperación de detalles.&lt;/p&gt;
&lt;h2 id=&#34;no-leas-2-como-2-de-todo-el-costo&#34;&gt;No leas 2% como 2% de todo el costo
&lt;/h2&gt;&lt;p&gt;&amp;ldquo;KV Cache alrededor del 2% de GQA&amp;rdquo; puede malinterpretarse.&lt;/p&gt;
&lt;p&gt;Se refiere principalmente al tamaño de memoria de KV Cache. No significa que el costo total de inferencia caiga al 2%, ni que todos los escenarios sean 50 veces más rápidos. La inferencia también incluye lectura de pesos, enrutamiento MoE, redes feed-forward, cómputo de atención, scheduling y comunicación.&lt;/p&gt;
&lt;p&gt;El artículo de Hugging Face separa dos números: en contexto de 1M tokens, los FLOPs por token de DeepSeek-V4-Pro son 27% de DeepSeek-V3.2, mientras que KV Cache es 10%. Caché y cómputo son dimensiones distintas.&lt;/p&gt;
&lt;p&gt;La afirmación más segura es: DeepSeek-V4 reduce mucho la presión de KV Cache en contexto ultralargo, mejorando la viabilidad de despliegue en escenarios de un millón de tokens. Latencia y throughput reales dependen de implementación, hardware, batching, cuantización y framework de inferencia.&lt;/p&gt;
&lt;h2 id=&#34;resumen&#34;&gt;Resumen
&lt;/h2&gt;&lt;p&gt;La mayor diferencia entre DeepSeek-V4 y otros modelos grandes es que mueve la optimización de KV Cache desde la dimensión de cabezas de atención hacia la dimensión de longitud de secuencia.&lt;/p&gt;
&lt;p&gt;GQA guarda menos cabezas KV. MLA hace más compacta la representación KV de cada token. DeepSeek-V4 además agrega tokens lejanos en bloques comprimidos y combina CSA, HCA, ventanas deslizantes y almacenamiento de baja precisión, para que el contexto de un millón de tokens no quede bloqueado de inmediato por KV Cache.&lt;/p&gt;
&lt;p&gt;No es un truco único. Es una arquitectura de inferencia para contexto largo: conservar detalles cerca, comprimir lo lejano, recuperar detalles cuando hacen falta y resumir globalmente cuando es posible.&lt;/p&gt;
&lt;p&gt;Para desarrolladores y aplicaciones de agentes, el significado es directo: contexto largo no es solo aceptar más entrada. Debe poder ejecutarse, ser estable y tener costo aceptable. Eso es lo que DeepSeek-V4 cambia.&lt;/p&gt;
&lt;h2 id=&#34;referencias&#34;&gt;Referencias
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/blog/deepseekv4&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Hugging Face: DeepSeek-V4: a million-token context that agents can actually use&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/docs/transformers/model_doc/deepseek_v4&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Hugging Face Transformers: DeepSeek-V4 model documentation&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://arxiv.org/abs/2412.19437&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;DeepSeek-V3 Technical Report&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>DeepSeek V4 Flash para una demo de juego en Godot: ¿hasta dónde llegan unos centavos?</title>
        <link>https://knightli.com/es/2026/05/06/deepseek-v4-flash-godot-game-demo/</link>
        <pubDate>Wed, 06 May 2026 09:22:18 +0800</pubDate>
        
        <guid>https://knightli.com/es/2026/05/06/deepseek-v4-flash-godot-game-demo/</guid>
        <description>&lt;p&gt;¿Puede &lt;code&gt;DeepSeek V4 Flash&lt;/code&gt; encargarse del desarrollo de una demo de juego en Godot?&lt;/p&gt;
&lt;p&gt;El foco es simple: ¿puede crear una pequeña demo de Godot que se ejecute, se observe y tenga efectos físicos?&lt;/p&gt;
&lt;p&gt;La respuesta corta es sí. La calidad no es comercial, pero ya es suficiente para prototipos de gameplay y demos de interacción física. Más importante aún, el costo es muy bajo, lo que lo hace adecuado para validar ideas rápidamente.&lt;/p&gt;
&lt;h2 id=&#34;rendimiento-de-la-demo&#34;&gt;Rendimiento de la demo
&lt;/h2&gt;&lt;p&gt;El foco de esta demo es la interacción física.&lt;/p&gt;
&lt;p&gt;Varios efectos visibles incluyen:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;La cuerda puede cortarse.&lt;/li&gt;
&lt;li&gt;La caja cae al suelo.&lt;/li&gt;
&lt;li&gt;Después de aumentar la masa, las colisiones de la caja se vuelven más contundentes.&lt;/li&gt;
&lt;li&gt;La cuerda muestra elasticidad evidente.&lt;/li&gt;
&lt;li&gt;Después de ajustar fricción y elasticidad, la caja muestra deslizamiento y rebote claros.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Por lo que presenta, esto ya no es solo &amp;ldquo;unos scripts de Godot generados&amp;rdquo;. Es un pequeño prototipo que puede ejecutarse y mostrar comportamiento físico observable.&lt;/p&gt;
&lt;h2 id=&#34;usabilidad&#34;&gt;Usabilidad
&lt;/h2&gt;&lt;p&gt;El valor de esta demo es que puede ejecutarse, verse y modificarse. No es un juego completo ni un proyecto de ingeniería listo para comercialización directa, pero ya demuestra varias cosas:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;DeepSeek V4 Flash&lt;/code&gt; puede entender el objetivo básico de una demo de Godot.&lt;/li&gt;
&lt;li&gt;Un AI Agent puede convertir requisitos en un proyecto ejecutable.&lt;/li&gt;
&lt;li&gt;Tareas no web como interacción física en Godot están entrando en una etapa de prototipado de bajo costo.&lt;/li&gt;
&lt;li&gt;Para desarrolladores individuales, puede convertir rápidamente una idea en algo visible.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Si el objetivo es construir un juego formal, claramente no basta. Pero si el objetivo es verificar si una idea de gameplay es interesante o si el efecto físico aproximado puede hacerse, esta demo ya es usable.&lt;/p&gt;
&lt;h2 id=&#34;significado-del-costo&#34;&gt;Significado del costo
&lt;/h2&gt;&lt;p&gt;La parte más notable no es lo pulidos que son los visuales, sino el costo.&lt;/p&gt;
&lt;p&gt;Si una demo física de Godot puede producir una versión ejecutable con costos de modelo de unos pocos centavos, su significado no es reemplazar el desarrollo profesional de videojuegos. Es reducir de forma drástica el costo de prueba y error de prototipos.&lt;/p&gt;
&lt;p&gt;Antes, validar una pequeña idea de juego normalmente requería saber Godot, escribir scripts, configurar escenas y ajustar parámetros físicos. Ahora un AI Agent puede generar primero una versión ejecutable, y los humanos pueden juzgar si la dirección tiene sentido.&lt;/p&gt;
&lt;p&gt;Para desarrolladores indie, este tipo de experimentación de bajo costo es útil:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Validar rápidamente conceptos de gameplay.&lt;/li&gt;
&lt;li&gt;Generar demos temporales para que otros las vean.&lt;/li&gt;
&lt;li&gt;Explorar APIs de Godot y el sistema físico.&lt;/li&gt;
&lt;li&gt;Convertir ideas en un primer proyecto ejecutable.&lt;/li&gt;
&lt;li&gt;Reducir el costo de código escrito a mano antes de aclarar la dirección.&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;rendimiento-de-deepseek-v4-flash&#34;&gt;Rendimiento de DeepSeek V4 Flash
&lt;/h2&gt;&lt;p&gt;Vale la pena notar que el modelo usado aquí es &lt;code&gt;DeepSeek V4 Flash&lt;/code&gt;, no un modelo insignia más caro y pesado.&lt;/p&gt;
&lt;p&gt;Funciona bien en el rol de modelo de prototipado de bajo costo. No es el más fuerte, estable ni adecuado para entregar ingeniería de producción, pero resulta atractivo en escenarios sensibles al presupuesto donde el objetivo es probar rápidamente una dirección.&lt;/p&gt;
&lt;h2 id=&#34;escenarios-adecuados&#34;&gt;Escenarios adecuados
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;DeepSeek V4 Flash + Agent + Godot&lt;/code&gt; encaja mejor con estas tareas:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Pequeños prototipos de gameplay.&lt;/li&gt;
&lt;li&gt;Demos de efectos físicos.&lt;/li&gt;
&lt;li&gt;Validación de conceptos de UI o interacción.&lt;/li&gt;
&lt;li&gt;Ejemplos de enseñanza.&lt;/li&gt;
&lt;li&gt;Ayuda para entender la estructura de proyectos Godot.&lt;/li&gt;
&lt;li&gt;Generar un primer proyecto ejecutable.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Es menos adecuado para asumir directamente estas tareas:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Arquitectura de juego grande.&lt;/li&gt;
&lt;li&gt;Controladores de personaje complejos.&lt;/li&gt;
&lt;li&gt;Sincronización de red.&lt;/li&gt;
&lt;li&gt;Código central para proyectos comerciales.&lt;/li&gt;
&lt;li&gt;Simulación física de alta precisión.&lt;/li&gt;
&lt;li&gt;Envío automático sin pruebas humanas.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;En otras palabras, sirve como primer borrador y banco de pruebas, no como responsable de ingeniería de producción.&lt;/p&gt;
&lt;h2 id=&#34;qué-demuestra-esto&#34;&gt;Qué demuestra esto
&lt;/h2&gt;&lt;p&gt;Esto muestra que AI coding sigue expandiéndose desde sitios web, scripts y APIs backend hacia desarrollo de juegos y prototipado interactivo.&lt;/p&gt;
&lt;p&gt;El desarrollo de juegos solía tener una barrera alta de entrada, especialmente cuando motores, scripts, gestión de assets y sistemas físicos se mezclaban. Los principiantes podían atascarse fácilmente. Ahora modelos más herramientas Agent pueden configurar primero el proyecto, permitiendo a los desarrolladores centrarse en juzgar el gameplay y ajustar efectos.&lt;/p&gt;
&lt;p&gt;Esto puede traer tres cambios:&lt;/p&gt;
&lt;p&gt;Primero, los prototipos de juegos se vuelven más baratos. Muchas ideas ya no tienen que esperar a un desarrollo completo para validarse; pueden convertirse primero en demos ejecutables.&lt;/p&gt;
&lt;p&gt;Segundo, los desarrolladores indie pueden estar más dispuestos a experimentar. Personas que no conocen Godot pueden aun así usar IA para tocar la estructura del proyecto y el flujo básico.&lt;/p&gt;
&lt;p&gt;Tercero, la estabilidad del modelo se vuelve más importante. El desarrollo de juegos no consiste solo en que el código corra. El efecto también debe ser razonable, la sensación debe ser normal y los parámetros deben ser controlables. En el futuro, modelos que combinen mejor visuales reales y estado de ejecución serán más adecuados para este tipo de tarea.&lt;/p&gt;
&lt;h2 id=&#34;resumen&#34;&gt;Resumen
&lt;/h2&gt;&lt;p&gt;DeepSeek V4 Flash para una demo de Godot se puede resumir en una frase: &lt;strong&gt;no perfecto, pero lo bastante barato, rápido y adecuado para prototipar.&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;Todavía está lejos de los juegos comerciales, pero si el objetivo es validar una pequeña idea de juego a costo extremadamente bajo, ya tiene valor.&lt;/p&gt;
&lt;p&gt;Para desarrolladores individuales, el uso más realista no es entregar todo el juego a la IA, sino dejar que la IA produzca primero un proyecto ejecutable mientras los humanos hacen juicio, compromisos y pulido. Usados así, modelos de bajo costo como DeepSeek V4 Flash se vuelven realmente atractivos.&lt;/p&gt;
</description>
        </item>
        <item>
        <title>Ejecutar DeepSeek V4 en local: estimaciones de VRAM para versiones Pro, Flash y Base</title>
        <link>https://knightli.com/es/2026/05/01/deepseek-v4-local-vram-quantization-table/</link>
        <pubDate>Fri, 01 May 2026 11:55:25 +0800</pubDate>
        
        <guid>https://knightli.com/es/2026/05/01/deepseek-v4-local-vram-quantization-table/</guid>
        <description>&lt;p&gt;DeepSeek V4 y Gemma 4 no están en la misma categoría para despliegue local.
Con Gemma 4 todavía tiene sentido hablar de ejecutar modelos 26B o 31B en GPUs de 24GB o 32GB. DeepSeek V4 es un modelo MoE enorme, y el despliegue local completo entra rápidamente en territorio de estaciones multi-GPU o servidores.&lt;/p&gt;
&lt;p&gt;El lanzamiento oficial DeepSeek V4 Preview incluye principalmente dos modelos de inferencia:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;DeepSeek-V4-Pro&lt;/code&gt;: &lt;code&gt;1.6T total / 49B active params&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;DeepSeek-V4-Flash&lt;/code&gt;: &lt;code&gt;284B total / 13B active params&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;La colección oficial de Hugging Face también incluye dos modelos Base:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;DeepSeek-V4-Pro-Base&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;DeepSeek-V4-Flash-Base&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Este artículo solo estima VRAM cuando se cargan los pesos completos. En modelos MoE, &lt;code&gt;active params&lt;/code&gt; afecta sobre todo al cómputo por token. No significa que solo esos parámetros deban cargarse.&lt;/p&gt;
&lt;h2 id=&#34;resumen-rápido&#34;&gt;Resumen rápido
&lt;/h2&gt;&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;Escala de VRAM&lt;/th&gt;
          &lt;th&gt;Realista&lt;/th&gt;
          &lt;th&gt;No esperes&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;24GB&lt;/td&gt;
          &lt;td&gt;No puede cargar DeepSeek V4 completo; usa modelos destilados o API&lt;/td&gt;
          &lt;td&gt;V4-Flash / V4-Pro local completo&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;48GB&lt;/td&gt;
          &lt;td&gt;Aún no es adecuado para carga completa&lt;/td&gt;
          &lt;td&gt;V4-Flash Q4 estable&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;80GB&lt;/td&gt;
          &lt;td&gt;Pruebas V4-Flash Q2/Q3 u offload pesado&lt;/td&gt;
          &lt;td&gt;V4-Pro&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;128GB&lt;/td&gt;
          &lt;td&gt;V4-Flash Q4 empieza a ser más realista&lt;/td&gt;
          &lt;td&gt;V4-Pro Q4&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;192GB&lt;/td&gt;
          &lt;td&gt;V4-Flash FP8/Q6 más cómodo; Pro Q2 experimental&lt;/td&gt;
          &lt;td&gt;V4-Pro Q4&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;256GB&lt;/td&gt;
          &lt;td&gt;V4-Flash FP8 cómodo; Pro Q2/Q3 puede probarse&lt;/td&gt;
          &lt;td&gt;V4-Pro Q5+&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;512GB&lt;/td&gt;
          &lt;td&gt;V4-Pro Q4 empieza a discutirse&lt;/td&gt;
          &lt;td&gt;V4-Pro FP8&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;1TB+&lt;/td&gt;
          &lt;td&gt;V4-Pro FP8 y Pro-Base de bajo bit&lt;/td&gt;
          &lt;td&gt;Despliegue barato en una máquina&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;2TB+&lt;/td&gt;
          &lt;td&gt;Clase Pro-Base FP8&lt;/td&gt;
          &lt;td&gt;Estación común&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;Si tu objetivo es correr un modelo en un PC personal, DeepSeek V4 no es el objetivo adecuado. Es más realista usar API oficial, esperar cuantizaciones comunitarias maduras, usar modelos destilados o elegir modelos locales de 7B a 70B.&lt;/p&gt;
&lt;h2 id=&#34;tamaños-oficiales-de-pesos&#34;&gt;Tamaños oficiales de pesos
&lt;/h2&gt;&lt;p&gt;Las cifras vienen de &lt;code&gt;model.safetensors.index.json&lt;/code&gt; en los repositorios oficiales de Hugging Face.&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;Model&lt;/th&gt;
          &lt;th&gt;Parameter Scale&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;Official Weight Size&lt;/th&gt;
          &lt;th&gt;Notes&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;DeepSeek-V4-Flash&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;284B total / 13B active&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;159.61GB&lt;/td&gt;
          &lt;td&gt;Inference model, smallest in this group&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;DeepSeek-V4-Pro&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;1.6T total / 49B active&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;864.70GB&lt;/td&gt;
          &lt;td&gt;Inference model, stronger but enormous&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;DeepSeek-V4-Flash-Base&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;284B total&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;294.67GB&lt;/td&gt;
          &lt;td&gt;Base model, closer to full FP8 weight size&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;DeepSeek-V4-Pro-Base&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;1.6T total&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1606.03GB&lt;/td&gt;
          &lt;td&gt;Base model, about 1.6TB&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;Incluso el &lt;code&gt;V4-Flash&lt;/code&gt; más pequeño se acerca a 160GB de pesos oficiales. No debe tratarse como un 13B solo por tener &lt;code&gt;13B active params&lt;/code&gt;.&lt;/p&gt;
&lt;h2 id=&#34;estimación-de-vram-para-deepseek-v4-flash&#34;&gt;Estimación de VRAM para DeepSeek V4 Flash
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;V4-Flash&lt;/code&gt; es la variante más abordable para experimentos locales, pero sigue sin ser un modelo de una sola GPU de consumo.&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;Version / Quantization&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;Estimated Weight Size&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;Minimum VRAM&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;Safer VRAM&lt;/th&gt;
          &lt;th&gt;Best For&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;FP8 / official weights&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;159.61GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;192GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;256GB&lt;/td&gt;
          &lt;td&gt;Multi-GPU servers, inference service&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q6&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;120GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;160GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;192GB&lt;/td&gt;
          &lt;td&gt;Quality-first quantization tests&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q5&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;100GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;128GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;160GB&lt;/td&gt;
          &lt;td&gt;Quality/size balance&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q4&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;80GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;96GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;128GB&lt;/td&gt;
          &lt;td&gt;More realistic starting point for Flash&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q3&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;60GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;80GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;96GB&lt;/td&gt;
          &lt;td&gt;Large-VRAM single GPU or multi-GPU tests&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q2&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;40GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;48GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;64GB&lt;/td&gt;
          &lt;td&gt;Extreme low-bit experiments with clear quality risk&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;Si aparecen builds maduros de &lt;code&gt;V4-Flash Q4&lt;/code&gt;, probablemente seguirán sin ser modelos para 24GB. El punto de partida realista es 96GB a 128GB de VRAM total, o setups con offload que sacrifican velocidad por capacidad.&lt;/p&gt;
&lt;h2 id=&#34;estimación-de-vram-para-deepseek-v4-pro&#34;&gt;Estimación de VRAM para DeepSeek V4 Pro
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;V4-Pro&lt;/code&gt; es el modelo de inferencia insignia, con unos 864.70GB de pesos oficiales.&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;Version / Quantization&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;Estimated Weight Size&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;Minimum VRAM&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;Safer VRAM&lt;/th&gt;
          &lt;th&gt;Best For&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;FP8 / official weights&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;864.70GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1TB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1.2TB+&lt;/td&gt;
          &lt;td&gt;Multi-node or multi-GPU inference service&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q6&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;648GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;768GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1TB&lt;/td&gt;
          &lt;td&gt;High-quality quantized service&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q5&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;540GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;640GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;768GB&lt;/td&gt;
          &lt;td&gt;Quality/cost balance&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q4&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;432GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;512GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;640GB&lt;/td&gt;
          &lt;td&gt;Lowest practical quality line for Pro&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q3&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;324GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;384GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;512GB&lt;/td&gt;
          &lt;td&gt;Low-bit experiments&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q2&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;216GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;256GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;320GB&lt;/td&gt;
          &lt;td&gt;Extreme experiments with high risk&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;Para usuarios individuales, &lt;code&gt;V4-Pro&lt;/code&gt; se consume mejor por API. Para despliegue local completo, trátalo como modelo de servidor multi-GPU.&lt;/p&gt;
&lt;h2 id=&#34;estimación-de-vram-para-flash-base-y-pro-base&#34;&gt;Estimación de VRAM para Flash-Base y Pro-Base
&lt;/h2&gt;&lt;p&gt;Los modelos Base suelen ser para investigación, fine-tuning o entrenamiento continuo, no para chat común.&lt;/p&gt;
&lt;p&gt;&lt;code&gt;V4-Flash-Base&lt;/code&gt; pesa unos 294.67GB:&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;Version / Quantization&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;Estimated Weight Size&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;Minimum VRAM&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;Safer VRAM&lt;/th&gt;
          &lt;th&gt;Best For&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;FP8 / official weights&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;294.67GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;384GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;512GB&lt;/td&gt;
          &lt;td&gt;Research, preprocessing, evaluation&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q6&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;221GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;256GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;320GB&lt;/td&gt;
          &lt;td&gt;High-quality quantization research&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q5&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;184GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;224GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;256GB&lt;/td&gt;
          &lt;td&gt;Quality/size balance&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q4&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;147GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;192GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;224GB&lt;/td&gt;
          &lt;td&gt;Lower-cost Base experiments&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q3&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;111GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;128GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;160GB&lt;/td&gt;
          &lt;td&gt;Low-bit experiments&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q2&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;74GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;96GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;128GB&lt;/td&gt;
          &lt;td&gt;Extreme experiments&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;code&gt;V4-Pro-Base&lt;/code&gt; pesa unos 1606.03GB:&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;Version / Quantization&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;Estimated Weight Size&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;Minimum VRAM&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;Safer VRAM&lt;/th&gt;
          &lt;th&gt;Best For&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;FP8 / official weights&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1606.03GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;2TB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;2.4TB+&lt;/td&gt;
          &lt;td&gt;Large-scale research clusters&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q6&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1205GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1.5TB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;2TB&lt;/td&gt;
          &lt;td&gt;High-quality quantization research&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q5&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1004GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1.2TB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1.5TB&lt;/td&gt;
          &lt;td&gt;Research and evaluation&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q4&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;803GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1TB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1.2TB&lt;/td&gt;
          &lt;td&gt;Low-bit research&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q3&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;602GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;768GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1TB&lt;/td&gt;
          &lt;td&gt;Extreme low-bit research&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q2&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;402GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;512GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;640GB&lt;/td&gt;
          &lt;td&gt;Extreme experiments&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;Este tipo de modelo no debe evaluarse con la pregunta &amp;ldquo;¿lo corre una GPU doméstica?&amp;rdquo;. Incluso Q4 queda fuera de la comodidad de la mayoría de estaciones.&lt;/p&gt;
&lt;h2 id=&#34;por-qué-active-params-no-basta&#34;&gt;Por qué active params no basta
&lt;/h2&gt;&lt;p&gt;MoE activa solo parte de los expertos por token, por eso el cómputo puede ser mucho menor que el total de parámetros. Pero eso no significa que la VRAM solo tenga que cargar los parámetros activos.&lt;/p&gt;
&lt;p&gt;El despliegue local completo depende de:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;si todos los expertos deben residir en GPU;&lt;/li&gt;
&lt;li&gt;si hay carga bajo demanda de expertos;&lt;/li&gt;
&lt;li&gt;coste de transferencia CPU-GPU;&lt;/li&gt;
&lt;li&gt;latencia de offload a NVMe;&lt;/li&gt;
&lt;li&gt;crecimiento de KV cache con contexto largo;&lt;/li&gt;
&lt;li&gt;sobrecarga de runtime en contexto muy largo;&lt;/li&gt;
&lt;li&gt;coste de comunicación multi-GPU o multinodo.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;code&gt;V4-Pro&lt;/code&gt; con &lt;code&gt;49B active&lt;/code&gt; no se despliega como un 49B. &lt;code&gt;V4-Flash&lt;/code&gt; con &lt;code&gt;13B active&lt;/code&gt; tampoco debe tratarse como un 13B pequeño.&lt;/p&gt;
&lt;h2 id=&#34;cómo-elegir&#34;&gt;Cómo elegir
&lt;/h2&gt;&lt;p&gt;Si eres usuario individual:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;no intentes alojar DeepSeek V4 completo;&lt;/li&gt;
&lt;li&gt;usa la API oficial cuando necesites sus capacidades;&lt;/li&gt;
&lt;li&gt;para despliegue privado, revisa primero tu infraestructura multi-GPU;&lt;/li&gt;
&lt;li&gt;con 24GB a 48GB, los modelos cuantizados 7B, 14B, 32B o 70B son más prácticos.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Con 128GB a 256GB de VRAM total, observa implementaciones estables de &lt;code&gt;V4-Flash Q4/Q5&lt;/code&gt;. Con 512GB+, &lt;code&gt;V4-Pro Q4&lt;/code&gt; empieza a ser un objetivo de validación de ingeniería.&lt;/p&gt;
&lt;p&gt;La pregunta clave no es &amp;ldquo;qué archivo cuantizado descargo&amp;rdquo;, sino &amp;ldquo;si tengo capacidad de inferencia de sistema para este modelo&amp;rdquo;.&lt;/p&gt;
&lt;h2 id=&#34;referencias&#34;&gt;Referencias
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://api-docs.deepseek.com/news/news260424&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;DeepSeek V4 Preview Release - DeepSeek API Docs&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/collections/deepseek-ai/deepseek-v4&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;DeepSeek-V4 collection - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;deepseek-ai/DeepSeek-V4-Pro - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;deepseek-ai/DeepSeek-V4-Flash - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;deepseek-ai/DeepSeek-V4-Pro-Base - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;deepseek-ai/DeepSeek-V4-Flash-Base - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>Cómo elegir entre GPT 5.5, Claude Opus 4.7, DeepSeek V4 y Qwen 3.6 Max</title>
        <link>https://knightli.com/es/2026/04/28/coding-ai-benchmark-gpt55-claude-opus47-deepseek-v4-qwen36max/</link>
        <pubDate>Tue, 28 Apr 2026 22:18:00 +0800</pubDate>
        
        <guid>https://knightli.com/es/2026/04/28/coding-ai-benchmark-gpt55-claude-opus47-deepseek-v4-qwen36max/</guid>
        <description>&lt;p&gt;Si solo quieres la respuesta corta, recuerda primero esta versión:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Si desea la opción más confiable y la menor pérdida de tiempo, comience con &lt;code&gt;GPT 5.5&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;Si lo que más le importa es la presentación de la página, la creatividad y el pulido visual, &lt;code&gt;Claude Opus 4.7&lt;/code&gt; sigue siendo potente.&lt;/li&gt;
&lt;li&gt;Si desea saber qué modelo nacional se acerca más al nivel superior, &amp;ldquo;Qwen 3.6 Max&amp;rdquo; es altamente competitivo ahora&lt;/li&gt;
&lt;li&gt;&lt;code&gt;DeepSeek V4&lt;/code&gt; no es débil, pero su salida es más desigual que la de los demás&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Cuando la gente pregunta qué IA de codificación es la más potente en este momento, normalmente no preguntan por una tabla de clasificación. Piden algo más práctico:&lt;br&gt;
&lt;strong&gt;Si necesito crear una página, hacer una demostración, generar una pequeña herramienta o agregar interacción, ¿qué modelo es más probable que me brinde algo utilizable en el primer intento?&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;Desde ese ángulo, las diferencias entre estos modelos ya son bastante claras.&lt;/p&gt;
&lt;h2 id=&#34;el-veredicto-general&#34;&gt;El veredicto general
&lt;/h2&gt;&lt;p&gt;Si coloca &lt;code&gt;GPT 5.5&lt;/code&gt;, &lt;code&gt;Claude Opus 4.7&lt;/code&gt;, &lt;code&gt;DeepSeek V4&lt;/code&gt; y &lt;code&gt;Qwen 3.6 Max&lt;/code&gt; uno al lado del otro, la opción más consistente sigue siendo &lt;code&gt;GPT 5.5&lt;/code&gt;.&lt;/p&gt;
&lt;p&gt;No siempre es el más llamativo, pero rara vez te deja claramente decepcionado. Es rápido, el primer borrador generalmente sale con un alto nivel de finalización y maneja la lógica, la interacción, el movimiento y los juegos pequeños con mano firme.&lt;/p&gt;
&lt;p&gt;&lt;code&gt;Claude Opus 4.7&lt;/code&gt; se siente diferente. Su mayor fortaleza no es la pura estabilidad. Es la atmósfera de la página, la organización de la interfaz de usuario y la presentación. Muchas veces, abres lo que hizo y tu primera reacción es simplemente que se ve pulido. Si la presentación visual te importa más, vale la pena considerarla.&lt;/p&gt;
&lt;p&gt;&lt;code&gt;Qwen 3.6 Max&lt;/code&gt; es el que más merece una nueva apariencia. Ya no es sólo &amp;ldquo;utilizable para un modelo doméstico&amp;rdquo;. En algunos escenarios, realmente puede competir con &amp;ldquo;GPT 5.5&amp;rdquo; en calidad de salida. En las páginas frontales, la integridad visual y el realismo, ha comenzado a generar una presencia real.&lt;/p&gt;
&lt;p&gt;&lt;code&gt;DeepSeek V4&lt;/code&gt; no falla porque no puede hacer el trabajo. El problema es que es menos predecible. Cuando funciona, puede ser perfectamente sólido y, a veces, sorprendentemente bueno. Pero la brecha entre sus mejores y más débiles resultados es aún más obvia que en el caso de los demás.&lt;/p&gt;
&lt;h2 id=&#34;dónde-gpt-55-es-más-fuerte&#34;&gt;Dónde &lt;code&gt;GPT 5.5&lt;/code&gt; es más fuerte
&lt;/h2&gt;&lt;p&gt;Si las cosas que haces con más frecuencia se ven así:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Generar una página web completa.&lt;/li&gt;
&lt;li&gt;Crea una pequeña demostración con movimiento.&lt;/li&gt;
&lt;li&gt;Crear una página interactiva con algo de lógica.&lt;/li&gt;
&lt;li&gt;Generar un pequeño juego o una interacción multiestado.&lt;/li&gt;
&lt;li&gt;Mantener el retrabajo al mínimo&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Entonces &amp;ldquo;GPT 5.5&amp;rdquo; sigue siendo la respuesta predeterminada más segura.&lt;/p&gt;
&lt;p&gt;Sus ventajas son principalmente estas:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Generación rápida de código.&lt;/li&gt;
&lt;li&gt;Alta usabilidad desde el primer borrador&lt;/li&gt;
&lt;li&gt;Menos errores graves en lógica e interacción.&lt;/li&gt;
&lt;li&gt;Rendimiento estable en tareas mixtas&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Para decirlo de manera más simple, &amp;ldquo;GPT 5.5&amp;rdquo; parece el modelo con más probabilidades de lograr las bases correctas en la primera pasada.&lt;br&gt;
Lo que mucha gente realmente necesita no es el resultado más deslumbrante en una categoría. Necesitan que la primera versión no se rompa. En ese frente, sigue siendo la opción menos estresante.&lt;/p&gt;
&lt;p&gt;Por supuesto, no está exenta de debilidades.&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;En páginas muy visuales, no siempre es lo más sorprendente.&lt;/li&gt;
&lt;li&gt;A veces es tan estable que deja menos impresión de diseño&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Entonces, si desea una recomendación predeterminada, sigue siendo &amp;ldquo;GPT 5.5&amp;rdquo;.&lt;br&gt;
Eso no significa que sea el único que vale la pena mirar.&lt;/p&gt;
&lt;h2 id=&#34;a-quién-se-adapta-mejor-claude-opus-47&#34;&gt;¿A quién se adapta mejor &lt;code&gt;Claude Opus 4.7&lt;/code&gt;?
&lt;/h2&gt;&lt;p&gt;El atractivo de &amp;ldquo;Claude Opus 4.7&amp;rdquo; proviene más de cómo se siente la página.&lt;/p&gt;
&lt;p&gt;Sus puntos fuertes suelen ser:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Estructura de interfaz de usuario más limpia&lt;/li&gt;
&lt;li&gt;Presentación visual más completa&lt;/li&gt;
&lt;li&gt;Mayor calidad de presentación en algunas páginas.&lt;/li&gt;
&lt;li&gt;Creatividad más notoria en visualización y diseño.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Si el modelo te ayuda a construir cosas como:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Páginas de demostración&lt;/li&gt;
&lt;li&gt;Páginas de presentación de datos.&lt;/li&gt;
&lt;li&gt;Páginas pequeñas donde la sensación visual importa mucho.&lt;/li&gt;
&lt;li&gt;Resultados que deberían lucir pulidos inmediatamente&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Entonces &amp;ldquo;Claude&amp;rdquo; todavía merece un lugar cerca de la cima.&lt;/p&gt;
&lt;p&gt;Sus debilidades también son bastante claras:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;No es tan estable como &lt;code&gt;GPT 5.5&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;A veces se ve bien, pero la lógica detallada se desvía.&lt;/li&gt;
&lt;li&gt;En algunos casos, el código se ejecuta, pero la experiencia principal no es del todo correcta.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Así que &amp;ldquo;Claude&amp;rdquo; se siente más como un modelo frontal con instinto estético extra.&lt;br&gt;
Si su primera prioridad es el aspecto de la página, tiene ventajas reales. Si tu mayor temor es un error lógico en el primer resultado, debes tener un poco más de cuidado.&lt;/p&gt;
&lt;h2 id=&#34;por-qué-qwen-36-max-merece-una-atención-seria&#34;&gt;Por qué &lt;code&gt;Qwen 3.6 Max&lt;/code&gt; merece una atención seria
&lt;/h2&gt;&lt;p&gt;Entre estos modelos, el &amp;ldquo;Qwen 3.6 Max&amp;rdquo; ofrece la mayor sensación de impulso.&lt;/p&gt;
&lt;p&gt;No hace mucho, muchas personas analizaban la IA de codificación doméstica preguntándose principalmente si podría mantenerse al día. Con &lt;code&gt;Qwen 3.6 Max&lt;/code&gt;, la pregunta ya es diferente:&lt;br&gt;
&lt;strong&gt;En escenarios de producción frontal, ¿puede competir directamente con los mejores modelos extranjeros?&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;Sus áreas más fuertes en este momento incluyen:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Salida de página atractiva&lt;/li&gt;
&lt;li&gt;Movimiento sólido y efectos visuales realistas en algunos casos.&lt;/li&gt;
&lt;li&gt;Salidas que se sienten más completas.&lt;/li&gt;
&lt;li&gt;Resultados que a veces pueden acercarse o permanecer cerca de &lt;code&gt;GPT 5.5&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Eso dice algo importante.&lt;br&gt;
Si su caso de uso se inclina hacia páginas web, trabajo frontend y resultados con muchas presentaciones, &lt;code&gt;Qwen 3.6 Max&lt;/code&gt; ya no es solo una opción de respaldo. Puede ser tratado como un candidato principal serio.&lt;/p&gt;
&lt;p&gt;Sin embargo, todavía tiene algunas debilidades.&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;En tareas lógicas con mucha interacción, aún puede perder un poco de integridad.&lt;/li&gt;
&lt;li&gt;Algunas páginas se ven muy bien, mientras que algunas tareas son más planas de lo esperado.&lt;/li&gt;
&lt;li&gt;Su variación es aún mayor que &lt;code&gt;GPT 5.5&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Aun así, su presencia actual ya es muy fuerte.&lt;br&gt;
Si desea saber qué modelo doméstico merece la mayor atención en este momento, es difícil pasar por alto el &amp;ldquo;Qwen 3.6 Max&amp;rdquo;.&lt;/p&gt;
&lt;h2 id=&#34;dónde-se-encuentra-deepseek-v4-ahora-mismo&#34;&gt;Dónde se encuentra &lt;code&gt;DeepSeek V4&lt;/code&gt; ahora mismo
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;DeepSeek V4&lt;/code&gt; es un poco más complicado de colocar.&lt;/p&gt;
&lt;p&gt;El problema no es que no pueda hacer el trabajo. El problema es que es más difícil predecir dónde aterrizará un resultado determinado.&lt;br&gt;
A veces puede terminar la tarea con imágenes y funcionalidad de trabajo decentes. A veces, una vez que la tarea requiere animación, lógica y presentación de datos al mismo tiempo, es más probable que tropiece.&lt;/p&gt;
&lt;p&gt;Ahora mismo se siente más así:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Tiene habilidad real.&lt;/li&gt;
&lt;li&gt;No es débil&lt;/li&gt;
&lt;li&gt;Aún puede dar resultados aceptables en algunas tareas.&lt;/li&gt;
&lt;li&gt;Pero su estabilidad aún no es lo suficientemente tranquilizadora.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Eso moldea a quién le conviene más.&lt;/p&gt;
&lt;p&gt;Si no le importa intentarlo varias veces, puede tolerar un reinicio ocasional o ya planea verificar y editar el código usted mismo, aún vale la pena usar &amp;ldquo;DeepSeek V4&amp;rdquo;.&lt;br&gt;
Pero si su principal prioridad es reducir la fricción y maximizar el éxito del primer paso, todavía no es la opción más segura.&lt;/p&gt;
&lt;h2 id=&#34;entonces-qué-debería-elegir-un-usuario-normal&#34;&gt;Entonces, ¿qué debería elegir un usuario normal?
&lt;/h2&gt;&lt;p&gt;Si no está comparando modelos por diversión y realmente quiere trabajar, la forma más sencilla es elegir por caso de uso.&lt;/p&gt;
&lt;h3 id=&#34;1-quiere-menos-complicaciones-y-una-mayor-tasa-de-éxito-en-el-primer-paso&#34;&gt;1. Quiere menos complicaciones y una mayor tasa de éxito en el primer paso
&lt;/h3&gt;&lt;p&gt;Elija &amp;ldquo;GPT 5.5&amp;rdquo;.&lt;/p&gt;
&lt;p&gt;Lo mejor es este flujo de trabajo: &amp;ldquo;Este es mi requisito, denme una primera versión utilizable&amp;rdquo;.&lt;br&gt;
Eso importa aún más cuando no tienes tiempo para seguir iterando y arreglando.&lt;/p&gt;
&lt;h3 id=&#34;2-te-importa-más-la-presentación-y-el-acabado-visual&#34;&gt;2. Te importa más la presentación y el acabado visual
&lt;/h3&gt;&lt;p&gt;Elija &lt;code&gt;Claude Opus 4.7&lt;/code&gt;.&lt;/p&gt;
&lt;p&gt;Si lo que desea es una página que ya se parezca más a un producto terminado, o si su trabajo está más orientado a demostraciones y presentaciones, &lt;code&gt;Claude&lt;/code&gt; muestra su valor más fácilmente.&lt;/p&gt;
&lt;h3 id=&#34;3-quiere-el-modelo-nacional-más-sólido-para-la-producción-inicial&#34;&gt;3. Quiere el modelo nacional más sólido para la producción inicial
&lt;/h3&gt;&lt;p&gt;Comience con &lt;code&gt;Qwen 3.6 Max&lt;/code&gt;.&lt;/p&gt;
&lt;p&gt;Ya no es algo que se utiliza únicamente como compromiso. Ahora se puede comparar directa y seriamente.&lt;br&gt;
Si sus tareas se inclinan hacia las páginas web, el movimiento y la presentación, su competitividad ya es muy real.&lt;/p&gt;
&lt;h3 id=&#34;4-puedes-tolerar-algunas-variaciones-y-quieres-seguir-observando-el-progreso-interno&#34;&gt;4. Puedes tolerar algunas variaciones y quieres seguir observando el progreso interno.
&lt;/h3&gt;&lt;p&gt;Esté atento a &lt;code&gt;DeepSeek V4&lt;/code&gt;.&lt;/p&gt;
&lt;p&gt;Su problema no es la falta de capacidad. Es que el nivel de ejecución aún varía demasiado.&lt;br&gt;
Si la estabilidad sigue mejorando, podría volverse mucho más importante.&lt;/p&gt;
&lt;h2 id=&#34;una-última-línea&#34;&gt;Una última línea
&lt;/h2&gt;&lt;p&gt;La diferencia entre estas IA de codificación convencionales ya no es quién puede codificar y quién no. Se trata de quién es más estable, quién tiene mejor aspecto y quién se adapta a su tipo de trabajo.&lt;/p&gt;
&lt;p&gt;Si desea la respuesta más sencilla, &amp;ldquo;GPT 5.5&amp;rdquo; sigue siendo la primera opción.&lt;br&gt;
Si desea una calidad de presentación más fuerte, &amp;ldquo;Claude Opus 4.7&amp;rdquo; todavía tiene sabor real.&lt;br&gt;
Si le interesa qué modelo nacional merece la mayor atención, &amp;ldquo;Qwen 3.6 Max&amp;rdquo; ya está cerca del frente.&lt;br&gt;
&lt;code&gt;DeepSeek V4&lt;/code&gt; se siente más como un fuerte contendiente que todavía está trabajando en la coherencia.&lt;/p&gt;
&lt;p&gt;Si quieres la conclusión más breve posible:&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Para mayor estabilidad, elija &lt;code&gt;GPT 5.5&lt;/code&gt;. Para la presentación, elija &amp;ldquo;Claude&amp;rdquo;. Entre los modelos nacionales, el que más vale la pena ver es el &lt;code&gt;Qwen 3.6 Max&lt;/code&gt;.&lt;/strong&gt;&lt;/p&gt;
</description>
        </item>
        
    </channel>
</rss>
