<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>MoE on KnightLi Blog</title>
        <link>https://knightli.com/es/tags/moe/</link>
        <description>Recent content in MoE on KnightLi Blog</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>es</language>
        <lastBuildDate>Sun, 17 May 2026 08:53:29 +0800</lastBuildDate><atom:link href="https://knightli.com/es/tags/moe/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>Evolución de la arquitectura de los LLM entre 2023 y 2026: tokenizadores, codificación posicional, atención, MoE, normalización y funciones de activación</title>
        <link>https://knightli.com/es/2026/05/17/llm-architecture-evolution-2023-2026/</link>
        <pubDate>Sun, 17 May 2026 08:53:29 +0800</pubDate>
        
        <guid>https://knightli.com/es/2026/05/17/llm-architecture-evolution-2023-2026/</guid>
        <description>&lt;p&gt;Entre 2023 y 2026, la arquitectura de los LLM pareció cambiar en muchas direcciones: los tokenizadores se hicieron más grandes, la codificación posicional se desplazó hacia RoPE, la atención pasó de MHA a GQA, ventanas deslizantes y MLA, MoE volvió a ser una opción dominante, y la normalización y las funciones de activación se movieron hacia combinaciones como RMSNorm y SwiGLU.&lt;/p&gt;
&lt;p&gt;Pero la idea principal no es que Transformer haya sido reemplazado. La idea central es que el núcleo Transformer siguió vigente, mientras casi todos sus componentes se optimizaron para contextos más largos, menor coste de inferencia, mayor eficiencia de entrenamiento y mejor capacidad multilingüe.&lt;/p&gt;
&lt;h2 id=&#34;primero-la-vista-general&#34;&gt;Primero, la vista general
&lt;/h2&gt;&lt;p&gt;Un LLM puede dividirse aproximadamente en varias partes:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Tokenizador: convierte texto en tokens que el modelo puede entender.&lt;/li&gt;
&lt;li&gt;Codificación posicional: indica al modelo dónde está cada token en la secuencia.&lt;/li&gt;
&lt;li&gt;Mecanismo de atención: decide qué contexto debe mirar cada token.&lt;/li&gt;
&lt;li&gt;Red feed-forward: aplica transformaciones no lineales más complejas en cada posición.&lt;/li&gt;
&lt;li&gt;Normalización: estabiliza el entrenamiento.&lt;/li&gt;
&lt;li&gt;Función de activación: da capacidad no lineal a la red.&lt;/li&gt;
&lt;li&gt;MoE: divide parte de la red feed-forward en varios expertos y activa solo algunos cada vez.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;La evolución de 2023 a 2026 puede entenderse como la optimización sucesiva de estas piezas.&lt;/p&gt;
&lt;h2 id=&#34;tokenizadores-de-dividir-texto-a-ahorrar-tokens&#34;&gt;Tokenizadores: de “dividir texto” a “ahorrar tokens”
&lt;/h2&gt;&lt;p&gt;El tokenizador convierte lenguaje natural en secuencias de tokens. El modelo no ve el texto directamente; ve IDs de tokens.&lt;/p&gt;
&lt;p&gt;Los tokenizadores anteriores solían ser más eficientes en inglés y menos eficientes para chino, código y texto multilingüe. Si una misma frase se divide en demasiadas piezas pequeñas, consume más ventana de contexto y aumenta tanto el coste de entrenamiento como el de inferencia.&lt;/p&gt;
&lt;p&gt;Una tendencia clara de los últimos años es tener vocabularios más grandes y mejor soporte multilingüe. Llama 3 usa un vocabulario de 128K tokens, y Meta explicó que esto codifica el lenguaje de forma más eficiente y mejora el rendimiento del modelo. Qwen, DeepSeek y otros modelos también prestan mucha atención a la eficiencia de tokens en chino, código y escenarios multilingües.&lt;/p&gt;
&lt;p&gt;Para principiantes: cuanto mejor es el tokenizador, menos fragmentado queda el mismo texto y más información útil cabe en la misma longitud de contexto.&lt;/p&gt;
&lt;h2 id=&#34;codificación-posicional-rope-se-volvió-dominante&#34;&gt;Codificación posicional: RoPE se volvió dominante
&lt;/h2&gt;&lt;p&gt;El lenguaje tiene orden. Las mismas palabras pueden cambiar por completo de significado si se reordenan. La codificación posicional introduce esa información de orden en el modelo.&lt;/p&gt;
&lt;p&gt;Los primeros Transformers usaban codificación posicional absoluta, donde la posición 1, la posición 2 y la posición 3 tenían vectores propios. Los LLM posteriores adoptaron con frecuencia RoPE, o Rotary Positional Embedding. RoPE integra la información de posición dentro del cálculo de atención y es más amigable para extender el contexto.&lt;/p&gt;
&lt;p&gt;Desde la familia Llama hasta muchos modelos abiertos, RoPE se ha convertido en un estándar de facto. Para soportar contextos más largos, los modelos también pueden ajustar la base frequency de RoPE, aplicar RoPE scaling o combinarlo con atención de ventana deslizante o atención por bloques.&lt;/p&gt;
&lt;p&gt;En pocas palabras, RoPE no hace que un modelo sea “mágicamente más inteligente”; ayuda a que el modelo maneje mejor relaciones de posición relativa en textos largos.&lt;/p&gt;
&lt;h2 id=&#34;atención-de-mha-a-gqa-ventanas-deslizantes-y-mla&#34;&gt;Atención: de MHA a GQA, ventanas deslizantes y MLA
&lt;/h2&gt;&lt;p&gt;La atención es el núcleo de Transformer. Permite que cada token mire los tokens más relevantes del contexto para la tarea actual.&lt;/p&gt;
&lt;p&gt;La versión clásica es MHA, o Multi-Head Attention. Tiene múltiples cabezas de atención, cada una aprendiendo una forma distinta de enfocar. El problema es que, a medida que crecen el modelo y el contexto, el KV cache se vuelve costoso y sube el coste de inferencia.&lt;/p&gt;
&lt;p&gt;Después de 2023, la principal dirección de optimización de la atención fue reducir el coste de inferencia.&lt;/p&gt;
&lt;p&gt;GQA, o Grouped-Query Attention, fue un paso importante. Permite que varias query heads compartan menos key/value heads, reduciendo la presión del KV cache. Meta adoptó explícitamente GQA en Llama 3 para mejorar la eficiencia de inferencia.&lt;/p&gt;
&lt;p&gt;Mistral 7B representa otra dirección: atención de ventana deslizante. En lugar de hacer que cada token mire todo el historial, se centra principalmente en una ventana cercana, reduciendo la presión computacional de secuencias largas. Para muchas tareas, el contexto local ya es muy útil.&lt;/p&gt;
&lt;p&gt;DeepSeek-V2/V3 llevó esta optimización más lejos con MLA, o Multi-head Latent Attention. Su objetivo es comprimir el KV cache y reducir la presión de memoria durante la inferencia. El informe técnico de DeepSeek-V3 lista MLA y DeepSeekMoE como elementos centrales de su arquitectura.&lt;/p&gt;
&lt;p&gt;Estas técnicas pueden resumirse así:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;MHA: enfoque clásico, fuerte pero caro.&lt;/li&gt;
&lt;li&gt;GQA: reduce mucho el coste de KV cache con poca pérdida de expresividad.&lt;/li&gt;
&lt;li&gt;Atención de ventana deslizante: reduce el coste de atención global en contextos largos.&lt;/li&gt;
&lt;li&gt;MLA: comprime aún más la caché de atención para una inferencia eficiente.&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;moe-muchos-parámetros-pero-solo-algunos-se-usan-cada-vez&#34;&gt;MoE: muchos parámetros, pero solo algunos se usan cada vez
&lt;/h2&gt;&lt;p&gt;MoE significa Mixture of Experts.&lt;/p&gt;
&lt;p&gt;Un modelo denso activa todos sus parámetros para cada token. MoE coloca muchos expertos dentro del modelo, pero enruta cada token solo a unos pocos. Así, el número total de parámetros puede ser muy grande, mientras que los parámetros activos por paso de inferencia siguen siendo más reducidos.&lt;/p&gt;
&lt;p&gt;Mixtral 8x7B, lanzado a finales de 2023, fue un momento importante para que MoE volviera al centro de la conversación. El artículo de Mistral explica que Mixtral 8x7B sigue en gran parte la arquitectura de Mistral 7B, pero reemplaza cada bloque feed-forward por 8 expertos y usa enrutamiento disperso para seleccionar parte de ellos durante el cálculo.&lt;/p&gt;
&lt;p&gt;Después, DeepSeek-V3 convirtió MoE en una ruta central. Tiene una cantidad total de parámetros muy grande, pero cada token activa solo una parte, usando DeepSeekMoE para reducir coste de entrenamiento e inferencia. Qwen3 y otras familias también ofrecen variantes densas y MoE, lo que muestra que MoE pasó de ser una técnica de investigación a una opción de ingeniería dominante.&lt;/p&gt;
&lt;p&gt;Para principiantes: un modelo denso es como una empresa donde todos asisten a cada reunión. MoE es como dividir la empresa en equipos expertos y llamar solo a los equipos relevantes para cada problema.&lt;/p&gt;
&lt;p&gt;MoE también tiene dificultades claras:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;El router debe aprender a enviar tokens a expertos adecuados.&lt;/li&gt;
&lt;li&gt;La carga debe equilibrarse para que no todos los tokens caigan en pocos expertos.&lt;/li&gt;
&lt;li&gt;El entrenamiento y la inferencia distribuidos son más complejos.&lt;/li&gt;
&lt;li&gt;Tener muchos parámetros totales no hace automáticamente barato el despliegue.&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;normalización-rmsnorm-se-volvió-común&#34;&gt;Normalización: RMSNorm se volvió común
&lt;/h2&gt;&lt;p&gt;La normalización estabiliza la distribución de valores intermedios dentro de la red neuronal. Al entrenar modelos grandes, valores inestables dificultan la convergencia y pueden volver el entrenamiento menos fiable.&lt;/p&gt;
&lt;p&gt;Los primeros Transformers solían usar LayerNorm. Muchos modelos de estilo Llama pasaron después a RMSNorm. RMSNorm es más simple que LayerNorm: no calcula la media y se centra en la escala de raíz cuadrática media. Es más ligero y suficientemente estable en la práctica.&lt;/p&gt;
&lt;p&gt;No hace falta memorizar la fórmula. Basta con recordar que RMSNorm es un estabilizador más ligero. No determina por sí solo la capacidad del modelo, pero afecta a la estabilidad, la velocidad y la implementación.&lt;/p&gt;
&lt;h2 id=&#34;funciones-de-activación-de-relugelu-a-swiglu&#34;&gt;Funciones de activación: de ReLU/GELU a SwiGLU
&lt;/h2&gt;&lt;p&gt;Las funciones de activación añaden capacidad no lineal a las redes neuronales. Sin ellas, una red profunda se parecería demasiado a una transformación lineal.&lt;/p&gt;
&lt;p&gt;Los Transformers anteriores usaban a menudo GELU. En Llama, Mistral, Qwen, DeepSeek y otros LLM modernos, es más común ver SwiGLU o variantes similares de GLU. SwiGLU suele aparecer dentro de la red feed-forward y controla el flujo de información mediante compuertas.&lt;/p&gt;
&lt;p&gt;Una analogía sencilla: una función de activación normal es como un interruptor fijo, mientras que SwiGLU se parece más a una válvula aprendible. No solo decide si pasa información; también aprende qué información debe amplificarse.&lt;/p&gt;
&lt;p&gt;SwiGLU hace que la capa feed-forward sea algo más compleja, pero en la práctica de modelos grandes se ha vuelto un componente común de alto rendimiento.&lt;/p&gt;
&lt;h2 id=&#34;tendencia-general-de-2023-a-2026&#34;&gt;Tendencia general de 2023 a 2026
&lt;/h2&gt;&lt;p&gt;La línea temporal puede resumirse así:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;2023: Llama, Mistral 7B, Mixtral y otros modelos abiertos popularizaron combinaciones como RoPE, RMSNorm, SwiGLU, GQA, atención de ventana deslizante y MoE.&lt;/li&gt;
&lt;li&gt;2024: Llama 3, Qwen2.5, DeepSeek-V2/V3 y otros ampliaron vocabularios, mejoraron contexto largo, reforzaron la eficiencia de inferencia y pusieron MoE y atención eficiente en el centro.&lt;/li&gt;
&lt;li&gt;2025: DeepSeek-V3/R1 hizo que más personas prestaran atención a MLA, DeepSeekMoE, FP8, MTP y a la conexión profunda entre optimización arquitectónica e ingeniería de sistemas.&lt;/li&gt;
&lt;li&gt;2026: la tendencia sigue siendo eficiencia y madurez de ingeniería: los modelos densos buscan capacidad general estable, los MoE amplían capacidad y la atención eficiente reduce el coste del contexto largo.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;El cambio más importante no fue que una pieza reemplazara a Transformer. Fue entender que sumar parámetros no basta: arquitectura, datos, sistema de entrenamiento y servicio de inferencia deben optimizarse juntos.&lt;/p&gt;
&lt;h2 id=&#34;cómo-debería-aprenderlo-un-principiante&#34;&gt;Cómo debería aprenderlo un principiante
&lt;/h2&gt;&lt;p&gt;Si empiezas desde cero, no conviene intentar leer todos los papers de entrada. Un mejor orden sería:&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;Entender la estructura básica de Transformer: token, embedding, attention y FFN.&lt;/li&gt;
&lt;li&gt;Entender por qué RoPE, RMSNorm y SwiGLU se volvieron comunes.&lt;/li&gt;
&lt;li&gt;Estudiar GQA y KV cache para comprender por qué la inferencia consume tanta memoria.&lt;/li&gt;
&lt;li&gt;Aprender MoE, especialmente la diferencia entre parámetros totales y parámetros activos.&lt;/li&gt;
&lt;li&gt;Finalmente, leer informes de modelos como DeepSeek-V3, Mixtral y Llama 3 para ubicar cada componente en modelos reales.&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;No trates estos términos como conceptos aislados. La mayoría responden a la misma pregunta: cómo hacer modelos más fuertes que todavía puedan entrenarse, desplegarse y servir respuestas con rapidez.&lt;/p&gt;
&lt;h2 id=&#34;resumen&#34;&gt;Resumen
&lt;/h2&gt;&lt;p&gt;La evolución de la arquitectura de LLM entre 2023 y 2026 puede verse como la maduración de ingeniería de Transformer. Los tokenizadores reducen desperdicio de tokens, RoPE representa mejor la posición, GQA, la atención de ventana deslizante y MLA reducen el coste de atención, MoE amplía capacidad controlando la computación activa, y RMSNorm junto con SwiGLU hacen que el entrenamiento y la representación sean más estables y eficientes.&lt;/p&gt;
&lt;p&gt;Para principiantes, lo importante no es memorizar términos. Lo importante es captar la línea principal: casi todos los cambios modernos en arquitectura LLM tratan de equilibrar coste, eficiencia, longitud de contexto y escalabilidad.&lt;/p&gt;
&lt;p&gt;Referencias:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://ai.meta.com/blog/meta-llama-3/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Meta: Introducing Meta Llama 3&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://mistral.ai/en/news/mixtral-of-experts&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Mistral AI: Mixtral of experts&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://arxiv.org/abs/2401.04088&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;arXiv: Mixtral of Experts&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://arxiv.org/abs/2412.19437&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;arXiv: DeepSeek-V3 Technical Report&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/deepseek-ai/DeepSeek-V3&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Hugging Face: DeepSeek-V3&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>Ejecutar DeepSeek V4 en local: estimaciones de VRAM para versiones Pro, Flash y Base</title>
        <link>https://knightli.com/es/2026/05/01/deepseek-v4-local-vram-quantization-table/</link>
        <pubDate>Fri, 01 May 2026 11:55:25 +0800</pubDate>
        
        <guid>https://knightli.com/es/2026/05/01/deepseek-v4-local-vram-quantization-table/</guid>
        <description>&lt;p&gt;DeepSeek V4 y Gemma 4 no están en la misma categoría para despliegue local.
Con Gemma 4 todavía tiene sentido hablar de ejecutar modelos 26B o 31B en GPUs de 24GB o 32GB. DeepSeek V4 es un modelo MoE enorme, y el despliegue local completo entra rápidamente en territorio de estaciones multi-GPU o servidores.&lt;/p&gt;
&lt;p&gt;El lanzamiento oficial DeepSeek V4 Preview incluye principalmente dos modelos de inferencia:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;DeepSeek-V4-Pro&lt;/code&gt;: &lt;code&gt;1.6T total / 49B active params&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;DeepSeek-V4-Flash&lt;/code&gt;: &lt;code&gt;284B total / 13B active params&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;La colección oficial de Hugging Face también incluye dos modelos Base:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;DeepSeek-V4-Pro-Base&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;DeepSeek-V4-Flash-Base&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Este artículo solo estima VRAM cuando se cargan los pesos completos. En modelos MoE, &lt;code&gt;active params&lt;/code&gt; afecta sobre todo al cómputo por token. No significa que solo esos parámetros deban cargarse.&lt;/p&gt;
&lt;h2 id=&#34;resumen-rápido&#34;&gt;Resumen rápido
&lt;/h2&gt;&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;Escala de VRAM&lt;/th&gt;
          &lt;th&gt;Realista&lt;/th&gt;
          &lt;th&gt;No esperes&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;24GB&lt;/td&gt;
          &lt;td&gt;No puede cargar DeepSeek V4 completo; usa modelos destilados o API&lt;/td&gt;
          &lt;td&gt;V4-Flash / V4-Pro local completo&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;48GB&lt;/td&gt;
          &lt;td&gt;Aún no es adecuado para carga completa&lt;/td&gt;
          &lt;td&gt;V4-Flash Q4 estable&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;80GB&lt;/td&gt;
          &lt;td&gt;Pruebas V4-Flash Q2/Q3 u offload pesado&lt;/td&gt;
          &lt;td&gt;V4-Pro&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;128GB&lt;/td&gt;
          &lt;td&gt;V4-Flash Q4 empieza a ser más realista&lt;/td&gt;
          &lt;td&gt;V4-Pro Q4&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;192GB&lt;/td&gt;
          &lt;td&gt;V4-Flash FP8/Q6 más cómodo; Pro Q2 experimental&lt;/td&gt;
          &lt;td&gt;V4-Pro Q4&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;256GB&lt;/td&gt;
          &lt;td&gt;V4-Flash FP8 cómodo; Pro Q2/Q3 puede probarse&lt;/td&gt;
          &lt;td&gt;V4-Pro Q5+&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;512GB&lt;/td&gt;
          &lt;td&gt;V4-Pro Q4 empieza a discutirse&lt;/td&gt;
          &lt;td&gt;V4-Pro FP8&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;1TB+&lt;/td&gt;
          &lt;td&gt;V4-Pro FP8 y Pro-Base de bajo bit&lt;/td&gt;
          &lt;td&gt;Despliegue barato en una máquina&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;2TB+&lt;/td&gt;
          &lt;td&gt;Clase Pro-Base FP8&lt;/td&gt;
          &lt;td&gt;Estación común&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;Si tu objetivo es correr un modelo en un PC personal, DeepSeek V4 no es el objetivo adecuado. Es más realista usar API oficial, esperar cuantizaciones comunitarias maduras, usar modelos destilados o elegir modelos locales de 7B a 70B.&lt;/p&gt;
&lt;h2 id=&#34;tamaños-oficiales-de-pesos&#34;&gt;Tamaños oficiales de pesos
&lt;/h2&gt;&lt;p&gt;Las cifras vienen de &lt;code&gt;model.safetensors.index.json&lt;/code&gt; en los repositorios oficiales de Hugging Face.&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;Model&lt;/th&gt;
          &lt;th&gt;Parameter Scale&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;Official Weight Size&lt;/th&gt;
          &lt;th&gt;Notes&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;DeepSeek-V4-Flash&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;284B total / 13B active&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;159.61GB&lt;/td&gt;
          &lt;td&gt;Inference model, smallest in this group&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;DeepSeek-V4-Pro&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;1.6T total / 49B active&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;864.70GB&lt;/td&gt;
          &lt;td&gt;Inference model, stronger but enormous&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;DeepSeek-V4-Flash-Base&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;284B total&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;294.67GB&lt;/td&gt;
          &lt;td&gt;Base model, closer to full FP8 weight size&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;DeepSeek-V4-Pro-Base&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;1.6T total&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1606.03GB&lt;/td&gt;
          &lt;td&gt;Base model, about 1.6TB&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;Incluso el &lt;code&gt;V4-Flash&lt;/code&gt; más pequeño se acerca a 160GB de pesos oficiales. No debe tratarse como un 13B solo por tener &lt;code&gt;13B active params&lt;/code&gt;.&lt;/p&gt;
&lt;h2 id=&#34;estimación-de-vram-para-deepseek-v4-flash&#34;&gt;Estimación de VRAM para DeepSeek V4 Flash
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;V4-Flash&lt;/code&gt; es la variante más abordable para experimentos locales, pero sigue sin ser un modelo de una sola GPU de consumo.&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;Version / Quantization&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;Estimated Weight Size&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;Minimum VRAM&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;Safer VRAM&lt;/th&gt;
          &lt;th&gt;Best For&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;FP8 / official weights&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;159.61GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;192GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;256GB&lt;/td&gt;
          &lt;td&gt;Multi-GPU servers, inference service&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q6&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;120GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;160GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;192GB&lt;/td&gt;
          &lt;td&gt;Quality-first quantization tests&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q5&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;100GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;128GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;160GB&lt;/td&gt;
          &lt;td&gt;Quality/size balance&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q4&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;80GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;96GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;128GB&lt;/td&gt;
          &lt;td&gt;More realistic starting point for Flash&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q3&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;60GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;80GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;96GB&lt;/td&gt;
          &lt;td&gt;Large-VRAM single GPU or multi-GPU tests&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q2&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;40GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;48GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;64GB&lt;/td&gt;
          &lt;td&gt;Extreme low-bit experiments with clear quality risk&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;Si aparecen builds maduros de &lt;code&gt;V4-Flash Q4&lt;/code&gt;, probablemente seguirán sin ser modelos para 24GB. El punto de partida realista es 96GB a 128GB de VRAM total, o setups con offload que sacrifican velocidad por capacidad.&lt;/p&gt;
&lt;h2 id=&#34;estimación-de-vram-para-deepseek-v4-pro&#34;&gt;Estimación de VRAM para DeepSeek V4 Pro
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;V4-Pro&lt;/code&gt; es el modelo de inferencia insignia, con unos 864.70GB de pesos oficiales.&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;Version / Quantization&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;Estimated Weight Size&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;Minimum VRAM&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;Safer VRAM&lt;/th&gt;
          &lt;th&gt;Best For&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;FP8 / official weights&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;864.70GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1TB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1.2TB+&lt;/td&gt;
          &lt;td&gt;Multi-node or multi-GPU inference service&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q6&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;648GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;768GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1TB&lt;/td&gt;
          &lt;td&gt;High-quality quantized service&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q5&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;540GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;640GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;768GB&lt;/td&gt;
          &lt;td&gt;Quality/cost balance&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q4&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;432GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;512GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;640GB&lt;/td&gt;
          &lt;td&gt;Lowest practical quality line for Pro&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q3&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;324GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;384GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;512GB&lt;/td&gt;
          &lt;td&gt;Low-bit experiments&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q2&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;216GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;256GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;320GB&lt;/td&gt;
          &lt;td&gt;Extreme experiments with high risk&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;Para usuarios individuales, &lt;code&gt;V4-Pro&lt;/code&gt; se consume mejor por API. Para despliegue local completo, trátalo como modelo de servidor multi-GPU.&lt;/p&gt;
&lt;h2 id=&#34;estimación-de-vram-para-flash-base-y-pro-base&#34;&gt;Estimación de VRAM para Flash-Base y Pro-Base
&lt;/h2&gt;&lt;p&gt;Los modelos Base suelen ser para investigación, fine-tuning o entrenamiento continuo, no para chat común.&lt;/p&gt;
&lt;p&gt;&lt;code&gt;V4-Flash-Base&lt;/code&gt; pesa unos 294.67GB:&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;Version / Quantization&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;Estimated Weight Size&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;Minimum VRAM&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;Safer VRAM&lt;/th&gt;
          &lt;th&gt;Best For&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;FP8 / official weights&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;294.67GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;384GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;512GB&lt;/td&gt;
          &lt;td&gt;Research, preprocessing, evaluation&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q6&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;221GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;256GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;320GB&lt;/td&gt;
          &lt;td&gt;High-quality quantization research&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q5&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;184GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;224GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;256GB&lt;/td&gt;
          &lt;td&gt;Quality/size balance&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q4&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;147GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;192GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;224GB&lt;/td&gt;
          &lt;td&gt;Lower-cost Base experiments&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q3&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;111GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;128GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;160GB&lt;/td&gt;
          &lt;td&gt;Low-bit experiments&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q2&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;74GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;96GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;128GB&lt;/td&gt;
          &lt;td&gt;Extreme experiments&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;code&gt;V4-Pro-Base&lt;/code&gt; pesa unos 1606.03GB:&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;Version / Quantization&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;Estimated Weight Size&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;Minimum VRAM&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;Safer VRAM&lt;/th&gt;
          &lt;th&gt;Best For&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;FP8 / official weights&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1606.03GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;2TB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;2.4TB+&lt;/td&gt;
          &lt;td&gt;Large-scale research clusters&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q6&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1205GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1.5TB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;2TB&lt;/td&gt;
          &lt;td&gt;High-quality quantization research&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q5&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1004GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1.2TB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1.5TB&lt;/td&gt;
          &lt;td&gt;Research and evaluation&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q4&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;803GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1TB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1.2TB&lt;/td&gt;
          &lt;td&gt;Low-bit research&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q3&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;602GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;768GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1TB&lt;/td&gt;
          &lt;td&gt;Extreme low-bit research&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q2&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;402GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;512GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;640GB&lt;/td&gt;
          &lt;td&gt;Extreme experiments&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;Este tipo de modelo no debe evaluarse con la pregunta &amp;ldquo;¿lo corre una GPU doméstica?&amp;rdquo;. Incluso Q4 queda fuera de la comodidad de la mayoría de estaciones.&lt;/p&gt;
&lt;h2 id=&#34;por-qué-active-params-no-basta&#34;&gt;Por qué active params no basta
&lt;/h2&gt;&lt;p&gt;MoE activa solo parte de los expertos por token, por eso el cómputo puede ser mucho menor que el total de parámetros. Pero eso no significa que la VRAM solo tenga que cargar los parámetros activos.&lt;/p&gt;
&lt;p&gt;El despliegue local completo depende de:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;si todos los expertos deben residir en GPU;&lt;/li&gt;
&lt;li&gt;si hay carga bajo demanda de expertos;&lt;/li&gt;
&lt;li&gt;coste de transferencia CPU-GPU;&lt;/li&gt;
&lt;li&gt;latencia de offload a NVMe;&lt;/li&gt;
&lt;li&gt;crecimiento de KV cache con contexto largo;&lt;/li&gt;
&lt;li&gt;sobrecarga de runtime en contexto muy largo;&lt;/li&gt;
&lt;li&gt;coste de comunicación multi-GPU o multinodo.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;code&gt;V4-Pro&lt;/code&gt; con &lt;code&gt;49B active&lt;/code&gt; no se despliega como un 49B. &lt;code&gt;V4-Flash&lt;/code&gt; con &lt;code&gt;13B active&lt;/code&gt; tampoco debe tratarse como un 13B pequeño.&lt;/p&gt;
&lt;h2 id=&#34;cómo-elegir&#34;&gt;Cómo elegir
&lt;/h2&gt;&lt;p&gt;Si eres usuario individual:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;no intentes alojar DeepSeek V4 completo;&lt;/li&gt;
&lt;li&gt;usa la API oficial cuando necesites sus capacidades;&lt;/li&gt;
&lt;li&gt;para despliegue privado, revisa primero tu infraestructura multi-GPU;&lt;/li&gt;
&lt;li&gt;con 24GB a 48GB, los modelos cuantizados 7B, 14B, 32B o 70B son más prácticos.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Con 128GB a 256GB de VRAM total, observa implementaciones estables de &lt;code&gt;V4-Flash Q4/Q5&lt;/code&gt;. Con 512GB+, &lt;code&gt;V4-Pro Q4&lt;/code&gt; empieza a ser un objetivo de validación de ingeniería.&lt;/p&gt;
&lt;p&gt;La pregunta clave no es &amp;ldquo;qué archivo cuantizado descargo&amp;rdquo;, sino &amp;ldquo;si tengo capacidad de inferencia de sistema para este modelo&amp;rdquo;.&lt;/p&gt;
&lt;h2 id=&#34;referencias&#34;&gt;Referencias
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://api-docs.deepseek.com/news/news260424&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;DeepSeek V4 Preview Release - DeepSeek API Docs&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/collections/deepseek-ai/deepseek-v4&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;DeepSeek-V4 collection - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;deepseek-ai/DeepSeek-V4-Pro - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;deepseek-ai/DeepSeek-V4-Flash - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;deepseek-ai/DeepSeek-V4-Pro-Base - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;deepseek-ai/DeepSeek-V4-Flash-Base - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        
    </channel>
</rss>
