AI Infrastructure on KnightLi Blog

Por qué los centros de datos de IA vuelven a impulsar la demanda de HDD

Sat, 16 May 2026 21:02:33 +0800

Durante los últimos dos años, la conversación sobre infraestructura de IA se ha centrado sobre todo en GPU, HBM, empaquetado avanzado y suministro eléctrico. Pero detrás de los sistemas de entrenamiento e inferencia hay otro cuello de botella que suele pasar más desapercibido: el almacenamiento.

Un modelo grande no termina su trabajo con un único cálculo dentro de una tarjeta gráfica. Durante el entrenamiento produce continuamente checkpoints, estados del optimizador, registros de entrenamiento, versiones de datos y resultados intermedios. En la fase de inferencia también genera registros de interacción con usuarios, datos conservados por cumplimiento normativo, información de auditoría y logs del sistema. Estos datos no siempre necesitan estar en el medio más rápido, pero muchas veces tampoco pueden eliminarse de inmediato.

Esa es la razón por la que los discos duros vuelven a ser importantes.

El entrenamiento de IA genera enormes cantidades de datos fríos

El entrenamiento de modelos grandes necesita guardar checkpoints de forma periódica. Un checkpoint puede entenderse como un punto de guardado del proceso de entrenamiento: si el entrenamiento falla a mitad de camino, el sistema puede reanudarse desde un checkpoint en lugar de empezar desde cero.

Para un modelo grande, un solo checkpoint puede ocupar varios TB. Un entrenamiento completo puede durar semanas o incluso meses, y durante ese tiempo se pueden guardar muchos checkpoints. Aunque después se limpie una parte, el seguimiento del proceso, la reversión, la reproducción de experimentos y la auditoría del modelo siguen exigiendo conservar grandes volúmenes de datos.

Además de los checkpoints, los datos de entrenamiento también están creciendo. Texto, imágenes, videos y código de alta calidad necesitan limpieza, deduplicación, segmentación y control de versiones. A medida que los datos sintéticos, los datos de aprendizaje por refuerzo y los datos multimodales entran en los flujos de entrenamiento, la presión sobre el almacenamiento seguirá aumentando.

Estos datos tienen varias características:

Su volumen es enorme;
No siempre se accede a ellos con frecuencia;
Deben conservarse durante mucho tiempo;
Son muy sensibles al costo por unidad de capacidad.

Este tipo de datos no encaja bien si todo se coloca en almacenamiento caro y de alta velocidad.

Por qué no usar solo SSD

Los SSD son claramente más rápidos, pero un centro de datos no puede mirar solo la velocidad. Para datos fríos a escala de PB o más, el costo por unidad de capacidad determina directamente si el sistema es sostenible.

El almacenamiento dentro de un clúster de IA puede dividirse en varios niveles:

HBM y memoria de GPU gestionan los datos más calientes y urgentes;
DRAM se encarga del movimiento temporal;
SSD atiende datos de acceso frecuente y requisitos más estrictos de baja latencia;
HDD se ocupa de datos fríos masivos, copias de seguridad, logs, archivos de checkpoints y conservación a largo plazo.

Dicho de otro modo, los SSD no dejan de ser importantes, pero no pueden sustituir todos los niveles. Los sistemas realmente grandes suelen necesitar almacenamiento por capas: los datos calientes priorizan velocidad, mientras que los datos fríos priorizan capacidad, costo y fiabilidad.

Cuando las empresas de IA empiezan a conservar durante más tiempo residuos de entrenamiento, versiones de modelos, datos sintéticos, logs de inferencia y registros de auditoría, el valor de los HDD vuelve a ampliarse.

Por qué se está tensionando la capacidad de HDD

El mercado de discos duros no ha mostrado un crecimiento especialmente llamativo durante años, y las computadoras de consumo se han movido cada vez más hacia SSD. Pero la lógica de demanda de los centros de datos es diferente.

Los proveedores de nube y las empresas de IA necesitan discos nearline de gran capacidad, entrega predecible y bajo costo por TB. Para los fabricantes de discos duros, estos clientes suelen firmar acuerdos de suministro a largo plazo y tienen mayor prioridad que el mercado de consumo fragmentado.

Esto produce varios efectos:

La capacidad de discos empresariales de alta capacidad queda reservada con antelación por grandes clientes.
Los discos de consumo y los canales minoristas ordinarios reciben menos suministro.
La nueva capacidad tarda en liberarse, por lo que es difícil cubrir rápidamente una escasez de corto plazo.
Los discos duros pasan de ser hardware de baja atención a formar parte de la infraestructura de IA.

Lo más importante es que la propia industria de discos duros ya está muy concentrada. Hay pocos proveedores principales, y aumentar la producción de discos avanzados de gran capacidad no es tan simple como ampliar fábricas. Tecnologías como HAMR pueden elevar la capacidad por disco, pero pasar de la producción técnica en volumen a entregas masivas y estables requiere tiempo.

El aumento del precio del almacenamiento llega al consumo

Los centros de datos de IA no solo absorben GPU y electricidad. También afectan la cadena de suministro de almacenamiento.

Cuando más capacidad de SSD empresariales, memoria y discos duros se dirige a proveedores de nube e infraestructura de IA, el mercado de consumo puede sentir presión en los precios. El aumento que ve un usuario común en SSD, memoria o discos duros no siempre es solo una fluctuación minorista; puede venir de una reasignación de capacidad aguas arriba.

Este impacto no suele ser lineal. Los grandes clientes firman acuerdos a largo plazo, con precios, entregas y planificación de capacidad más estables. El consumo queda más expuesto a la volatilidad del mercado spot. Así aparece un fenómeno claro: el crecimiento de la demanda de centros de datos de IA termina encareciendo también los dispositivos de almacenamiento para compradores comunes.

La mirada de inversión exige más cautela

El impulso de la IA sobre el almacenamiento es real, pero eso no significa que todas las compañías relacionadas con almacenamiento vayan a beneficiarse a largo plazo.

Los discos duros y la memoria flash siguen teniendo rasgos cíclicos. La subida de precios, la capacidad ajustada y los contratos largos con clientes pueden mejorar los resultados de corto plazo. Pero una vez que se libere nueva capacidad o se desacelere el crecimiento de la demanda, la industria puede volver a un reequilibrio entre oferta y demanda. Para las empresas de hardware, lo más importante no es una subida puntual de precios, sino si la demanda puede sostenerse, si los márgenes brutos mejoran, si la expansión de capacidad se vuelve excesiva y si la estructura de clientes es suficientemente sana.

Una lectura más prudente es que la IA está cambiando la estructura de demanda de la industria de almacenamiento. Antes, desde fuera se prestaba más atención al cómputo. Ahora una parte creciente del costo se desplazará hacia la conservación de datos, la gobernanza de datos y la gestión del ciclo de vida de los modelos.

Conclusión

La IA no solo consume cómputo. También produce datos de forma continua.

Las GPU se encargan del cálculo, HBM alimenta datos a alta velocidad, los SSD atienden el acceso a datos calientes y los discos duros sostienen la enorme base de datos fríos. Mientras sigan creciendo el entrenamiento de modelos grandes, los datos sintéticos, los logs de inferencia y la conservación por cumplimiento, los centros de datos necesitarán grandes cantidades de medios de almacenamiento de bajo costo y alta capacidad.

Los discos duros quizá no parezcan el hardware estrella de la era de la IA, pero se están convirtiendo en una capa indispensable de su infraestructura. Cuanto más avanzado es el modelo, más depende de sistemas de almacenamiento enormes; cuanto más caro es el cómputo, más necesita checkpoints y archivos fiables para proteger el costo ya invertido.

Anthropic se alía con SpaceX: la AI de frontera entra en la era industrial del compute

Fri, 08 May 2026 23:39:08 +0800

El acuerdo de compute entre Anthropic y SpaceX parece, en la superficie, un alquiler de recursos. Anthropic obtiene acceso a más de 300MW de capacidad nueva en el data center Colossus 1 de SpaceX y a unas 220.000 GPU NVIDIA. Los usuarios de Claude ven después límites más altos, más capacidad para Claude Code y menos restricciones en horas pico.

Pero el significado va más allá de “Claude funciona mejor”. Muestra que la competencia entre modelos de frontera se está desplazando por debajo de capacidad del modelo, experiencia de producto y financiación, hacia una capa de infraestructura mucho más pesada: electricidad, data centers, scheduling de red, utilización de GPU, cadenas de suministro de chips y, quizá a largo plazo, compute orbital.

Compute no es solo comprar GPU

Durante los últimos dos años, la narrativa habitual de las compañías de AI fue “nos falta compute”. Quien consiguiera más H100, H200 o GPU serie B parecía estar más cerca del próximo modelo de frontera. En 2026, la pregunta ya no es simplemente si una empresa tiene GPU. La pregunta es si puede usarlas de verdad con eficiencia.

La dificultad de los clusters gigantes es ingeniería de sistemas. Cuando el número de GPU llega a cientos de miles, los cuellos de botella pasan del rendimiento de una tarjeta individual a la orquestación completa: redes, entrenamiento paralelo, recuperación de fallos, data I/O, refrigeración líquida, estabilidad eléctrica y optimización del software stack. Cada capa reduce el throughput real.

Tener compute y digerir compute son cosas distintas. Lo primero depende de capital y supply chain. Lo segundo depende de ingeniería. Para una compañía de modelos, el moat ya no está solo en arquitectura y datos de entrenamiento. También incluye la capacidad de hacer que enormes flotas de GPU trabajen juntas de forma eficiente.

Por qué Anthropic necesita esta capacidad

La presión de demanda de Anthropic es clara. Claude creció rápido entre desarrolladores, empresas, agentes y flujos de coding. Claude Code en particular puede consumir mucha capacidad de inferencia. Los límites, colas, ralentizaciones y restricciones en horas pico que ve el usuario son síntomas de producto de una oferta de compute ajustada.

Anthropic ya tiene alianzas de infraestructura con Amazon, Google, Broadcom, Microsoft, NVIDIA y otros. La capacidad de SpaceX importa porque parece una inyección rápida de suministro: un cluster de GPU que puede aliviar de forma directa la presión sobre Claude.

Por eso lo primero que notan los usuarios es el aumento de límites. Para una compañía de modelos, compute no es un activo abstracto. Se convierte en velocidad de respuesta, cuota utilizable, estabilidad de API y experiencia en horas pico.

Por qué SpaceX lo alquila

Desde el lado de SpaceX o Musk, ofrecer capacidad de Colossus 1 a Anthropic también es un negocio práctico de infraestructura.

Los clusters de AI son activos pesados: caros de comprar, rápidos de depreciar, costosos de operar y expuestos a ciclos de renovación de GPU muy rápidos. Si el equipo interno de modelos no puede consumir todos esos recursos a corto plazo, alquilar compute ocioso o poco usado a una compañía de modelos de primer nivel convierte presión de depreciación en flujo de caja.

Esto hace que SpaceX se parezca en cierto sentido a un proveedor cloud. No solo entrena Grok; también puede vender parte de su capacidad de infraestructura AI a otras compañías. Para Musk hay otro efecto: apoyar a Anthropic fortalece a un competidor fuerte fuera de OpenAI y aumenta la presión sobre un viejo rival.

La competencia en AI se está volviendo más pesada

La tendencia más importante de este acuerdo es que la industria de AI se está volviendo cada vez más “pesada”.

La primera etapa de competencia entre grandes modelos se parecía más a una carrera de software: diseño de modelo, recetas de datos, trucos de entrenamiento, benchmarks y empaquetado de producto. Todo eso sigue importando. Pero la competencia de frontera ya depende profundamente del mundo físico:

¿La electricidad es barata, estable y sostenible?
¿Los data centers pueden conseguir suelo, construcción y conexión a la red rápidamente?
¿La red soporta entrenamiento paralelo a gran escala?
¿Las GPU y chips especializados llegan a tiempo?
¿La refrigeración aguanta cargas densas y continuas?
¿El software stack mantiene alta utilización?

Eso es lo que significa “industria pesada de AI”. Los grandes modelos ya no son solo algoritmos en un laboratorio. Son sistemas industriales que cruzan redes eléctricas, inmobiliario, semiconductores, cloud computing y mercados de capital.

Terafab y el cierre del ciclo de chips

El plan Terafab de SpaceX encaja en la misma lógica. Reportes públicos indican que SpaceX presentó planes para construir una fábrica de semiconductores en Texas, con una inversión inicial que podría llegar a 55.000 millones de dólares y una inversión total por fases que podría alcanzar 119.000 millones.

Eso no significa que SpaceX ya pueda desafiar a TSMC, ni que un proceso de 2nm pueda construirse rápido solo con capital. Lo más difícil de la fabricación avanzada no es comprar equipos, sino rendimiento, ajuste de procesos, talento, supply chain y acumulación de años. Incluso si el proyecto avanza bien, sería un proyecto de sistemas de muchos años o incluso más de una década.

Aun así, refleja una tendencia clara: los gigantes de AI cada vez quieren depender menos por completo de cadenas externas de chips. NVIDIA controla GPU y CUDA; TSMC controla la capacidad de fabricación avanzada. Si cualquier eslabón queda limitado, el entrenamiento y la iteración de producto se ralentizan. La integración vertical se vuelve más atractiva.

El compute orbital sigue siendo una idea a largo plazo

La idea de compute orbital también debe tratarse con cautela. SpaceX sí tiene capacidad de lanzamiento de bajo coste, redes satelitales y experiencia aeroespacial. El espacio también ofrece posibilidades de energía solar y refrigeración. Pero llevar data centers a órbita a gran escala sigue enfrentando costes de lanzamiento, mantenimiento, radiación, blindaje, latencia de comunicación, vida útil del hardware y retorno comercial.

La formulación más prudente es esta: el compute orbital es hoy una imaginación de infraestructura a largo plazo, no una solución comercial madura. Representa una pregunta al estilo Musk sobre los límites físicos de los recursos de AI: si electricidad, suelo y refrigeración en la Tierra se vuelven cuellos de botella, ¿dónde puede encontrarse el siguiente espacio físico?

Impacto en OpenAI y el panorama de modelos

El efecto directo de la nueva capacidad de Anthropic es una mejora del servicio Claude. Límites más altos, menos restricciones de pico y una experiencia de desarrollador más estable la hacen más competitiva en coding, enterprise, agents y tareas largas.

Para OpenAI, esto significa que la presión competitiva no viene solo de la calidad del modelo. También depende de qué tan rápido los rivales aseguren compute utilizable, programen clusters de forma eficiente, reduzcan costes y conviertan infraestructura en experiencia de producto.

Para toda la industria, las compañías de modelos empiezan a parecer híbridos de proveedores cloud, fabricantes de chips y empresas de energía. Las futuras compañías de AI de frontera quizá tengan que entrenar modelos, construir data centers, negociar electricidad, personalizar chips, optimizar redes y gestionar enormes gastos de capital al mismo tiempo.

Resumen

La alianza entre Anthropic y SpaceX no es solo una ampliación de capacidad para Claude, ni simplemente Musk “aliándose” con un rival de OpenAI. Es una señal de que la competencia de AI se mueve desde la capa del modelo hacia la capa de infraestructura.

Los algoritmos siguen importando, pero los algoritmos por sí solos ya no bastan. La siguiente etapa favorecerá a quienes aseguren energía estable, ejecuten enormes flotas de GPU con alta utilización y controlen mejor chips y capacidad de data center.

El compute se está convirtiendo en el petróleo de la era de AI. El recurso realmente escaso no es una GPU individual, sino la capacidad de organización industrial que conecta energía, chips, redes, scheduling y demanda de producto.

Referencias: