Nvidia on KnightLi Blog

Detrás de la subida de Cerebras tras su IPO: ¿pueden los chips wafer-scale de IA desafiar a Nvidia?

Mon, 18 May 2026 00:19:51 +0800

Cerebras Systems finalmente llegó al mercado público.

La compañía, conocida por sus “chips de IA wafer-scale”, comenzó a cotizar en Nasdaq el 14 de mayo de 2026 con el ticker CBRS. Según el anuncio oficial de Cerebras, el precio de la IPO fue de 185 dólares por acción, con una oferta de 34,5 millones de acciones ordinarias Class A, incluida la opción de sobreasignación de 4,5 millones de acciones ejercida por completo por los colocadores.

En su primer día de cotización, las acciones de Cerebras abrieron con una fuerte subida y llegaron a acercarse a los 386 dólares. Con base en el precio de emisión, la compañía recaudó más de 5.500 millones de dólares, convirtiéndose en una de las IPOs de hardware de IA más observadas del mercado estadounidense en 2026.

Por eso muchos medios la llaman “retadora de Nvidia”. Pero no es preciso entender Cerebras simplemente como “la próxima Nvidia”. Lo que realmente la hace especial es que eligió una ruta técnica muy distinta de las GPUs tradicionales.

Cerebras no fabrica una GPU normal

El producto central de Cerebras es WSE, sigla de Wafer-Scale Engine.

La fabricación tradicional de chips corta una oblea completa en muchos chips pequeños, que luego se empaquetan, prueban y envían. Cerebras hace lo contrario: intenta convertir la oblea completa directamente en un chip gigante.

Las ventajas de esta ruta son bastante claras:

Mayor área de chip.
Más unidades de cómputo en el chip.
SRAM en chip más cerca de los núcleos de cómputo.
Menor distancia de movimiento de datos dentro del chip.
Mejor ajuste para ciertas cargas de inferencia y entrenamiento de IA.

En cómputo de IA, mover datos suele ser más difícil de optimizar que el cálculo puro. La idea de Cerebras es mantener cómputo y almacenamiento en la misma pieza de silicio tanto como sea posible, reduciendo latencia y consumo causados por sacar datos repetidamente del chip.

Esa es la parte más atractiva del enfoque WSE. No sigue simplemente la ruta de escalar GPUs, sino que usa un chip individual mucho más grande para buscar mayor ancho de banda en chip y menor coste de movimiento de datos.

Por qué el mercado se entusiasmó

El mercado de chips de IA depende hoy en gran medida de Nvidia. Ya sea para entrenar grandes modelos, desplegar servicios de inferencia o construir centros de datos de IA, las GPUs de Nvidia siguen siendo la opción dominante.

Eso hace que el mercado se interese naturalmente por dos tipos de empresas:

Las que pueden reducir la dependencia de la cadena de suministro de Nvidia.
Las que pueden ofrecer más rendimiento o menor coste en ciertas cargas de IA.

Cerebras encaja en ambos relatos.

No fabrica una CPU general ni una tarjeta aceleradora común. Diseña sistemas directamente alrededor del entrenamiento y la inferencia de IA. La compañía también ha enfatizado que sus chips wafer-scale y su plataforma cloud de inferencia pueden ofrecer throughput muy alto en ciertos escenarios de inferencia de modelos.

Este tipo de historia es fácil de amplificar en 2026. La infraestructura de IA sigue expandiéndose, y empresas, proveedores cloud y compañías de modelos buscan más fuentes de cómputo. Si una empresa de chips puede demostrar que en algunos escenarios no es “otra GPU pequeña”, el mercado le presta atención.

La colaboración con OpenAI amplía la narrativa

Otra razón por la que Cerebras recibe tanta atención es su relación con OpenAI.

Según reportes de medios, Cerebras firmó un acuerdo de cooperación con OpenAI por más de 20.000 millones de dólares. El artículo original de Sohu señala que, a finales de 2025, las obligaciones de desempeño restantes de ese acuerdo alcanzaban 24.600 millones de dólares.

Para una compañía de hardware de IA recién listada, este tipo de contrato de largo plazo es muy importante. Sugiere que la empresa no solo tiene una historia técnica, sino también demanda de grandes clientes.

Aun así, los pedidos de largo plazo no equivalen automáticamente a ingresos realizados. El despliegue de centros de datos de IA depende de capacidad de fabricación, empaquetado, suministro eléctrico, ritmos de entrega, presupuestos de clientes y cambios en la estrategia de modelos. Para una empresa de chips, conseguir pedidos es solo el primer paso. Entregar a tiempo, escalar de forma estable y construir márgenes es más difícil.

La concentración de clientes sigue siendo un gran riesgo

Cerebras también tiene un riesgo evidente: alta concentración de clientes.

El artículo de Sohu señala que G42 aportó el 85% de los ingresos de Cerebras en 2024 y bajó al 24% en 2025, mientras que Mohamed bin Zayed University of Artificial Intelligence aportó el 62% de los ingresos en 2025. Esto significa que, aunque el peso de G42 cayó, los ingresos de Cerebras siguen dependiendo mucho de unos pocos grandes clientes.

Para una empresa de infraestructura de IA, la concentración de clientes tiene dos caras.

El beneficio es que los grandes clientes pueden traer crecimiento rápido, contratos de largo plazo y visibilidad de pedidos.

El riesgo es que, si esos clientes recortan presupuestos, cambian de ruta técnica, retrasan centros de datos o enfrentan cambios regulatorios, la volatilidad de ingresos puede ser muy alta.

Por eso no conviene mirar Cerebras solo por la subida de su IPO. El precio del primer día refleja entusiasmo y expectativas. La valoración de largo plazo dependerá de estructura de ingresos, capacidad de entrega, márgenes y diversificación de clientes.

El límite técnico: capacidad de memoria

WSE tiene fortalezas claras, pero sus límites también son claros.

El artículo de Sohu señala que el chip WSE-3 incluye 44GB de SRAM, mientras que Nvidia B200 incluye 192GB de memoria. El diseño de Cerebras coloca mucho cómputo y SRAM en la misma oblea, lo que reduce movimiento de datos, pero también limita la capacidad de memoria disponible.

Para los grandes modelos, la capacidad de memoria afecta directamente la longitud de contexto, el tamaño de batch y la forma de despliegue. Las ventanas de contexto son cada vez más largas, y los modelos insignia avanzan hacia contextos de millones de tokens. En esa tendencia, la capacidad de SRAM en chip se vuelve una restricción real.

Las GPUs tradicionales pueden seguir ampliando memoria mediante apilamiento HBM, expansión de empaquetado e interconexión multi-GPU. La ruta wafer-scale de Cerebras es más difícil de ampliar de forma simple, porque el área de la oblea ya está ocupada por unidades de cómputo y SRAM. Aumentar SRAM puede implicar sacrificar área de cómputo.

Esto no significa que la ruta técnica de Cerebras haya fallado. Significa que es una elección arquitectónica orientada a cargas específicas. Puede ser muy fuerte en ciertos escenarios de inferencia, pero no necesariamente cubre todas las necesidades de entrenamiento e inferencia de IA.

¿Puede reemplazar a Nvidia?

A corto plazo, es poco probable que Cerebras reemplace a Nvidia.

La ventaja de Nvidia no es solo el rendimiento de la GPU. Incluye el ecosistema CUDA, herramientas para desarrolladores, integración de sistemas, interconexión de red, soluciones de servidor completas, soporte de proveedores cloud y costes de migración del cliente. Muchas compañías de IA eligen Nvidia no porque un chip gane en una métrica aislada, sino porque todo el ecosistema es el más estable.

La oportunidad más realista para Cerebras es convertirse en una opción complementaria para cargas de IA específicas:

Inferencia de alto throughput.
Servicios de grandes modelos concretos.
Tareas sensibles a latencia y ancho de banda en chip.
Clientes que quieren reducir dependencia de una sola cadena de suministro de GPUs.
Compañías de modelos dispuestas a probar nuevas arquitecturas por rendimiento.

Es decir, no es un “asesino de Nvidia”. Se parece más a una ruta alternativa agresiva dentro del mercado de cómputo de IA.

Resumen

La fuerte subida de Cerebras tras su IPO muestra que los mercados de capitales siguen dispuestos a pagar una prima alta por historias de infraestructura de IA.

Su ruta de chips wafer-scale es realmente distinta y la separa de las compañías comunes de aceleradores de IA. Con colaboraciones de grandes clientes como OpenAI, Cerebras tiene una narrativa de mercado poderosa.

Pero los riesgos también son reales: concentración de clientes, presión de entrega, límites de memoria, barreras de ecosistema y la diferencia sistémica frente a Nvidia determinarán hasta dónde puede llegar.

Para lectores generales, lo más interesante de Cerebras no es cuánto subió la acción. Es que demuestra que la competencia por cómputo de IA no tendrá una sola ruta basada en GPUs. La infraestructura futura de grandes modelos podría incluir GPUs, chips wafer-scale, aceleradores propios y plataformas cloud especializadas de inferencia al mismo tiempo.

Referencias

EE. UU. autoriza el Nvidia H200: 10 empresas chinas obtienen aprobación, pero la entrega sigue en duda

Sat, 16 May 2026 17:12:09 +0800

El proceso de licencias de exportación de EE. UU. para vender Nvidia H200 a China por fin muestra avances concretos.

Según informes relacionados con Reuters, el Departamento de Comercio de EE. UU. aprobó que unas 10 empresas chinas compren chips Nvidia H200 para IA. La lista incluye grandes compañías de internet y empresas de la cadena de suministro, como Alibaba, Tencent, ByteDance, JD.com, Lenovo y Foxconn. Sin embargo, al 14 de mayo de 2026, los H200 aún no se habían entregado al mercado chino.

Conviene leerlo con cuidado: EE. UU. ha concedido algunas licencias, pero eso no significa que los chips ya hayan llegado ni que las empresas chinas puedan desplegarlos de inmediato a gran escala.

Qué se aprobó

La aprobación tiene tres puntos clave.

Primero, el Departamento de Comercio aprobó que unas 10 empresas chinas compren H200. Según los informes, los clientes aprobados pueden comprar directamente a Nvidia o a través de intermediarios y distribuidores autorizados.

Segundo, cada cliente aprobado puede comprar hasta unos 75.000 chips H200. Si ese volumen se entrega por completo, mejoraría de forma notable el suministro de GPU de gama alta para grandes proveedores cloud y empresas de modelos grandes.

Tercero, Lenovo confirmó que es una de las compañías que recibió licencia de exportación de Nvidia y está autorizada para vender H200 en China. Empresas como Lenovo y Foxconn no son solo compradores; también pueden participar en servidores completos, sistemas de rack, integración y distribución.

El punto más importante es que licencia no significa entrega. Los informes públicos subrayan que todavía no se ha completado ninguna entrega de H200 a China.

Por qué H200 importa

H200 pertenece a la generación Hopper de aceleradores de Nvidia y se sitúa por encima del H20, diseñado previamente para el mercado chino. H20 fue un producto con especificaciones reducidas para ajustarse a restricciones de exportación anteriores, mientras que H200 ofrece mayor capacidad de cómputo y memoria.

Según información pública, H200 integra 141GB de memoria HBM3e, lo que lo hace valioso para entrenamiento de modelos grandes, inferencia, servicios de contexto largo y despliegues empresariales de IA. No es la generación Blackwell más reciente de Nvidia, pero para proveedores cloud y empresas de IA en China sigue siendo un recurso de cómputo de gama alta.

Por eso H200 se ha mantenido en una posición sensible dentro de los controles de chips de IA entre EE. UU. y China. EE. UU. quiere limitar el acceso chino al cómputo de IA más avanzado, pero no quiere que Nvidia pierda por completo el mercado chino. China, por su parte, busca reducir la dependencia de GPU estadounidenses y dirigir más inversión hacia chips nacionales y ecosistemas locales.

Aún no ha aterrizado realmente

El error más fácil es interpretar “aprobado para comprar” como “la oferta se ha reabierto”.

Con la información pública actual, aún hay varias variables:

La aprobación estadounidense es solo el primer paso; pedidos, revisión, envío y cumplimiento normativo aún deben continuar.
Todavía se necesita orientación más clara sobre si China permitirá la importación y el despliegue reales.
Que las empresas aprobadas hagan pedidos de inmediato depende de precio, plazo, alternativas nacionales y riesgo político a largo plazo.
Nvidia puede tener que recoordinar la capacidad de H200, porque su foco ya se había desplazado a Blackwell y productos posteriores.

Es decir, las ventas de H200 a China parecen más una ventana de licencia abierta que una cadena de suministro que ya esté llevando chips a centros de datos chinos a gran escala.

Qué significa para Nvidia

Para Nvidia, el mercado chino sigue siendo demasiado importante.

Tras el endurecimiento de las restricciones de exportación, la cuota de Nvidia en el mercado chino de aceleradores de IA de gama alta se vio claramente afectada. Jensen Huang ha insistido varias veces en que EE. UU. no debería renunciar fácilmente al mercado chino, porque eso dañaría los ingresos de Nvidia y debilitaría la influencia del ecosistema tecnológico estadounidense entre desarrolladores globales de IA.

Si H200 finalmente puede entregarse, Nvidia podrá recuperar parte de los pedidos de clientes chinos y mantener CUDA dentro de los flujos de trabajo chinos de modelos grandes y cloud computing.

Pero este negocio no volverá a la situación sin fricción del pasado. Licencias, cuotas, reparto de ingresos, verificación de terceros, restricciones de reexportación y revisión de identidad del cliente pueden convertirse en costes permanentes. Para Nvidia, H200 no es solo vender producto; es mantener presencia de mercado dentro de un corredor político estrecho.

Qué significa para las empresas chinas

Para las empresas chinas, H200 es suministro de cómputo a corto plazo, no certeza de largo plazo.

Si las empresas aprobadas reciben realmente H200, se beneficiarán entrenamiento de modelos grandes, servicios de inferencia, AI cloud, plataformas de agentes y despliegues privados empresariales. Para equipos ya muy dependientes de CUDA, el coste de migrar a H200 es mucho menor que cambiar a un ecosistema de hardware completamente nuevo.

Pero la incertidumbre política hará que las empresas sean prudentes. Poder comprar H200 hoy no significa poder comprarlo de forma estable el año próximo. Comprar un lote no significa tener una ruta de expansión a largo plazo. Incluso si las grandes compañías compran, probablemente seguirán impulsando GPU nacionales, cómputo heterogéneo, optimización de inferencia y compresión de modelos para evitar volver a depender de una sola cadena de suministro.

Por eso H200 parece más un amortiguador para las empresas chinas de IA que una solución definitiva.

La presión sobre los chips nacionales no desaparece

La aprobación de H200 por parte de EE. UU. no reduce la presión sobre los chips nacionales de IA. De hecho, puede hacer que la competencia sea más directa.

Si H200 entra realmente en el mercado chino, los fabricantes nacionales tendrán una referencia más fuerte en rendimiento y ecosistema. Los clientes compararán estabilidad de entrenamiento, throughput de inferencia, capacidad de memoria, toolchains de software, comunicación de clústeres y coste operativo.

Aun así, los chips nacionales tienen oportunidades. Mientras las importaciones de GPU de gama alta sigan condicionadas por políticas, las empresas no pondrán toda su base de cómputo de largo plazo en Nvidia. Las soluciones nacionales tendrán espacio si pueden ofrecer coste controlable, suministro estable y software usable en escenarios concretos.

Un patrón más realista puede ser: entrenamiento de gama alta e inferencia crítica seguirán intentando obtener recursos Nvidia como H200, mientras que inferencia a escala, proyectos gubernamentales y empresariales, y escenarios de cadena de suministro controlable se moverán más hacia cómputo nacional o mixto.

Cómo leer esta noticia

La lectura más precisa es que la fricción de chips de IA entre EE. UU. y China se ha relajado temporalmente, pero no ha vuelto a una apertura completa.

EE. UU. concedió licencias para reequilibrar controles e intereses comerciales. Nvidia quiere usar H200 para regresar al mercado chino de chips de IA de gama alta. Las empresas chinas quieren más cómputo, pero también deben evaluar la incertidumbre de importación y la estrategia de sustitución nacional.

Lo importante no es solo si EE. UU. “autoriza” la venta, sino lo que ocurra después:

Si el primer lote de H200 se entrega realmente a clientes chinos.
Si las empresas aprobadas revelan escala de compra y escenarios de despliegue.
Si China emite directrices más claras sobre importación, compra y uso.

Hasta que esas preguntas se resuelvan, H200 sigue siendo una ventana abierta para el mercado chino, no una cadena de suministro completamente restaurada.

Referencias

Lo que Jensen Huang realmente quiso decir en su discurso en CMU

Thu, 14 May 2026 20:59:50 +0800

El discurso de Jensen Huang en CMU parece, en la superficie, una mezcla de recuerdos personales e historia emprendedora. En realidad, fue una ducha fría para un grupo de graduados de una universidad de élite.

Su mensaje central no fue “todo será más fácil”. Fue este: la era de la AI ya llegó, y la antigua trayectoria profesional estable, respetable y lineal puede dejar de funcionar. Los jóvenes deben prepararse para volver a pasar dificultades y también para aceptar trabajos que antes parecían menos brillantes.

Primera capa: mi infancia fue dura, y ustedes también podrían pasar por tiempos duros

Huang habló de su infancia: levantarse a las 4 de la mañana para repartir periódicos y, más tarde, lavar platos en Denny’s.

La historia tiene, por supuesto, un componente inspirador. Pero no es solo nostalgia por el sufrimiento. Estaba hablando a estudiantes de Carnegie Mellon, personas que normalmente tendrían un camino bastante claro hacia bancos de inversión, compañías de software, gigantes tecnológicos y empleos bien pagados.

Así que el verdadero mensaje era: no den por sentado que, después de graduarse, podrán seguir caminando por la ruta cómoda que funcionó para generaciones anteriores.

La AI está reescribiendo el valor de muchos trabajos. El viejo modelo de ascenso estable basado en títulos, currículum y canales de grandes empresas puede comprimirse. Muchas personas podrían descubrir que también tendrán que pasar por una etapa más áspera, menos elegante y más pegada al trabajo básico.

Segunda capa: quítense la toga y hagan el trabajo que realmente hace falta

Huang pasó de hablar de repartir periódicos a lavar platos en Denny’s, y describió ese cambio como un ascenso profesional importante.

Esa frase importa. Lo que estaba diciendo es que el valor profesional no siempre viene del título. Viene de estar dentro de una demanda real.

Llevado a la industria de AI actual, el mensaje podría ser este: no miren solo a bancos de inversión, empresas de software de internet, consultoras y puestos tradicionales de oficina. Los lugares donde realmente faltará gente pueden estar en capas más básicas, más ingenieriles y más duras.

Por ejemplo:

construir data centers;
trabajar en energía y refrigeración;
operar salas de servidores;
encargarse de electricidad, fontanería e infraestructura;
desplegar clusters de GPU;
entregar proyectos de ingeniería para AI factories.

Estos trabajos no suenan tan refinados como “entrar en una gran empresa a escribir software”. Pero en la era de la AI, pueden convertirse en los nuevos puestos clave.

Así que “ser fontanero, electricista o constructor de data centers” no es solo una broma. Es un recordatorio para los graduados: la AI no son solo modelos y código. También necesita electricidad, suelo, data centers, redes, refrigeración, operaciones y cadenas de suministro. Quien pueda construir todo eso de verdad estará en una de las partes más duras de la industria.

Tercera capa: las cosas difíciles siempre son más difíciles de lo que parecen

Huang también contó que, cada vez que NVIDIA se encontraba con una dificultad, el equipo pensaba: ¿qué tan difícil puede ser?

La respuesta, cada vez, era que era más difícil de lo que habían imaginado al principio.

Esta es una frase que todo fundador e ingeniero debería escuchar. Muchas cosas parecen solo un proyecto en una presentación, solo un punto del roadmap en una reunión, o solo una tendencia dentro de una narrativa estratégica. Pero cuando se hacen de verdad, aparecen cadenas de suministro, capital, ingeniería, clientes, organización, competencia y presión de tiempo.

En la era de la AI esto es especialmente cierto.

Entrenar modelos es difícil. Desplegarlos también. Hacer un demo es difícil. Convertir un demo en un producto confiable es más difícil. Comprar GPU es difícil. Mantener esas GPU llenas, estables y generando retorno comercial es todavía más difícil.

Por eso Huang no estaba ofreciendo un optimismo ligero. Estaba expresando realismo de ingeniería: se puede ser optimista, pero no hay que subestimar la dificultad.

El verdadero recordatorio de este discurso

Si hubiera que comprimir el discurso en una frase, sería esta:

La era de la AI no recompensará automáticamente a la gente inteligente. Recompensará a quienes estén dispuestos a entrar en dificultades reales, infraestructura real y trabajo real de ingeniería.

Los estudiantes de CMU, por supuesto, seguirán teniendo muchas oportunidades. Pero si solo siguen el camino de generaciones anteriores, buscan un puesto estable en una gran empresa y esperan que la inercia profesional siga funcionando, también podrían quedarse atrás.

Lo que Huang realmente quería recordarles era esto: no imaginen solo el paso de la toga de graduación a una oficina elegante. Las oportunidades futuras pueden estar en data centers, sistemas eléctricos, tuberías de refrigeración, clusters de GPU y trabajos que al principio no parecen elegantes ni de oficina.

La AI no solo cambiará los puestos de software. También redefinirá qué significa un “buen trabajo”.

NVIDIA lanza Nemotron 3 Nano Omni: un modelo abierto de razonamiento omnimodal para agentes

Fri, 01 May 2026 12:07:15 +0800

NVIDIA lanzó Nemotron 3 Nano Omni, un modelo abierto de razonamiento omnimodal diseñado para flujos de AI Agents. Su foco no es solo responder preguntas de texto, sino poner lenguaje, visión y audio en un mismo marco de razonamiento para trabajar con entradas más cercanas al trabajo real.

Por posicionamiento, Nemotron 3 Nano Omni parece un modelo base preparado para agentes. Puede entender información de pantallas, documentos, imágenes, voz y vídeo, y convertirla en resultados de razonamiento accionables.

Especificaciones del modelo

Nemotron 3 Nano Omni usa arquitectura MoE. NVIDIA lista estos puntos:

Item	Information
Model name	`Nemotron 3 Nano Omni`
Architecture	MoE
Parameter scale	30B total / 3B active
Modalities	Text, image, audio, video
Context length	256K tokens
License	Apache 2.0
Main deployment direction	AI Agents, multimodal reasoning, enterprise agents

Lo más llamativo es 30B-A3B: el modelo tiene unos 30B parámetros totales, pero activa alrededor de 3B por paso de inferencia. Es un equilibrio entre capacidad y coste.

Pero active params en MoE no significa que la VRAM pueda estimarse como si fuera solo un modelo de 3B. Hay que contar pesos de expertos, KV cache, módulos de visión y audio, contexto y sobrecarga del framework.

No resuelve un problema de una sola modalidad

Los LLM tradicionales procesan sobre todo texto. Los multimodales añaden imagen. Nemotron 3 Nano Omni apunta a algo más amplio: entrada omnimodal, con texto, imágenes, audio y vídeo dentro de un razonamiento unificado.

Esto importa para agentes porque las tareas reales suelen incluir:

leer botones, tablas y ventanas en pantalla;
analizar PDFs, capturas, gráficos y webs;
escuchar instrucciones o reuniones;
entender acciones y tiempos en vídeo;
combinar esas señales para decidir el siguiente paso.

Si un modelo solo maneja una modalidad, el agente necesita mucho pegamento entre modelos especializados. Un modelo omnimodal reduce ese coste de integración.

Pensado para operación de ordenador e inteligencia documental

NVIDIA menciona explícitamente tareas de operación de ordenador. Estas requieren entender interfaces:

qué controles aparecen en pantalla;
en qué estado está la ventana actual;
qué botón o menú debe usarse;
qué significan tablas, diálogos y campos de entrada.

Esto es difícil de evitar cuando los agentes entran en despliegues reales. Para operar software de oficina, navegadores, backends empresariales o herramientas de desarrollo, el agente debe entender la interfaz, no solo leer documentación.

La inteligencia documental tiene una lógica parecida. Los materiales empresariales mezclan texto, tablas, imágenes, páginas escaneadas y gráficos. Un modelo omnimodal puede poner todo eso en un mismo contexto para revisión de contratos, análisis de informes, facturas, QA de conocimiento y automatización de procesos.

Audio y vídeo acercan los agentes a escenarios reales

Las entradas de audio y vídeo amplían mucho los usos:

resúmenes de reuniones;
análisis de llamadas de atención al cliente;
comprensión de comandos de voz;
organización de contenido educativo;
análisis de vídeos instructivos;
inspección de seguridad o industrial;
revisión de grabaciones de pantalla;
razonamiento temporal en tareas de varios pasos.

Si estas tareas dependen solo de transcripciones, se pierde información visual y temporal. Un modelo omnimodal puede combinar voz, fotogramas y texto para dar al agente una visión más completa.

Despliegue y ecosistema

NVIDIA sitúa Nemotron 3 Nano Omni dentro de un ecosistema abierto y usa licencia Apache 2.0. Para desarrolladores y empresas, esto reduce la barrera de experimentación, integración y desarrollo secundario.

También está muy ligado al ecosistema de inferencia de NVIDIA. En despliegues empresariales aparecen preguntas como:

si corre de forma eficiente en GPUs NVIDIA;
si soporta contexto largo y entrada multimodal;
si conecta con frameworks de agentes existentes;
si procesa documentos internos, audio/vídeo y capturas de UI;
si puede desplegarse en entornos privados.

NVIDIA afirma que el modelo puede alcanzar hasta 9x el throughput de modelos abiertos omnimodales comparables. El valor real dependerá del hardware, contexto, modalidades y framework, pero la dirección es clara: unir modelos abiertos multimodales con infraestructura de inferencia empresarial.

Casos de uso adecuados

Nemotron 3 Nano Omni encaja mejor en:

agentes que entienden texto, imagen, audio y vídeo al mismo tiempo;
inteligencia documental empresarial y QA de conocimiento;
operación de ordenador basada en capturas o interfaces web;
análisis multimodal de reuniones, atención al cliente y docencia;
comprensión de vídeo, revisión de workflows y razonamiento temporal;
equipos que necesitan licencia abierta y despliegue privado.

No es necesariamente lo mejor para todo usuario. Para chat local, completado de código o QA simple, un modelo de lenguaje de una sola modalidad puede ser más ligero y rápido.

Qué significa para AI Agents

Para que los AI Agents entren realmente en escenarios de trabajo, no basta con escribir texto. Necesitan entender interfaces, voz, documentos y cambios en vídeo, y convertirlo en la siguiente acción.

Ahí es donde Nemotron 3 Nano Omni importa. No es solo hacer el modelo más grande: es unificar muchos tipos de entrada que los agentes encuentran en tareas reales.

Desde este ángulo, el lanzamiento de NVIDIA no es solo “otro modelo multimodal”. Es parte del esfuerzo por conectar modelos abiertos, inferencia GPU, agentes empresariales y despliegue privado. Lo siguiente a observar será su rendimiento en frameworks de agentes, workflows empresariales y despliegues locales.

Referencias:

NVIDIA Technical Blog: NVIDIA Nemotron 3 Nano Omni

Cómo elegir una GPU en abril de 2026: qué modelos evitar y cuáles vale más la pena considerar

Mon, 27 Apr 2026 08:51:10 +0800

Si te estás preparando para construir una PC, la GPU es la única parte en la que realmente no debes fijarte únicamente en si una tarjeta es nueva. En abril de 2026, algunos modelos ya son mucho más difíciles de justificar, mientras que otros no son perfectos, pero aún así parecen notablemente más razonables que las alternativas del mismo precio.

Así que este artículo se salta la teoría y va directamente a modelos específicos.

Modelos que no priorizaría

1. `RTX 5060 Ti 8GB`

El mayor problema de esta tarjeta no es que sea inutilizable. El problema es que “8GB” ya se siente atrapado en un incómodo término medio en este momento.

Si juegas principalmente a juegos en línea más livianos en configuraciones 1080p de media a alta, aún puede funcionar. Pero una vez que ingresa a cualquiera de estas áreas, la limitación aparece rápidamente:

Juegos AAA más nuevos
Configuraciones de textura más altas
1440p
Uso mixto con inferencia de IA, edición o trabajo de productividad

Si ya está considerando la “RTX 5060 Ti”, la decisión más segura suele ser ir directamente a la versión de “16 GB” en lugar de ahorrar un poco de presupuesto optando por la de “8 GB”.

En resumen:

RTX 5060 Ti 8GB: no recomendado
RTX 5060 Ti 16GB: claramente más vale la pena considerar

2. Tarjetas antiguas y caras, especialmente `RTX 3080 10GB` y `RTX 3070 Ti` cuando todavía tienen un precio elevado

El problema con estas tarjetas no es que el rendimiento sea completamente malo. El problema es que, en el mercado actual, comprarlos a menudo te pone en una situación incómoda:

El consumo de energía no es bajo
Ya no son nuevos
La VRAM no es especialmente generosa
Las fuentes del mercado de segunda mano suelen ser confusas

RTX 3080 10GB es el ejemplo más claro. Si todavía tiene un precio alto, rápidamente se convierte en una tarjeta que parece sólida en el papel pero que se siente menos equilibrada en el uso real.

RTX 3070 Ti sigue la misma lógica. No es absolutamente imposible de comprar, pero si la diferencia de precio no es significativa, normalmente será mejor que busques algo más nuevo, algo con una VRAM más cómoda o algo más equilibrado en potencia y térmica.

3. Insignias más antiguas con un historial poco claro, como `RTX 3090` y `RTX 3080 Ti`

Es fácil querer estas dos cartas por razones obvias:

Los nombres todavía suenan fuertes
El rendimiento del papel no es débil
Son muy visibles en el mercado de segunda mano.

Lo que realmente hay que tener en cuenta es de dónde vienen.

Si estás comprando:

Una tarjeta extraída
Una tarjeta reparada
Una tarjeta usada con un historial poco claro.

entonces el riesgo suele ser mucho mayor que con una tarjeta minorista normal. Una tarjeta como la “RTX 3090” parece atractiva debido a la VRAM de “24 GB”, pero el calor, la entrega de energía, el estado del silicio y el historial de uso pasado se convierten en preocupaciones mayores de las que serían en una tarjeta nueva y sencilla.

Si aún no sabe exactamente lo que está comprando y no planea dedicar tiempo a revisar la tarjeta con atención, estos buques insignia más antiguos generalmente no son algo que tocaría casualmente.

4. `RTX 5070` cuando el precio no es el adecuado

RTX 5070 no es una tarjeta que sea automáticamente mala. El problema es que el precio tiene que tener sentido.

Su incomodidad aparece cuando la brecha entre este y el RTX 5070 Ti no es lo suficientemente grande. En ese caso, muchos compradores acaban sintiéndose extrañamente insatisfechos.

El patrón suele verse así:

Compra el 5070: sigues pensando que con un poco más te habrías comprado el 5070 Ti
No estires el presupuesto: aún sabes que compraste la tarjeta “casi”

Por lo tanto, “RTX 5070” no es algo que deba ignorarse por completo, pero vale la pena considerarlo solo cuando el precio es claramente correcto. Si el precio se sitúa en una zona intermedia incómoda, rápidamente se convierte en una tarjeta que tiene sentido teórico pero que no se siente muy bien en la práctica.

Modelos que tienen más sentido

1. `RTX 5060 Ti 16GB`

Si ya está comprando en el rango medio, esta tarjeta suele ser la opción más segura en comparación con la versión de “8 GB”.

Las razones son simples:

Más espacio libre dentro de la misma familia de productos
Es menos probable que VRAM lo bloquee en los próximos años.
Es más fácil vivir con él si combinas juegos y productividad

Puede que no sea la tarjeta más explosiva por su precio, pero al menos es el tipo de tarjeta de la que es menos probable que te arrepientas inmediatamente.

2. `RTX 5070 Ti`

Si su presupuesto puede estirarse, esta suele ser una respuesta más completa que el RTX 5070.

Su valor no es que domine todos los escenarios. Su valor es que se siente más como una tarjeta que puede equilibrar los juegos, la resolución y el uso a largo plazo, todo al mismo tiempo.

Tiene sentido para las personas que:

Quiere configuraciones altas de 1440p
Quiere que el sistema dure años
No quiero empezar a pensar en actualizaciones demasiado pronto.

Si ya está atrapado entre el 5070 y el 5070 Ti, y la brecha no es absurdamente grande, ir directamente al 5070 Ti suele ser la decisión menos molesta.

3. Las tarjetas nuevas con un precio adecuado suelen ser una mejor primera opción que las tarjetas más antiguas de alta gama

Si no eres un cazador veterano de GPU usadas, una regla simple y efectiva es la siguiente:

Priorizar las nuevas tarjetas minoristas normales
Tenga cuidado con las tarjetas antiguas de alta gama que tienen orígenes complicados

En este punto, el enfoque más práctico suele ser:

Presupuesto de gama media: comience con RTX 5060 Ti 16GB
Un nivel superior: céntrese en RTX 5070 Ti
Considere RTX 5070 solo cuando el precio sea claramente favorable

Este suele ser un mejor camino que apostar con cartas más antiguas que suenan más fuertes pero que vienen con más equipaje.

Si solo quieres la versión corta

Puedes recordarlo así:

Realmente no recomendado: RTX 5060 Ti 8GB
No recomendado a menos que tenga un buen precio: RTX 5070
Tenga cuidado con: RTX 3080 10GB, RTX 3070 Ti y RTX 3090/RTX 3080 Ti de fuente poco clara
Más que vale la pena considerar: RTX 5060 Ti 16GB
Selección más fácil a largo plazo si el presupuesto lo permite: RTX 5070 Ti

Línea final

A estas alturas del mercado el verdadero error suele ser no gastar un poco más. Se trata de comprar una tarjeta que parece aceptable en papel pero que siempre se siente un poco comprometida en el uso real.

Si desea minimizar el arrepentimiento, RTX 5060 Ti 16GB y RTX 5070 Ti son generalmente más seguras que muchas tarjetas que parecen “suficientemente buenas”, mientras que RTX 5060 Ti 8GB, RTX 5070 de mal precio y tarjetas de gama alta más antiguas con un historial poco claro suelen ser las primeras en tachar.

Qu茅 es NVIDIA nvbandwidth: c贸mo usar esta herramienta de prueba de ancho de banda de GPU

Fri, 24 Apr 2026 14:41:35 +0800

Si recientemente has estado solucionando problemas del rendimiento de la interconexión entre múltiples NVIDIA GPUs, o si deseas verificar el ancho de banda real entre PCIe, NVLink, la memoria host y la VRAM, NVIDIA/nvbandwidth es una herramienta pequeña que vale la pena conocer.

No es una utilidad de benchmark general, ni es un comando oculto dentro de un framework de modelo grande. Es una herramienta de código abierto de NVIDIA diseñada específicamente para medir el ancho de banda y la latencia para copias de memoria relacionadas con la GPU. En lugar de solo mirar el ancho de banda teórico, nvbandwidth es mejor para responder a una pregunta práctica: ¿cuánto ancho de banda puede entregar esta máquina y sus interconexiones GPU actuales en este momento?

false

1. ¿Qué hace `nvbandwidth`

Según el README oficial, nvbandwidth es una herramienta de línea de comandos para medir el ancho de banda en las NVIDIA GPU.

Se enfoca principalmente en el rendimiento de transferencia a través de diferentes patrones de memcpy, tales como:

GPU -> GPU
CPU -> GPU
GPU -> CPU
Transferencias entre GPUs a través de múltiples nodos

Estas pruebas son especialmente útiles en escenarios como:

Solucionar problemas de cuellos de botella de interconexión en el entrenamiento o la inferencia multi-GPU
Verificar el comportamiento real de enlaces como NVLink, PCIe y C2C
Comparar diferencias de transferencia entre servidores, topologías, drivers o versiones de CUDA
Realizar validación de hardware de referencia antes del despliegue del clúster

En resumen, nvbandwidth no se trata del rendimiento del modelo (model throughput). Se trata de la capacidad de bajo nivel para mover datos.

false

2. No produce solo una puntuación simple

Mucha gente considera una prueba de ancho de banda como algo que termina con un solo número, pero nvbandwidth proporciona una salida más detallada que eso.

Informa los resultados como matrices para cada tipo de prueba. Por ejemplo, en una prueba como device_to_device_memcpy_write_ce, muestra el ancho de banda entre cada par de GPUs por fila y columna. Eso significa que puedes ver más que solo una estimación aproximada de la velocidad a nivel de todo el sistema. También puedes detectar:

Qué pares de GPUs son especialmente rápidos
Qué rutas están claramente limitadas por PCIe
Si ciertos pares de GPUs muestran un ancho de banda anormalmente bajo
Si la topología multi-GPU coincide con tus expectativas

Si estás trabajando con un servidor de 8 GPUs, una plataforma dual-socket o un sistema multinodo, esta salida de estilo matriz suele ser más útil que un único número promedio.

false

3. Cómo entender las copias `CE` y `SM`

La documentación oficial divide las pruebas en dos categorías:

CE: transferencias del motor de copia basadas en las APIs memcpy
SM: transferencias basadas en el kernel

Estos dos tipos de resultados no están garantizados a coincidir exactamente, porque representan diferentes rutas de copia. Si principalmente quieres entender el comportamiento regular de transferencia de dispositivo a dispositivo, generalmente mirarás CE primero. Si quieres estudiar los detalles de ejecución más de cerca, entonces SM también vale la pena revisar.

El README también explica que los resultados de ancho de banda utilizan la mediana a través de múltiples ejecuciones de prueba por defecto. Las versiones más nuevas incluyen además estadísticas de variabilidad, lo que facilita juzgar cuán estables son los números.

false

4. ¿Qué entorno requiere

nvbandwidth no es una utilidad binaria pura que simplemente descargues y ejecutes. Espera un entorno de desarrollo CUDA estándar.

El README actual enumera estos requisitos básicos:

CUDA Toolkit 11.x o más reciente
Un compilador con soporte para C++17
CMake 3.20+, siendo 3.24+ recomendado
Boost program_options
Un dispositivo CUDA utilizable y un controlador compatible

Los requisitos son más altos si deseas la versión multinode. El README actual indica explícitamente:

Las compilaciones multinode requieren CUDA Toolkit 12.3
El controlador debe ser 550 o más reciente
Se requiere MPI
El servicio nvidia-imex debe estar configurado

Por lo tanto, esta es mucho más una herramienta de ingeniería para servidores y clusters de GPU en Linux que algo destinado a un uso de escritorio casual.

false

5. Cómo construir y ejecutar la versión de nodo único

El proceso de construcción de nodo único es sencillo:

1
2

cmake .
make

En Ubuntu / Debian, el proyecto también proporciona un script debian_install.sh que instala dependencias comunes y construye el proyecto.

Después de construir, puedes verificar primero la salida de ayuda:

`1`	`./nvbandwidth -h`

Algunas opciones comúnmente utilizadas incluyen:

-l: listar pruebas disponibles
-t: ejecutar una prueba específica por nombre o índice
-p: ejecutar pruebas por prefijo
-b: establecer el tamaño del búfer de memcpy, predeterminado 512 MiB
-i: establecer el número de iteraciones de benchmark
-j: salida JSON
-H: habilitar huge pages para la asignación de memoria del host

Si solo deseas ejecutar la suite de pruebas predeterminada una vez, usa:

`1`	`./nvbandwidth`

Si solo quieres probar un elemento específico, como una copia de dispositivo a dispositivo:

`1`	`./nvbandwidth -t device_to_device_memcpy_read_ce`

false

6. El soporte multinodo es una de sus características más destacadas

nvbandwidth no es solo para pruebas multi-GPU en un solo nodo. También admite escenarios multinodo.

Según el README, la compilación multinodo se realiza de esta manera:

1
2

cmake -DMULTINODE=1 .
make

En tiempo de ejecución, normalmente se utiliza junto con mpirun, con un proceso lanzado por GPU. La documentación también requiere que todos los ranks participantes pertenezcan al mismo clúster multinodo, y recomienda ejecutar las pruebas principalmente con el prefijo multinode bajo MPI.

Esto acerca su posicionamiento a la informática de alto rendimiento (high-performance computing) y a los sistemas GPU grandes que a las comprobaciones básicas de una estación de trabajo.

Si estás trabajando con implementaciones multinodo de NVLink o plataformas más complejas como GB200 / Grace Hopper, el valor de nvbandwidth es mucho mayor de lo que sería en una configuración típica de GPU de consumo.

false

7. Qué cambió en v0.9

A partir del 24 de abril de 2026, la página de GitHub Releases muestra que la última versión de nvbandwidth es v0.9, lanzada el 8 de abril de 2026.

Las actualizaciones más destacadas en este lanzamiento incluyen:

Se agregaron estadísticas de variabilidad a la salida de ancho de banda
Se agregó soporte para páginas grandes (huge page) para la memoria anfitriona (excluyendo Windows)
Se agregó muestreo de pares (pair sampling) para pruebas de dispositivo a dispositivo
Se agregó una guía de solución de problemas
Se unificaron los caminos de ejecución de nodo único y multinodo

También vale la pena señalar dos cambios orientados a la ingeniería:

Mejora en la detección de la arquitectura CUDA sin depender tanto del acceso directo a la GPU
Se eliminó el soporte para Volta (sm_70 / sm_72) en entornos de CUDA Toolkit 13.0+

Por lo tanto, si solo mirabas las versiones anteriores, v0.9 ya no es solo un probador básico de ancho de banda. Claramente se está moviendo hacia una mejor automatización, solución de problemas y validación de sistemas a gran escala.

false

8. ¿Cuándo es una buena opción?

``nvbandwidth` es especialmente adecuado cuando:

Quieres verificar el ancho de banda de interconexión real entre múltiples NVIDIA GPUs
Sospechas que una GPU está instalada en una ranura PCIe con ancho de banda limitado
Quieres comparar rutas NVLink frente a rutas no NVLink
Estás desplegando un clúster de GPU multinode y necesitas validar los enlaces
Quieres los resultados de las pruebas en JSON para pipelines de automatización

Pero si tu objetivo es solo responder preguntas como “¿qué tan rápido es el entrenamiento?” o “¿cuántos tokens por segundo puede alcanzar la inferencia?”, esta herramienta no es la respuesta completa. En ese caso, todavía necesitas pruebas a nivel de carga de trabajo (workload-level testing) con tu framework de entrenamiento, motor de inferencia o aplicación real.

false

9. Cómo pensar sobre su valor

Muchos problemas de rendimiento de GPU no son causados realmente por una capacidad de cómputo insuficiente. Ocurren porque la ruta de datos no está funcionando como se espera.

Por ejemplo:

Las GPUs no están utilizando la ruta de interconexión prevista
El acceso Cross-NUMA está reduciendo la velocidad
Ciertos pares de GPU tienen un ancho de banda anormal
La comunicación multinode está solo parcialmente configurada

Estos problemas a menudo son difíciles de diagnosticar si solo se observa nvidia-smi o el rendimiento del modelo. Una herramienta de nivel más bajo y orientada a matrices, como nvbandwidth, es útil precisamente porque expone lo que está sucediendo en la capa de interconexión.

Así que una forma sencilla de pensarlo es: nvbandwidth es una herramienta de verificación de salud en línea de comandos para el ancho de banda en sistemas NVIDIA GPU.

Enlaces relacionados

Proyecto GitHub: https://github.com/NVIDIA/nvbandwidth
Lanzamientos: https://github.com/NVIDIA/nvbandwidth/releases false

Nvidia on KnightLi Blog

Detrás de la subida de Cerebras tras su IPO: ¿pueden los chips wafer-scale de IA desafiar a Nvidia?

Cerebras no fabrica una GPU normal

Por qué el mercado se entusiasmó

La colaboración con OpenAI amplía la narrativa

La concentración de clientes sigue siendo un gran riesgo

El límite técnico: capacidad de memoria

¿Puede reemplazar a Nvidia?

Resumen

Referencias

EE. UU. autoriza el Nvidia H200: 10 empresas chinas obtienen aprobación, pero la entrega sigue en duda

Qué se aprobó

Por qué H200 importa

Aún no ha aterrizado realmente

Qué significa para Nvidia

Qué significa para las empresas chinas

La presión sobre los chips nacionales no desaparece

Cómo leer esta noticia

Referencias

Lo que Jensen Huang realmente quiso decir en su discurso en CMU

Primera capa: mi infancia fue dura, y ustedes también podrían pasar por tiempos duros

Segunda capa: quítense la toga y hagan el trabajo que realmente hace falta

Tercera capa: las cosas difíciles siempre son más difíciles de lo que parecen

El verdadero recordatorio de este discurso

NVIDIA lanza Nemotron 3 Nano Omni: un modelo abierto de razonamiento omnimodal para agentes

Especificaciones del modelo

No resuelve un problema de una sola modalidad

Pensado para operación de ordenador e inteligencia documental

Audio y vídeo acercan los agentes a escenarios reales

Despliegue y ecosistema

Casos de uso adecuados

Qué significa para AI Agents

Cómo elegir una GPU en abril de 2026: qué modelos evitar y cuáles vale más la pena considerar

Modelos que no priorizaría

1. RTX 5060 Ti 8GB

2. Tarjetas antiguas y caras, especialmente RTX 3080 10GB y RTX 3070 Ti cuando todavía tienen un precio elevado

3. Insignias más antiguas con un historial poco claro, como RTX 3090 y RTX 3080 Ti

4. RTX 5070 cuando el precio no es el adecuado

Modelos que tienen más sentido

1. RTX 5060 Ti 16GB

2. RTX 5070 Ti

3. Las tarjetas nuevas con un precio adecuado suelen ser una mejor primera opción que las tarjetas más antiguas de alta gama

Si solo quieres la versión corta

Línea final

Qu茅 es NVIDIA nvbandwidth: c贸mo usar esta herramienta de prueba de ancho de banda de GPU

1. ¿Qué hace nvbandwidth

2. No produce solo una puntuación simple

3. Cómo entender las copias CE y SM

4. ¿Qué entorno requiere

5. Cómo construir y ejecutar la versión de nodo único

6. El soporte multinodo es una de sus características más destacadas

7. Qué cambió en v0.9

8. ¿Cuándo es una buena opción?

9. Cómo pensar sobre su valor

Enlaces relacionados

1. `RTX 5060 Ti 8GB`

2. Tarjetas antiguas y caras, especialmente `RTX 3080 10GB` y `RTX 3070 Ti` cuando todavía tienen un precio elevado

3. Insignias más antiguas con un historial poco claro, como `RTX 3090` y `RTX 3080 Ti`

4. `RTX 5070` cuando el precio no es el adecuado

1. `RTX 5060 Ti 16GB`

2. `RTX 5070 Ti`

1. ¿Qué hace `nvbandwidth`

3. Cómo entender las copias `CE` y `SM`