NVIDIA Nemotron 3 Ultra: un modelo abierto de razonamiento para agentes de larga duración

Resumen de NVIDIA Nemotron 3 Ultra: un modelo MoE abierto de 550B parámetros y 55B activos, pensado para orquestación de agentes de larga duración, contexto largo, alto throughput, menor coste y despliegue empresarial personalizable.

NVIDIA presentó Nemotron 3 Ultra el 4 de junio de 2026. Es un modelo abierto de razonamiento para agentes de larga duración, basado en una arquitectura Mixture-of-Experts de 550B parámetros, con unos 55B parámetros activos por inferencia.

El lanzamiento no va de “otro chatbot grande”. La dirección es más concreta: hacer que los flujos de trabajo de agentes con múltiples turnos, herramientas y subagentes funcionen más rápido, con menor coste y más estabilidad.

Por qué NVIDIA enfatiza los long-running agents

Un chatbot normal responde a una pregunta con una respuesta. Un agente maneja una cadena de tareas.

Un agente de larga duración puede:

  • crear un plan;
  • llamar a búsqueda, código, bases de datos o herramientas empresariales;
  • delegar trabajo a subagentes;
  • recibir resultados de herramientas;
  • razonar sobre el siguiente paso;
  • validar salidas;
  • recuperarse de errores.

Este proceso hace que el número de tokens crezca rápidamente. Cuanto más dura la tarea, más historial, salidas de herramientas, pasos de razonamiento y resultados intermedios se acumulan. El coste de llamadas al modelo sube, y también aumenta el riesgo de desviarse del objetivo.

La idea de NVIDIA es resolverlo con un sistema de modelos: modelos más fuertes de frontier reasoning para razonamiento y orquestación clave, y modelos eficientes para ejecución frecuente, validación y llamadas a herramientas. Nemotron 3 Ultra ocupa la capa de orquestación de alta capacidad.

Posicionamiento central de Nemotron 3 Ultra

Nemotron 3 Ultra es un modelo MoE de 550B parámetros, pero cada inferencia activa unos 55B. No está pensado para chat ligero, sino para las llamadas difíciles dentro de flujos de agentes.

Los ejemplos oficiales incluyen:

  • mantener decisiones de arquitectura durante sesiones largas de código;
  • sintetizar evidencias contradictorias de cientos de fuentes de investigación;
  • verificar diseños de chips contra miles de restricciones;
  • planificar, llamar herramientas, recuperarse de errores y continuar durante muchos turnos.

En otras palabras, Ultra se parece más a un componente de “orquestador principal + razonamiento profundo” dentro de un sistema de agentes, no a un modelo barato para cada pequeña llamada de herramienta.

Rendimiento y eficiencia

NVIDIA ofrece varias métricas en el blog oficial. Nemotron 3 Ultra es competitivo en pruebas relacionadas con agentes y contexto largo:

  • PinchBench: 91%
  • EnterpriseOps-Gym: 33%
  • Terminal-Bench 2.0: 54%
  • IFBench: 82%
  • Ruler @1M: 95%

NVIDIA también afirma que puede entregar hasta 5x más throughput que modelos abiertos de su clase. Para agentes de larga duración, esto importa más que un benchmark de un solo turno, porque las tareas suelen requerir llamadas continuas durante muchos turnos.

Otro punto clave es el coste. NVIDIA dice que, en experimentos de SWE-bench y Terminal-Bench 2.0, Nemotron 3 Ultra usó menos tokens totales y menos tokens por turno para completar tareas, reduciendo el coste de tareas agentic hasta 30%.

Para desarrolladores, esto significa que Nemotron 3 Ultra no solo busca responder bien. También optimiza cuántos tokens, cuánto tiempo y cuánto dinero hacen falta para terminar toda la tarea.

Hybrid Mamba-Transformer para eficiencia en contexto largo

Los agentes de contexto largo tienen dos necesidades en tensión.

Por un lado, necesitan procesar secuencias muy largas de forma eficiente, porque las salidas de herramientas y trazas de acciones crecen constantemente. Por otro, necesitan recordar hechos concretos dentro del contexto, como un resultado de herramienta, una ruta de archivo o una restricción.

Nemotron 3 Ultra usa una arquitectura Hybrid Mamba-Transformer para equilibrar ambos puntos:

  • las Mamba layers mejoran la eficiencia en secuencias largas;
  • las Transformer layers conservan la recuperación precisa de hechos del contexto.

Este diseño encaja bien con agentes. Un agente no solo lee documentos largos; también escribe continuamente su propia traza de acciones en el contexto. Si la eficiencia de contexto largo es pobre, la tarea se vuelve más lenta con el tiempo. Si la recuperación precisa es débil, el agente puede olvidar restricciones críticas al final.

NVFP4: un checkpoint para varias generaciones de GPU NVIDIA

NVIDIA también destaca la precisión NVFP4.

Según NVIDIA, el mismo checkpoint NVFP4 puede ejecutarse en GPUs NVIDIA Hopper, Blackwell y Ampere. Con kernels especializados de cuantización NVFP4, los desarrolladores pueden usar un solo checkpoint en varias arquitecturas NVIDIA.

En Blackwell, NVIDIA afirma que NVFP4 puede ofrecer hasta 5x más throughput por GPU que BF16 con la misma interactividad.

Esto es práctico para despliegues empresariales. Muchas empresas no tienen una sola generación de GPU; pueden mezclar Ampere, Hopper y Blackwell. Mantener versiones distintas del modelo para cada generación aumenta costes de despliegue y validación.

LatentMoE y MTP

Nemotron 3 Ultra también usa LatentMoE y Multi-token prediction.

LatentMoE permite un enrutamiento de expertos más eficiente. En modelos MoE, una de las preguntas clave es qué expertos deben procesar cada solicitud. Los flujos de agentes pueden mezclar razonamiento, generación de código, llamadas a herramientas y lógica de dominio, así que la eficiencia de routing afecta directamente al throughput y a la capacidad.

Multi-token prediction, o MTP, mejora la velocidad de generación. En vez de predecir solo el siguiente token, intenta predecir varios tokens futuros en un único forward pass, reduciendo la espera en salidas largas y tareas de muchos turnos.

Juntas, estas técnicas muestran que NVIDIA no optimiza solo la capacidad aislada del modelo, sino throughput, latencia y coste durante ejecuciones largas de agentes.

MOPD: Multi-Teacher On-Policy Distillation

Un método de entrenamiento importante en esta versión es Multi-Teacher On-Policy Distillation, o MOPD.

En términos simples, Ultra no aprende de un solo modelo profesor. Aprende de más de diez modelos profesor especializados por dominio. Cada profesor tiene su propia canalización de entrenamiento y puntúa a Ultra dentro de su área de experiencia.

MOPD tiene varias características:

  • el modelo estudiante genera sus propios intentos;
  • los profesores de distintos dominios entregan señales densas de reward;
  • generación de rollouts, puntuación por profesores y optimización del estudiante se ejecutan en pipeline asíncrono;
  • el proceso es iterativo, y nuevos checkpoints del estudiante pueden iniciar rondas posteriores de entrenamiento de profesores.

El objetivo es mejorar en varios dominios, no solo en conversación general. Para agentes empresariales, esto importa porque las tareas reales suelen mezclar legal, código, conocimiento, procesos internos y reglas de seguridad.

Datos de entrenamiento y recetas abiertas

NVIDIA vuelve a enfatizar datos abiertos y recetas de entrenamiento.

Sobre una base de preentrenamiento de 10T tokens, Nemotron 3 Ultra añade 212B tokens nuevos para cubrir tres brechas de alto valor:

  • 4B tokens legales sintéticos;
  • 35B tokens sintetizados basados en Wiki;
  • 173B tokens actualizados de GitHub hasta el 30 de septiembre de 2025.

En post-entrenamiento, esta versión también libera:

  • 10M nuevas muestras SFT;
  • 1M nuevas tareas RL;
  • 15 nuevos entornos RL.

En total, los datos abiertos de Nemotron alcanzan 50M muestras SFT, 2M tareas RL y 55 entornos RL.

Esto importa especialmente para empresas y proyectos de sovereign AI. La capacidad es solo una dimensión. La transparencia, procedencia y trazabilidad de los datos de entrenamiento también afectan si un modelo puede entrar en producción.

Cómo pueden usarlo los desarrolladores

Nemotron 3 Ultra es un modelo abierto. NVIDIA afirma que pesos, datos y recetas estarán abiertos para que los desarrolladores lo adapten a flujos de dominio.

Las vías oficiales incluyen:

  • descargar pesos desde Hugging Face;
  • desplegar con NVIDIA NIM microservice;
  • probarlo en build.nvidia.com;
  • usarlo mediante OpenRouter, Anaconda, Perplexity Pro y otros puntos de entrada;
  • ejecutar inferencia con SGLang, TRT-LLM, vLLM y herramientas similares;
  • hacer fine-tuning con LoRA, SFT y reinforcement learning usando librerías NeMo.

Si estás construyendo agentes empresariales, Nemotron 3 Ultra encaja mejor en:

  • planificación de tareas complejas;
  • orquestación de múltiples herramientas;
  • síntesis de evidencia en contexto largo;
  • decisiones clave en agentes de código;
  • modelo controlador en sistemas multiagente;
  • capa de razonamiento difícil para agentes de dominio.

No hace falta llamarlo para cada solicitud pequeña. Una arquitectura más realista es usar Ultra para razonamiento clave y modelos más pequeños y baratos para pasos frecuentes y simples.

Ejecución segura de agentes: NemoClaw y OpenShell

NVIDIA también enfatiza el runtime seguro para agentes.

La pila oficial incluye:

  • Hermes Agent y OpenClaw: agent harnesses para flujos multi-turno, con bucles de orquestación, memoria y herramientas;
  • NVIDIA OpenShell: entorno seguro donde agentes autónomos y código generado se ejecutan bajo control;
  • NVIDIA NemoClaw: blueprint open-source que instala OpenShell runtime con un solo comando y conecta agent harness, runtime y modelos abiertos.

Esto es crítico. Cuanto más fuerte es un agente, menos debería ejecutarse sin controles directamente en máquinas de producción. Si el modelo puede escribir código, llamar herramientas u operar archivos, necesita sandboxing, límites de permisos, logs y confirmación humana.

Nemotron 3.5 Content Safety y ASR

Además de Nemotron 3 Ultra, NVIDIA lanzó dos modelos relacionados.

El primero es Nemotron 3.5 Content Safety, un modelo abierto de guardrail de 4B para identificar contenido inseguro, no permitido o contrario a políticas en texto, imágenes y entradas mixtas. Cubre 23 categorías de seguridad y 12 idiomas, y puede usarse como guardrail en inferencia, juez para evaluación de seguridad de LLM, o con datos de entrenamiento para post-entrenamiento seguro.

El segundo es Nemotron 3.5 ASR, un modelo de reconocimiento automático de voz para agentes voice-native. Usa una arquitectura cache-aware streaming para procesar deltas de audio con baja latencia. NVIDIA afirma que soporta 40+ idiomas y continúa el diseño de voz en tiempo real de Nemotron 3 ASR.

Esto muestra que NVIDIA no lanza solo un modelo de razonamiento. Está completando una pila de agentes: razonamiento, entrada de voz, guardrails, sandbox de runtime y herramientas de despliegue en un mismo ecosistema.

Licencia abierta y ecosistema de despliegue

Los lanzamientos de Nemotron se mueven a OpenMDW-1.1, una licencia permisiva de Linux Foundation diseñada para distribuciones abiertas de modelos AI. NVIDIA dice que cubre arquitectura, parámetros, documentación, software y materiales relacionados, reduciendo ambigüedad de licencia durante evaluación y adopción.

Para empresas, la claridad de licencia importa. Muchos modelos no fallan por capacidad, sino por términos poco claros sobre pesos, datos, recetas, uso comercial y redistribución, lo que frena revisiones legales y de compliance.

NVIDIA también lista un gran ecosistema de socios de software de inferencia, servicios cloud, personalización de modelos y proveedores de inferencia. El objetivo es claro: que Nemotron 3 Ultra no sea solo un modelo de investigación, sino algo que pueda entrar en pipelines reales de producción agentic.

Mantener expectativas realistas

Nemotron 3 Ultra es potente, pero no es un modelo para ejecutar casualmente en un PC personal.

550B MoE y 55B parámetros activos significan que encaja mejor en clusters GPU empresariales, servicios cloud, NIM o plataformas profesionales de inferencia. Para desarrolladores normales, las entradas realistas son APIs, servicios gestionados, build.nvidia.com o rutas de despliegue dentro del ecosistema Hugging Face.

Los benchmarks oficiales son útiles, pero no equivalen automáticamente a tus resultados de negocio. Que un sistema de agentes funcione bien también depende de:

  • diseño del agent harness;
  • permisos y fiabilidad de herramientas;
  • estrategia de recorte de contexto largo;
  • descomposición de tareas;
  • recuperación de errores;
  • sandboxing y auditoría de seguridad.

Un modelo fuerte es solo una capa del sistema de agentes. La calidad en producción suele depender de la combinación de modelo, herramientas, gestión de contexto, runtime y evaluación.

Resumen

Nemotron 3 Ultra empuja los modelos abiertos de razonamiento hacia necesidades reales de agentes de larga duración: contexto más largo, mayor throughput, menor coste hasta completar tareas, datos de entrenamiento más claros y rutas de despliegue personalizables.

No es un lanzamiento de chatbot común. Es un movimiento de NVIDIA para empaquetar infraestructura agentic: Ultra se encarga del razonamiento difícil y la orquestación, Content Safety de los guardrails, ASR de la entrada de voz, OpenShell y NemoClaw del runtime, y NIM junto con plataformas de inferencia del despliegue.

Si trabajas en agentes empresariales, agentes de código, automatización de investigación, orquestación multi-herramienta o proyectos de sovereign AI, Nemotron 3 Ultra merece atención. Su competencia real no es la experiencia de una sola respuesta, sino si una tarea larga puede completarse más rápido, con más estabilidad y a menor coste.

Fuentes

记录并分享
Creado con Hugo
Tema Stack diseñado por Jimmy