MiniMax M3 lanzado: agentes de código, contexto de 1M y multimodalidad nativa

Mon, 01 Jun 2026 09:00:00 +0800

MiniMax lanzó MiniMax M3 el 1 de junio de 2026. Según la presentación oficial, M3 tiene una posición clara: está orientado a tareas de código, Agent y contexto largo, y además incorpora capacidades multimodales nativas.

Lo más interesante de este lanzamiento no es una puntuación aislada, sino que MiniMax reúne tres tipos de capacidades en un solo modelo:

capacidad para tareas de código y Agent;
ventana de contexto de hasta 1M tokens;
multimodalidad nativa, con soporte para entrada de imágenes y video;
plan de abrir los pesos para despliegue privado y fine-tuning posterior.

Si sigues la evolución de los modelos chinos en asistentes de programación, flujos de trabajo automatizados, procesamiento de documentos largos y comprensión multimodal, M3 merece una mirada aparte.

Posicionamiento central de M3

MiniMax describe M3 como un modelo frontier para código y tareas Agent, con contexto de 1M y multimodalidad nativa.

Estas palabras clave corresponden a varios problemas reales de uso:

las tareas de código no son solo completar funciones; también requieren leer proyectos, editar archivos, ejecutar herramientas y corregir errores;
las tareas Agent generan muchos registros de llamadas a herramientas, logs y resultados intermedios;
documentos largos, videos largos y codebases completos necesitan ventanas de contexto más grandes;
gráficos, capturas, fórmulas y fotogramas de video no se pueden entender solo con texto plano.

Por eso M3 parece más un modelo preparado para tareas de cadena larga que uno pensado únicamente para chat común o generación de texto corto.

El contexto de 1M viene de MSA

M3 utiliza MSA, desarrollado por MiniMax, es decir, MiniMax Sparse Attention. En la explicación oficial, MSA busca resolver el crecimiento rápido de la complejidad computacional que tiene la atención completa tradicional con contextos largos.

En pocas palabras, la atención completa se vuelve costosa muy rápido cuando el contexto crece. MSA usa atención dispersa y una forma de acceso a KV block más adecuada para hardware, lo que facilita escalar el modelo en escenarios de contexto largo.

MiniMax afirma que la API de M3 soporta hasta 1M tokens de contexto y garantiza un mínimo de 512K tokens. Esto es útil para varios tipos de tareas:

leer un proyecto completo o un módulo grande;
procesar informes de investigación largos, contratos, logs y materiales de knowledge base;
conservar el historial de llamadas a herramientas durante la ejecución multi-turn de un Agent;
analizar videos largos o materiales multimodales.

Aun así, contexto largo no significa que todas las tareas deban llenar toda la ventana. En la práctica, retrieval, chunking, caché y descomposición de tareas siguen siendo importantes. El contexto de 1M es más bien un límite superior para tareas complejas, no un reemplazo del diseño de ingeniería.

Código y Agent son el foco

En el informe oficial, M3 aparece con resultados en varios benchmarks de código y Agent:

Benchmark	Resultado oficial
SWE-Bench Pro	`59.0%`
Terminal-Bench 2.1	`66.0%`
SWE-fficiency	`34.8%`
KernelBench Hard	`28.8%`
MCP Atlas	`74.2%`

Estos números sirven como referencia, pero no conviene sacar conclusiones solo por la tabla. Lo más importante es que MiniMax pone el entrenamiento y la evaluación de M3 más cerca de escenarios reales de colaboración con Agent.

El trabajo real de programación no es “generar una función con una frase”. Normalmente incluye:

aclarar requisitos varias veces;
leer código existente;
preparar un plan de cambios;
ejecutar comandos y pruebas;
seguir corrigiendo según los errores;
mantener las razones de decisión a través de varias rondas de contexto.

Esta es también la razón por la que M3 y MiniMax Code se lanzan juntos. La capacidad del modelo es solo la base. Que pueda completar tareas de ingeniería depende también del Agent harness externo, las llamadas a herramientas, la gestión de contexto y el flujo de verificación.

Tareas de largo recorrido mostradas por MiniMax

MiniMax enumera en su informe varios casos más cercanos al trabajo real.

El primero es la reproducción de un paper. MiniMax pidió a M3 reproducir de forma independiente un ICLR 2025 Outstanding Paper. M3 corrió durante casi 12 horas, produjo 18 commits y 23 figuras experimentales, y completó la reproducción de los experimentos principales.

El punto de este caso no es que pueda escribir un resumen del paper, sino que utilizó al mismo tiempo:

capacidad multimodal para entender curvas, fórmulas y gráficos del paper;
contexto largo para poner el paper, el código y los logs experimentales dentro de una misma cadena de tarea;
capacidad de código y Agent para ejecutar, experimentar, verificar y corregir de forma continua.

El segundo caso es la optimización de CUDA kernel. MiniMax pidió a M3 empezar desde un esqueleto de Triton que no podía ejecutarse directamente y optimizar un FP8 GEMM kernel en GPU NVIDIA Hopper. En unas 24 horas, M3 completó 147 benchmark submissions y 1,959 llamadas a herramientas, elevando la utilización pico del hardware de 7.6% a 71.3%, equivalente a una aceleración de 9.4x.

Este caso muestra que M3 enfatiza la iteración autónoma de larga duración. Los modelos comunes de generación de código suelen detenerse tras varias rondas fallidas, mientras que un modelo tipo Agent necesita seguir ajustando la dirección según el feedback.

El tercer caso es dejar que M3 entrene modelos por sí mismo. En PostTrainBench, MiniMax dio a M3 cuatro base models que solo habían completado pretraining, y le pidió completar síntesis de datos, entrenamiento, evaluación e iteración dentro de 12 horas. M3 terminó con una puntuación de 0.37, por debajo de Opus 4.7 y GPT-5.5, pero claramente por delante de otros modelos.

Estos casos vienen de pruebas oficiales de MiniMax, así que no deben confundirse con evaluaciones independientes de terceros. Pero sí muestran la dirección del producto: poner el modelo dentro de bucles de tarea largos, verificables y con feedback.

Por qué importa la multimodalidad nativa

M3 no es simplemente un modelo de texto con capacidad visual añadida al final. MiniMax afirma que fue entrenado con modalidades mezcladas desde etapas tempranas y que reconstruyó el pipeline de datos para ampliar el entrenamiento al nivel de 100T+.

Para desarrolladores, la multimodalidad tiene valor sobre todo en estos escenarios:

leer capturas de pantalla, gráficos, fórmulas y diseños;
analizar PDF, papers, informes y figuras experimentales;
entender cambios visuales en videos largos;
reconocer elementos de interfaz en tareas de automatización de escritorio.

MiniMax Code también convierte esto en producto. Según MiniMax, MiniMax Code puede combinar la capacidad multimodal de M3 con computer use, por ejemplo para introducir información por lotes en varias aplicaciones a partir de una hoja de cálculo.

MiniMax Code y Agent Team

Con el lanzamiento de M3, MiniMax Code también se actualizó. MiniMax lo posiciona como un producto Agent más adecuado para M3, diseñado para aprovechar sus capacidades de contexto largo, código, Agent y multimodalidad.

El Agent Team de MiniMax Code puede dividir tareas grandes en flujos de trabajo multietapa, concurrentes y ajustables dinámicamente, y usar un bucle tipo Producer + Verifier para producir, reflexionar y corregir continuamente.

Esta dirección pertenece a la misma categoría amplia que Claude Code, Codex CLI, opencode y herramientas similares: el modelo no solo responde preguntas, sino que entra en un entorno de desarrollo local o cloud, lee archivos, edita archivos, ejecuta comandos y continúa según los resultados.

MiniMax enfatiza especialmente:

el contexto largo de 1M de M3;
multimodalidad y computer use;
ejecución autónoma de larga duración por Agent Team;
grandes cuotas de uso bajo Token Plan.

Token Plan y API

MiniMax también actualizó su Token Plan. Las tres opciones oficiales son:

Plan	Precio mensual	Cuota mensual de M3
Plus	`$20/month`	aprox. `1.7B tokens`
Max	`$50/month`	aprox. `5.1B tokens`
Ultra	`$120/month`	aprox. `9.8B tokens`

Estas cuotas parecen muy agresivas y encajan con asistentes de código de alta frecuencia, procesamiento por lotes, documentos largos y tareas multimodales. Pero si realmente convienen depende de la disponibilidad por región, límites de concurrencia, velocidad, estabilidad, precio del contexto y tasa de éxito de las tareas.

En cuanto a API, M3 ya está disponible. Hay varios puntos a destacar:

las entradas de <=512K tokens se cobran al precio estándar;
las entradas por encima de 512K tokens pasan a un precio más alto de contexto largo;
thinking se puede activar o desactivar;
thinking activado es más adecuado para razonamiento complejo, tareas Agent y colaboración de largo recorrido;
thinking desactivado responde más rápido y sirve mejor para chat y code completion;
soporta niveles de servicio standard y priority, donde priority apunta a mayor concurrencia y latencia más estable.

El nombre de modelo en el ejemplo oficial es:

`1`	`"model": "MiniMax-M3"`

El endpoint de ejemplo es:

`1`	`https://api.minimax.io/v1/text/chatcompletion_v2`

Si quieres integrar M3 en herramientas de código existentes, primero conviene confirmar tres cosas: compatibilidad OpenAI-compatible, soporte de salida streaming y formato de tool calls.

Los pesos abiertos son interesantes, pero falta ver la implementación

MiniMax afirma que M3 abrirá sus pesos en Hugging Face y GitHub, con soporte para despliegue en clusters privados y fine-tuning. Este punto es importante.

Si los pesos realmente se publican y el soporte de frameworks de inferencia avanza bien, M3 podría entrar en varios escenarios empresariales:

asistentes para codebases privadas;
análisis de knowledge base y documentos internos;
escenarios con datos altamente sensibles;
despliegues locales para gobierno y empresas;
workflows Agent por lotes de bajo coste.

Pero todavía hay que esperar información concreta:

tamaño de pesos y licencia;
opciones de cuantización;
soporte en vLLM, SGLang, llama.cpp y otros frameworks;
requisitos de VRAM;
coste real de multimodalidad y contexto largo en despliegue local;
si se abrirán herramientas completas de entrenamiento o fine-tuning.

Así que vale la pena seguirlo, pero todavía es pronto para tratar “open weights” como algo listo para producción.

Quién debería probarlo primero

M3 es más adecuado para estos usuarios:

desarrolladores que usan AI coding agent con frecuencia;
equipos que quieren sustituir parte de sus tareas de código en Claude, GPT o Gemini por un modelo chino;
personas con necesidades de análisis de documentos largos, codebases largos o logs largos;
desarrolladores que construyen workflows de automatización, MCP o agent harnesses;
usuarios que necesitan muchas cuotas de token para procesamiento por lotes;
equipos con necesidades a largo plazo de despliegue local y pesos abiertos.

Si solo necesitas chat común, reescritura de texto corto o preguntas simples, M3 quizá no sea el primer modelo que debas probar. Su foco está claramente en tareas Agent y de ingeniería más pesadas.

Mi opinión

Lo más interesante del lanzamiento de MiniMax M3 es la ruta elegida: no solo competir con modelos de chat general, sino empaquetar código, Agent, contexto largo y multimodalidad en un modelo orientado a flujos de trabajo de ingeniería.

Esa dirección tiene sentido. La competencia futura en herramientas de programación con IA no se medirá solo por si un modelo puede escribir un fragmento de código, sino por si puede planificar, ejecutar, verificar y corregir durante tareas largas, manteniendo bajo control el coste de contexto.

Pero lo que realmente decidirá si M3 entra en un flujo de trabajo principal son preguntas más prácticas:

si la API es estable;
si el precio de contexto largo es controlable;
si la toolchain de MiniMax Code es madura;
si la integración OpenAI-compatible y con herramientas agent principales es fluida;
si los pesos abiertos llegan a tiempo;
si evaluaciones de terceros y experiencia en proyectos reales respaldan las afirmaciones oficiales.

Si estos puntos evolucionan bien, M3 será uno de los modelos chinos de código Agent más interesantes para seguir.

MiniMax on KnightLi Blog