GLM 5.2 se abre: contexto de un millón de tokens, Agent coding y el coste del despliegue local

Thu, 18 Jun 2026 22:56:15 +0800

Zhipu AI ha abierto oficialmente su nuevo modelo insignia, GLM 5.2.

Al principio, la noticia no parecía especialmente rara. Ahora aparecen modelos nuevos casi todos los días, y el lenguaje de marketing es cada vez más exagerado. Pero los resultados de GLM 5.2 sí merecen una mirada aparte: se convirtió en el primer modelo de pesos abiertos en superar el 80% en Terminal-Bench, y entró en el primer grupo en la prueba de Agent coding de LiveBench.

Esto indica que la distancia entre los modelos abiertos y los modelos cerrados en tareas de Agent y programación se está reduciendo. En el pasado, mucha gente asumía que los mejores Agents venían de OpenAI, los mejores modelos de código de Anthropic, y que los modelos abiertos solo iban detrás. GLM 5.2 hace que esa idea sea menos absoluta.

Contexto de un millón de tokens

La mejora más llamativa de GLM 5.2 es su ventana de contexto de 1 millón de tokens.

Más importante aún, el mensaje oficial destaca que se trata de un entorno estable de 1 millón de tokens. Muchos modelos afirman admitir contexto largo, pero cuando realmente se les entregan cientos de miles de palabras, documentos complejos o una base de código grande, el contenido inicial puede empezar a olvidarse o las respuestas pueden desviarse.

GLM 5.2 se centra en tareas de largo ciclo. Es adecuado para procesar:

una novela completa o material extenso;
bases de código de proyectos grandes;
varias bibliotecas de documentos y bases de conocimiento;
tareas de Agent que necesitan trabajar de forma continua durante mucho tiempo.

Esto es importante para los asistentes de IA del futuro. Un Agent realmente valioso no solo responde una pregunta. Debe poder ejecutar, depurar, corregir y resumir alrededor de un objetivo durante horas o incluso días.

La capacidad Agent es el foco

La competencia entre grandes modelos ya no trata solo de quién conversa mejor, sino de quién trabaja mejor.

En las pruebas, GLM 5.2 se usó para generar varios ejemplos frontend y 3D, incluidos un minijuego estilo Minecraft, una escena 3D basada en Along the River During the Qingming Festival, un simulador de vuelo de aeropuerto, un FPS en el metro, una ciudad en vista cenital estilo GTA y un sitio web de arquería.

En general, rinde bien al convertir lenguaje natural en proyectos ejecutables. Las páginas y juegos generados no son perfectos, pero la mayoría de los ejemplos se pueden ejecutar, tienen interacción, incluyen lógica básica y pueden seguir corrigiéndose a partir de errores.

Resultados de generación de código

La primera prueba consistió en generar un minijuego muy parecido a Minecraft.

Después de generarlo, el juego funcionaba con normalidad: el personaje podía saltar, eliminar bloques y cambiar entre distintos bloques con las teclas numéricas. No es un juego completo, pero como Demo generado en una sola pasada, las interacciones básicas ya están presentes.

La segunda prueba usó Three.js para crear una escena 3D inspirada en Along the River During the Qingming Festival. GLM 5.2 generó el río Bian, el Rainbow Bridge, edificios a ambos lados, sauces, barcos, peatones, una torre de puerta urbana, puestos y otros elementos, además de interacciones como escena anterior, escena siguiente y recorrido libre.

Este Demo también mostró algunos problemas. Por ejemplo, la posición de los barcos era poco razonable, los personajes podían caminar dentro del río o atravesar paredes, y algunas relaciones entre objetos no eran precisas. Aun así, logró montar la estructura de la escena, los elementos dinámicos y la lógica de interacción, lo que muestra que el modelo ya tiene una capacidad considerable en tareas frontend complejas.

Comparado con resultados similares de DeepSeek y Gemini, GLM 5.2 destacó más en efectos dinámicos y completitud de escena. Gemini también manejó razonablemente bien la escena general, el cambio día-noche y la niebla, pero su estilo de UI y la atmósfera de mercado urbano todavía quedaban algo lejos. El resultado de DeepSeek fue más estático, con personajes dinámicos más débiles y menor presencia del río Bian, un elemento central de la escena.

Vuelo, FPS y conducción urbana

En la prueba de simulador de vuelo de aeropuerto, GLM 5.2 generó un Demo de vuelo con pista, visualización de cabina, control de aceleración, cambio de cámara y función de reinicio. Con el teclado se podía acelerar, despegar, girar y rotar, así que las funciones básicas eran utilizables.

El FPS del metro estaba ambientado en un túnel abandonado en 2049. Generó entrada al túnel, disparos, efectos de sonido y minimapa, pero los enemigos y el avance de niveles no estaban completos. La experiencia se parecía más a un prototipo de laberinto.

La ciudad en vista cenital estilo GTA generó vehículos, coches de policía, colisiones y controles de conducción en una sola pasada. Se podía ejecutar, pero el control era tosco y el vehículo parecía perder el control por la ciudad. Como prototipo es aceptable, pero todavía está lejos de ser un juego realmente jugable.

Estas pruebas muestran una cosa en común: GLM 5.2 ya puede descomponer requisitos complejos en proyectos frontend ejecutables, pero los resultados generados por el modelo todavía necesitan revisión, ajuste y reparación humana.

Capacidad de diseño web

Además de juegos y escenas 3D, GLM 5.2 también se usó para generar un sitio web de arquería.

Este ejemplo resultó incluso más pulido. El modelo generó automáticamente textos como “apunta a tu verdadero centro, ninguna flecha falla”, y la página incluía reserva de cursos, presentación del entrenamiento, precios de paquetes, opciones de inscripción y pago, y datos de contacto. El estilo visual se acercaba a lo que suelen generar los asistentes de programación con IA actuales, y la organización entre texto e imagen era bastante completa.

Para este tipo de tareas, GLM 5.2 ya es bastante práctico en Landing Pages, páginas de campaña y sitios de producto. Si los requisitos están claros, puede producir rápidamente una primera versión lista para seguir editando.

El despliegue local no es sencillo

Aunque GLM 5.2 es un modelo de pesos abiertos, el despliegue local tiene una barrera alta.

Las opciones actuales de despliegue incluyen SGLang, vLLM y Transformers. Para desplegar Agents en clúster, SGLang encaja mejor cuando importan el rendimiento y el throughput. Para inferencia normal, también se pueden considerar vLLM y Transformers, con posible adaptación futura a cadenas de herramientas como LM Studio y Ollama.

El verdadero problema está en el hardware.

El modelo completo se acerca a 1TB. Incluso las versiones cuantizadas suelen estar en el rango de cientos de GB:

la precisión FP8 ronda los 740GB y normalmente requiere 8 GPU H200 o un servidor multi-GPU comparable;
la cuantización Q4_K_M ronda entre 470GB y 500GB, y de forma realista necesita varias GPU con 80GB de VRAM;
la cuantización Q2 todavía requiere aproximadamente entre 240GB y 280GB de VRAM o memoria unificada como mínimo;
incluso versiones cuantizadas más bajas pueden seguir necesitando alrededor de 180GB de recursos de VRAM.

Esto significa que el hardware de consumo común básicamente no sirve para un despliegue local completo. Incluso con una RTX 4090 haría falta una configuración muy agresiva de memoria, VRAM e inferencia, y la experiencia difícilmente competiría con una API en la nube.

Para empresas, suele ser mejor usar la API

Si una empresa quiere desplegar la versión completa de GLM 5.2, la inversión total podría llegar al nivel de millones de yuanes.

Salvo que el negocio dé una importancia especial a la privacidad local, el aislamiento de seguridad y que los datos no salgan del entorno propio, comprar API Keys suele ser más rentable. Los modelos iteran muy rápido ahora. Una empresa puede invertir mucho en despliegue privado hoy y ver aparecer un modelo más fuerte unas semanas después. Para la mayoría de los equipos, es más prudente validar primero el valor de negocio con APIs y luego decidir si hace falta un despliegue privado.

Resumen

El punto de GLM 5.2 no es solo el tamaño de parámetros, sino el contexto largo, el Agent coding y la ejecución de tareas complejas.

Su rendimiento en Terminal-Bench y LiveBench Agent coding sugiere que los modelos de pesos abiertos están entrando en una etapa más fuerte de utilidad de ingeniería. Al generar juegos, escenas 3D y sitios web, ya puede completar muchos prototipos ejecutables, pero la precisión de detalles, la sensación de interacción y la lógica compleja todavía requieren intervención humana.

Si solo quieres probar o desarrollar aplicaciones, es más realista priorizar plataformas online o APIs. Si tienes requisitos empresariales de privacidad, seguridad o intranet, entonces considera despliegues locales con SGLang, vLLM y frameworks similares.

GLM on KnightLi Blog