Cómo usar Ideogram 4: despliegue local en ComfyUI, archivos del modelo y casos de uso

Ideogram 4 ya tiene una versión de pesos abiertos, lo que añade otra opción local interesante al campo de la generación de imágenes con IA. Se centra en generación de imágenes de alta calidad, renderizado de texto, control de composición y creación visual comercial. El modelo tiene alrededor de 9.3B parámetros y ya cuenta con flujos de trabajo que pueden usarse en ComfyUI.

Este artículo no lo presenta simplemente como un “Midjourney gratis”. Una forma más precisa de entender Ideogram 4 es esta: lleva el enfoque tradicional de Ideogram en pósteres, tipografía, composición y alineación con prompts a un modelo de pesos abiertos que puede desplegarse en local. Para quienes quieren crear pósteres, portadas, imágenes para redes sociales, visuales de producto o imágenes con texto, es más específico que un modelo general de generación de imágenes.

Qué cambia en Ideogram 4

Lo más destacable de Ideogram 4 es la generación de texto y el control de composición. Muchos modelos de imagen con IA pueden crear imágenes atractivas, pero cuando aparecen títulos de póster, nombres de marca, menús, eslóganes o detalles de diseño, suelen cometer errores de texto, generar caracteres extraños, desplazar elementos o saturar la composición. Ideogram 4 apunta precisamente a este problema.

Los puntos principales del artículo original pueden resumirse así:

El modelo tiene alrededor de 9.3B parámetros y ofrece una versión de pesos abiertos.
Permite despliegue local, sin depender solo de servicios en la nube.
Admite ajuste fino con LoRA, útil para adaptar estilos, marcas o escenas concretas.
Ya existen flujos de trabajo para ComfyUI, así que los usuarios pueden ejecutarlo mediante nodos.
Da importancia al JSON Prompt estructurado, usando campos más claros para describir contenido, composición, posición de elementos, colores e iluminación.

JSON Prompt es una dirección muy útil. Los prompts tradicionales suelen ser un párrafo largo en lenguaje natural, y el modelo debe inferir qué parte describe el sujeto, el fondo, el texto, la cámara, la luz y la posición. La estructura por campos separa esa información y convierte el prompt en algo más parecido a una especificación de diseño, especialmente útil para escenas con muchos elementos, anuncios y pósteres.

Para qué sirve mejor

Ideogram 4 encaja mejor en tareas como:

Pósteres con títulos, eslóganes o texto de marca.
Portadas para redes sociales, imágenes promocionales de eventos y visuales de marketing.
Imágenes de producto con sujeto y composición bien definidos.
Imágenes donde hay que controlar personas, fondo, texto y elementos decorativos.
Flujos de generación de imágenes con IA que requieren ejecución local, ajuste fino o automatización.

Si solo quieres generar de forma casual un paisaje, un avatar o una ilustración sencilla, muchos modelos pueden hacerlo. La ventaja de Ideogram 4 se nota más cuando la imagen contiene texto y el resultado debe comportarse como un diseño controlado.

Qué archivos hacen falta para desplegarlo en local

La estructura de archivos para ComfyUI mencionada en el artículo original es aproximadamente esta:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10


ComfyUI/
└── models/
    ├── diffusion_models/
    │   ├── ideogram4_fp8_scaled.safetensors
    │   └── ideogram4_unconditional_fp8_scaled.safetensors
    ├── text_encoders/
    │   ├── qwen3vl_8b_fp8_scaled.safetensors
    │   └── gemma4_e4b_it_fp8_scaled.safetensors
    └── vae/
        └── flux2-vae.safetensors

Es decir, no basta con descargar un único archivo .safetensors. El sistema se compone del modelo principal, el modelo incondicional, codificadores de texto y VAE. Si los archivos se colocan en carpetas incorrectas, el flujo de ComfyUI puede no encontrar modelos, fallar al cargar o mostrar un uso anormal de VRAM.

Si ya tienes una instalación antigua de ComfyUI, conviene actualizarla primero a una versión compatible con el flujo de trabajo. Muchos modelos nuevos dependen de nodos, samplers, loaders y formatos de workflow recientes. Un cliente antiguo puede abrir el flujo, pero aun así faltar nodos o no cargar correctamente el modelo.

Flujo de uso en ComfyUI

Un proceso más seguro sería:

Actualizar o reinstalar la versión nueva de ComfyUI.
Descargar los archivos de modelo necesarios para Ideogram 4.
Colocarlos en models/diffusion_models, models/text_encoders y models/vae.
Descargar el archivo de workflow correspondiente.
Arrastrar el workflow a ComfyUI.
Revisar que cada nodo de carga de modelo apunte al archivo correcto.
Introducir el prompt o JSON Prompt y empezar a generar.

En la primera ejecución, conviene probar con baja resolución y parámetros conservadores. Cuando confirmes que el flujo funciona, puedes subir resolución, tamaño de lote o pasos de muestreo. Así evitas que el programa se cierre de inmediato por falta de VRAM.

Cómo entender JSON Prompt

Los prompts estructurados de Ideogram 4 permiten dividir la imagen en capas: descripción general, fondo, sujeto, objetos, texto, iluminación, color y composición.

Por ejemplo, un prompt orientado a póster podría escribirse así:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10


{
  "high_level_description": "A cinematic product poster for a compact AI camera on a clean studio background.",
  "composition": {
    "background": "soft grey gradient backdrop with subtle spotlight",
    "main_subject": "black compact camera centered slightly below the upper third",
    "text": "large headline at the top, short product slogan below it",
    "lighting": "soft key light from upper left, gentle rim light on the right edge",
    "color_palette": "black, silver, pale blue"
  }
}

La ventaja es que resulta reutilizable y fácil de depurar. Si el resultado no es ideal, puedes ajustar solo la zona de texto, la descripción del fondo o el campo de iluminación, en lugar de reescribir todo el prompt.

Qué tener en cuenta antes de ejecutarlo

Aunque Ideogram 4 tenga pesos abiertos, ejecutarlo en local no es algo de “cero esfuerzo”. Hay varios puntos importantes.

Primero, la VRAM. El artículo original menciona versiones FP8 scaled, lo que indica que el modelo fue comprimido o cuantizado para hardware de consumo. Aun así, el consumo real de VRAM depende de la resolución, el tamaño de lote, la configuración de nodos y el entorno del sistema. Si tienes poca VRAM, empieza generando una sola imagen a baja resolución.

Segundo, la fuente del modelo. Los archivos de modelos de imagen con IA suelen ser grandes, así que usa fuentes confiables y verifica nombres, tamaños y checksums cuando sea posible. No ejecutes nodos personalizados de ComfyUI de origen desconocido.

Tercero, la compatibilidad del workflow. ComfyUI cambia rápido, y los workflows de modelos cambian con él. Si aparece un error, revisa primero la versión de ComfyUI, nodos faltantes, rutas de modelos y nombres de archivo, antes de asumir que el modelo está dañado.

Cuarto, licencia y uso comercial. Pesos abiertos no significa uso comercial sin restricciones. Antes de usarlo en proyectos comerciales, lee la licencia oficial del modelo, los términos de uso y las limitaciones relacionadas de Ideogram.

Cómo compararlo con Midjourney y GPT-Image

Ideogram 4 sí acerca los modelos abiertos de imagen con IA a los productos comerciales cerrados, especialmente en renderizado de texto, diseño de composición y alineación con prompts. Pero decir que reemplaza por completo a Midjourney o GPT-Image sigue siendo demasiado absoluto.

Los productos cerrados suelen ganar en experiencia inicial, cómputo en la nube, optimización continua, herramientas de edición, sistema de cuentas y estabilidad de salida. Los modelos abiertos locales ganan en control, integración, ajuste fino, ejecución sin conexión y flujos personalizados para desarrolladores y usuarios avanzados.

Así que una conclusión más razonable es: si buscas una experiencia lista para usar y generación estable, los servicios comerciales siguen siendo más cómodos. Si te importa el despliegue local, la automatización, el control y la posibilidad de ajuste fino, modelos de pesos abiertos como Ideogram 4 merecen la prueba.

Mi recomendación

Si quieres probar Ideogram 4, empieza con un objetivo modesto: primero ejecuta el workflow oficial o de la comunidad, y luego prueba su rendimiento con chino, inglés, títulos de póster, imágenes de producto y composiciones complejas. No lo conectes a un flujo de producción desde el primer día.

Si trabajas sobre todo con portadas de contenido, imágenes para noticias o pósteres para redes sociales, Ideogram 4 vale la pena. Su valor real no es que haya “otro modelo de imagen”, sino que la generación local con IA empieza a tomarse más en serio el texto, la composición y el control de diseño.