AI Video on KnightLi Blog

Cómo usar gratis Gemini 3.5 Flash y Gemini Omni: entradas para usuarios y desarrolladores

Wed, 20 May 2026 23:13:35 +0800

Después de que Google lanzara Gemini 3.5 Flash y Gemini Omni, la pregunta práctica no es el benchmark, sino cómo pueden usarlos realmente los usuarios normales y los desarrolladores, qué entradas son gratuitas y cuáles son solo pruebas de bajo umbral.

Resumen rápido:

Para chat, escritura, comprensión de imágenes y preguntas cotidianas: primero Gemini app.
Para probar parámetros, prompts y entradas multimodales de Gemini 3.5 Flash: Google AI Studio.
Para llamar a Gemini 3.5 Flash desde código: crear una API key en AI Studio.
Para probarlo gratis desde la terminal: mirar Gemini CLI.
Para probar la edición de video de Gemini Omni: empezar por Gemini app y Google Flow.
Para producción real: no depender de cuotas gratuitas; pasar a una API de pago o Vertex AI.

Nota: las cuotas gratuitas, disponibilidad regional, niveles de suscripción y menús de modelos cambian con el tiempo. Este artículo fue escrito el 20 de mayo de 2026. Antes de usarlo formalmente, conviene revisar las páginas actuales de Google.

Método gratuito 1 para Gemini 3.5 Flash: Gemini app

La entrada más sencilla es Gemini app:

https://gemini.google.com/

El uso es directo:

Abrir Gemini.
Iniciar sesión con una cuenta de Google.
Buscar 3.5 Flash en el selector de modelos.
Empezar a conversar.

Esta entrada es adecuada para usuarios normales. Puedes usarla para escribir, resumir, entender imágenes, analizar archivos, responder preguntas cotidianas y hacer planificación simple. Según información pública, Gemini 3.5 Flash ya está disponible para usuarios globales y puede seleccionarse desde el menú de modelos de Gemini.

Los límites también son claros: los usuarios gratuitos suelen tener límites diarios de mensajes, región y funciones. Si superas el límite, tendrás que esperar a que se renueve la cuota o actualizar la suscripción.

Método gratuito 2 para Gemini 3.5 Flash: Google AI Studio

Si no solo quieres conversar, sino ajustar prompts, revisar parámetros o probar salida estructurada, Google AI Studio encaja mejor:

https://aistudio.google.com/

Flujo básico:

Iniciar sesión en Google AI Studio.
Crear un nuevo prompt.
Seleccionar gemini-3.5-flash en el menú de modelos.
Escribir el prompt y ejecutarlo.

La ventaja de AI Studio es el mayor control. Puedes ajustar temperatura, instrucciones del sistema, salida estructurada y entrada con múltiples imágenes, y también exportar el prompt probado como código o llamada API.

Para desarrolladores, AI Studio es un banco de pruebas gratuito. Ajustar primero el prompt y el formato de entrada aquí ayuda a desperdiciar menos cuota cuando pases a la integración por API.

Método gratuito 3 para Gemini 3.5 Flash: API key gratuita

Lo que más interesa a los desarrolladores es la API. AI Studio permite crear una Gemini API key para llamar a gemini-3.5-flash.

Flujo básico:

Abrir Google AI Studio.
Buscar Get API key.
Elegir o crear un proyecto.
Crear una API key.
Guardar la key en una variable de entorno local.

Ejemplo en Python:

import os
from google import genai

client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="Explica en tres frases para qué escenarios es adecuado Gemini 3.5 Flash."
)

print(response.text)

Ejemplo en Node.js:

import { GoogleGenAI } from "@google/genai";

const ai = new GoogleGenAI({ apiKey: process.env.GEMINI_API_KEY });

const response = await ai.models.generateContent({
  model: "gemini-3.5-flash",
  contents: "Explica en tres frases para qué escenarios es adecuado Gemini 3.5 Flash."
});

console.log(response.text);

Ejemplo con curl:

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"contents":[{"parts":[{"text":"Hello Gemini 3.5 Flash"}]}]}'

La información pública indica que el nivel gratuito de AI Studio suele ofrecer a los modelos Gemini Flash cierta cuota diaria de solicitudes. La cifra puede cambiar según tiempo, región y estado de la cuenta. Se mencionan con frecuencia cifras como unas 1.500 solicitudes al día, límites por minuto y límites de token. No conviene fijar esos números en un plan de producción; antes de lanzar algo, revisa las páginas actuales de precios y límites de Google AI.

Método gratuito 4 para Gemini 3.5 Flash: Gemini CLI

Si te gusta la línea de comandos, puedes mirar Gemini CLI. Sirve para scripts temporales, resúmenes de repositorios, lectura de archivos y preguntas rápidas desde la terminal.

La instalación suele ser:

`1`	`npm install -g @google/gemini-cli`

Después ejecuta:

gemini

La CLI encaja mejor con el uso diario de desarrolladores individuales, no con integraciones de producción. En producción conviene usar API keys, cuentas de servicio, control de permisos y formas de llamada auditables.

Acceso gratuito o de baja fricción a Gemini Omni: Gemini app y Google Flow

Gemini Omni es un modelo multimodal para creación y edición de video. Su capacidad central no es la pregunta-respuesta de texto común, sino la edición de video en múltiples turnos mediante lenguaje natural, con referencias de imagen, texto, video y audio.

La página de Google DeepMind menciona estas entradas:

Gemini app.
Google Flow.
YouTube Shorts.

La página también indica que se requiere una suscripción a Google AI y que las funciones varían según el nivel de suscripción y la región. Por eso, el “uso gratuito” de Gemini Omni debe entenderse con cuidado: algunas entradas podrían permitir a usuarios gratuitos ver o probar parte de la experiencia, pero la edición completa de video puede requerir suscripción, disponibilidad regional o despliegue gradual.

Si solo quieres probarlo, sigue este orden:

Abre primero Gemini app y revisa si aparece Gemini Omni o una entrada relacionada con edición de video.
Luego abre Google Flow: https://flow.google/
Si creas videos cortos, observa si aparecen funciones de edición relacionadas con Omni en YouTube Shorts.

Si la entrada no aparece, normalmente no significa que hayas hecho algo mal. Puede depender de la cuenta, región, nivel de suscripción o grupo de despliegue.

Cómo conviene usar Gemini Omni

Gemini Omni es más adecuado para creadores que para chat común.

Puedes probar estas direcciones:

Subir o elegir un video y pedirle que cambie el estilo.
Hacer que una acción concreta del video sea más exagerada.
Usar una imagen de referencia para reemplazar un objeto o personaje de la escena.
Modificar cámara, acción, entorno y estilo en múltiples turnos.
Combinar bocetos, imágenes de referencia, audio o video en una nueva salida.

El prompt puede escribirse como una instrucción para un editor:

Mantén sin cambios la persona y la estructura de la habitación del video original. Cambia el efecto después de tocar el espejo por ondas líquidas. El movimiento debe ser natural y la luz no debe cambiar de forma brusca.

En edición de múltiples turnos, no metas demasiadas solicitudes de una sola vez. Un enfoque más estable es:

Cambiar primero la acción principal.
Cambiar después el estilo.
Ajustar luego el ángulo de cámara.
Ajustar al final sonido, texto y ritmo.

Así es más fácil mantener la coherencia y ubicar en qué paso aparece un problema.

Errores comunes al usar opciones gratuitas

Primero, la cuota gratuita no es cuota de producción. Una API key gratuita sirve para pruebas, herramientas personales y prototipos, no para prometer un servicio estable.

Segundo, no envíes datos sensibles a entradas gratuitas o de terceros. Esto incluye código no publicado, datos de clientes, contratos, claves, hojas financieras y documentos internos.

Tercero, revisa la configuración de uso de datos. Los niveles gratuitos pueden tener políticas distintas de uso de datos; antes de usar, revisa la configuración en AI Studio o en tu cuenta de Google.

Cuarto, las capacidades de video suelen estar más limitadas que las de texto. Funciones como Gemini Omni pueden depender de suscripción, región, cola, duración, resolución y políticas de seguridad de contenido.

Quinto, cuidado con las “API ilimitadas gratis” de terceros. Muchas pasarelas limitan velocidad, reenvían solicitudes, registran logs o exigen métodos de pago poco transparentes. No es recomendable usarlas para tareas sensibles.

Qué entrada elegir

Si eres usuario normal:

Gemini 3.5 Flash: usa Gemini app.
Gemini Omni: mira primero Gemini app y luego Google Flow.

Si eres creador:

Usa Google Flow para probar flujos de video con Omni.
Usa Gemini app para guiones, storyboards, prompts y descripciones de materiales.

Si eres desarrollador:

Usa AI Studio para depurar prompts.
Usa una API key para integrar gemini-3.5-flash.
Usa Gemini CLI para flujos personales en terminal.
Para producción, considera Vertex AI o la API de pago.

Si eres empresa:

No dependas de cuotas gratuitas.
Prioriza permisos, logs, auditoría, residencia de datos, cumplimiento y gestión de claves.
En generación y edición de video, añade marcas de agua, revisión de contenido y procesos de derechos de autor.

Resumen

Las rutas gratuitas para Gemini 3.5 Flash son relativamente claras: Gemini app, Google AI Studio, API key de AI Studio y Gemini CLI pueden servir como entradas de bajo umbral. Es adecuado para chat, escritura, programación, prototipos de Agent y pruebas multimodales.

Gemini Omni se centra en edición de video y creación multimodal. Sus entradas principales están en Gemini app, Google Flow y YouTube Shorts, pero las capacidades completas probablemente dependan más de suscripción y región. Es adecuado para que los creadores empiecen con pruebas y validación de conceptos, no para planificar desde el principio un servicio de producción estable.

La estrategia más prudente es: probar primero tareas de texto y código con el nivel gratuito de Gemini 3.5 Flash; validar efectos de creación de video con Gemini Omni en Gemini app o Flow; y, cuando haya que lanzar algo real, pasar a una solución formal con auditoría, facturación y permisos controlados.

Referencias:

Qué es Gemini Omni: análisis completo del modelo de Google para edición de video con IA en múltiples turnos

Wed, 20 May 2026 23:11:58 +0800

Google DeepMind publicó la página de Gemini Omni. Su posición es directa: crear contenido a partir de cualquier entrada, con el foco inicial puesto en el video.

Si Nano Banana está más orientado a la generación y edición de imágenes, Gemini Omni se parece más a un modelo de edición multimodal para video. Los usuarios pueden modificar un video paso a paso con lenguaje natural, haciendo que cada cambio posterior se base en el anterior, mientras intenta mantener la coherencia de escenas, personas, acciones y lógica visual.

Página del proyecto: https://deepmind.google/models/gemini-omni/

El problema central que intenta resolver

La edición de video tradicional suele requerir líneas de tiempo, capas, máscaras, fotogramas clave, corrección de color, pistas de audio y mucho trabajo manual. Las herramientas de generación de video con IA ya pueden crear clips desde prompts, pero suelen tener dos problemas:

Después de una generación inicial, no es fácil hacer ajustes precisos.
En ediciones de múltiples turnos, los personajes, escenas, estilos y movimientos pueden desviarse.

Gemini Omni apunta al segundo paso: no solo generar un video, sino permitir que el usuario siga pidiendo cambios como si hablara con un editor.

La página lo describe como una forma de editar cualquier video mediante una conversación natural y por pasos. Cada edición se basa en el resultado anterior, con el objetivo de mantener una escena coherente y unificada.

Capacidades principales

Las capacidades de Gemini Omni se pueden agrupar en varias áreas.

La primera es la edición de video con lenguaje natural. El usuario puede pedir directamente al modelo que cambie el estilo visual, el movimiento o los efectos de un video. Por ejemplo, puede hacer que un espejo ondule como líquido, convertir a una persona en dibujo lineal, muñeco de fieltro o estructura holográfica transparente, o transformar todo el entorno en 3D voxel art.

La segunda es la reconstrucción de acciones. Puede cambiar lo que ocurre en un video, como agrandar el agujero formado por una mano, hacer que un juguete emita el sonido del animal correspondiente o lograr que las luces de un edificio reaccionen a la música.

La tercera es la edición de video real basada en imágenes de referencia. El usuario puede proporcionar una imagen de referencia y pedir al modelo que coloque un edificio, un sol, una aeronave u otro objeto dentro de una escena de video real.

La cuarta es mantener la coherencia en ediciones de múltiples turnos. La página muestra un flujo continuo: mover a una violinista a un entorno de referencia, hacer desaparecer el violín y después cambiar la cámara a un ángulo sobre el hombro. Esto se acerca más a un proceso creativo real que a un prompt de una sola vez.

La quinta es la referencia con múltiples entradas. Gemini Omni puede integrar imagen, texto, video y audio en una sola salida, con soporte para transferencia de estilo, transferencia de movimiento, reemplazo de personajes y conversión de bocetos a video.

Por qué enfatiza el conocimiento del mundo

Google subraya varias veces que Gemini Omni no solo busca que las imágenes se vean reales. También combina el conocimiento del mundo de Gemini, intuición física, historia, ciencia y lógica narrativa.

Esto es importante. Si un modelo de video solo optimiza la calidad visual, puede producir movimientos ilógicos, relaciones confusas entre objetos o falta de sincronía entre texto e imagen. El objetivo de Gemini Omni es que el video no solo parezca correcto, sino que también sea más coherente en historia, física y significado.

Algunos ejemplos de la página son:

Una canica rodando por una pista de reacción en cadena.
Una explicación de plegamiento de proteínas con claymation.
Una explicación estilo stop motion de cómo funciona el hipocampo.
Letras que aparecen asociadas a objetos dentro de la escena.
Palabras en pantalla que aparecen una por una siguiendo el ritmo.

Estos ejemplos muestran que no es solo una herramienta de efectos para videos cortos. Intenta unir expresión de conocimiento, narrativa y generación audiovisual.

Relación con Veo, Flow y Nano Banana

Dentro de la línea actual de productos de Google, Gemini Omni parece una capa de creación y edición multimodal.

Veo está más centrado en el modelo de generación de video en sí, con énfasis en video cinematográfico y generación de audio. Google Flow es un estudio creativo con IA para creadores, útil para organizar tomas, materiales y proyectos de video. Nano Banana se orienta más a creación de imágenes y edición detallada. Gemini Omni, en cambio, enfatiza la edición multimodal desde cualquier entrada hacia una salida coherente, especialmente el control de video en múltiples turnos mediante lenguaje natural.

Una forma simple de verlo:

Para generar video de alta calidad: mirar Veo.
Para organizar proyectos de video dentro de un flujo creativo: mirar Google Flow.
Para editar imágenes: mirar Nano Banana.
Para modificar video de forma conversacional usando imágenes, texto, video y audio como referencia: mirar Gemini Omni.

Formas de acceso

La página menciona estos puntos de acceso:

Gemini app.
Google Flow.
YouTube Shorts.

Sin embargo, también indica que se requiere una suscripción a Google AI, y que las funciones varían según el nivel de suscripción y la región. Es decir, no todos los usuarios de todas las regiones podrán usar de inmediato todas las capacidades.

Para creadores, la entrada más interesante probablemente sea Google Flow, porque está más cerca de un espacio creativo completo. Para usuarios generales, Gemini app y YouTube Shorts pueden ser formas más sencillas de probarlo.

Seguridad y etiquetado de contenido

La página de Gemini Omni dedica una sección al proceso de seguridad. El desarrollo de Gemini Omni Flash se realizó en colaboración con equipos internos de seguridad y responsabilidad, e incluyó evaluaciones automatizadas, evaluaciones humanas, red teaming humano, red teaming automatizado y revisión ética y de seguridad antes del lanzamiento.

En transparencia de contenido, la página señala que el contenido creado o editado con Omni en Gemini app, Google Flow o YouTube incluirá marcas de agua digitales imperceptibles SynthID y C2PA Content Credentials. Los usuarios podrán verificar contenido desde Gemini app, con expansión posterior a Chrome y Search.

Esto es especialmente relevante para modelos de video. Cuanto más realistas sean la generación y edición de video, más importantes serán el etiquetado de origen, la prevención de abuso y las herramientas de verificación.

Para quién sirve

Gemini Omni encaja con varios tipos de usuarios:

Creadores de contenido que quieren modificar video rápidamente con lenguaje natural.
Equipos de diseño que necesitan combinar bocetos, imágenes de referencia, audio y material de video en una pieza final.
Personas que crean videos cortos, conceptos publicitarios, explicadores educativos y borradores visuales de producto.
Creadores que quieren construir flujos de trabajo de video con IA en Google Flow.
Desarrolladores e investigadores que siguen los límites de la edición de video multimodal.

Pero no sirve para todos los escenarios. Películas comerciales serias, visuales principales de marca, producción audiovisual y videos de lanzamiento de producto siguen requiriendo revisión humana, control de derechos, verificación de hechos y gestión de materiales. La IA puede acelerar claramente la generación de conceptos y la iteración del primer borrador, pero no debe reemplazar la revisión final.

Cómo interpretar Gemini Omni

La importancia de Gemini Omni está en que mueve el video con IA desde la “generación de una sola vez” hacia la “edición conversacional”. Eso se acerca más al proceso creativo real que simplemente mejorar la calidad de imagen.

Si funciona de manera estable en edición de múltiples turnos, consistencia, control de referencias, sincronización de audio y video, y etiquetado de contenido, la forma de usar herramientas de video con IA cambiará. Los usuarios ya no escribirán solo un prompt largo esperando acertar; revisarán escenas, acciones, estilos y narrativas paso a paso como directores, editores y diseñadores.

Todavía habrá que observar disponibilidad real, precio, restricciones regionales, duración generable, resolución, política de derechos y reglas de uso comercial. Para creadores comunes, el punto más práctico será comprobar si Gemini Omni puede completar de forma estable ediciones de video en múltiples turnos dentro de Google Flow y Gemini app.

Referencias:

Google DeepMind: Gemini Omni

web-video-presentation: un Agent Skill para convertir artículos en videos web grabables

Fri, 15 May 2026 09:02:15 +0800

web-video-presentation es un agent skill dentro de ConardLi/garden-skills. Resuelve un problema concreto: convertir un artículo o guion de voz en una presentación web que pueda grabarse como video.

Proyecto: https://github.com/ConardLi/garden-skills/tree/main/skills/web-video-presentation

No es una plantilla de slides ni una librería de componentes React. Es un flujo de producción para agentes: convertir contenido en guion, crear outline, elegir tema, construir una superficie web 16:9 con Vite + React + TypeScript y grabarla.

No quiere hacer slides

El README lo llama “video production surface”, no slide deck.

Cada clic avanza un beat de narración. Cada step ocupa un escenario de 1920×1080. La UI de progreso se oculta salvo hover para no ensuciar la grabación.

Sirve para convertir blogs en videos, visualizar guiones, hacer demos, tutoriales, charlas estilo keynote o presentaciones dinámicas que no parezcan PowerPoint.

El valor no es sustituir un editor de video, sino usar el navegador como lienzo controlable e iterativo.

Principios

Usa un escenario fijo 16:9 en coordenadas 1920×1080, escalado al viewport para evitar cambios de layout al grabar.

Tiene un cursor global de step: clics y teclado avanzan (chapter, step) y guardan progreso local.

Cada step debe contar una sola idea. No se trata de acumular bullets, sino de diseñar cada beat como una pantalla.

El guion manda el ritmo, el outline define capítulos y steps, y la imagen sigue la narración.

Cada escena debe tener un ancla visual con movimiento. Si solo hay texto estático, aún no es lenguaje de video.

Los temas usan tokens semánticos para tipografía, color, tarjetas, fondo, separadores, decoración y tono.

Workflow en cuatro partes

Primero se trabaja el contenido. Si el usuario da un artículo, el agente lo reescribe como script.md y genera outline.md. Si ya hay guion, lo guarda como script.md y crea el outline.

Luego viene el desarrollo web. El agente crea un proyecto Vite / React / TypeScript y desarrolla por capítulos. El capítulo 1 debe hacerlo el hilo principal y ser aprobado por el usuario, porque fija el estilo.

Después puede venir audio opcional: extraer definiciones desde narrations.ts y pasar a síntesis de voz.

Finalmente se graba la presentación en la web.

Hay checkpoints estrictos: script, outline, tema, plan de assets, modo de desarrollo, aprobación del capítulo 1 y decisión sobre audio.

Por qué el outline no define animaciones

outline.md planifica ritmo e información, pero no animaciones concretas. Puede describir capítulos, número de steps, contenido de pantalla, assets y duración estimada; no debe fijar CSS animations, tiempos, clip-path o filtros.

Si el outline bloquea la animación, el desarrollo posterior se vuelve mecánico. La sensación de video debe diseñarse al implementar cada capítulo según la relación entre ideas.

narrations.ts como fuente de verdad

Cada capítulo tiene narrations.ts, con número de steps y texto de narración. El máximo step usado en el .tsx del capítulo debe coincidir con narrations.length.

Así se evita que script.md, outline.md, código, chapters.ts y audio se desalineen.

Los temas no son skins

Los temas integrados incluyen paper-press, warm-keynote, midnight-press, blueprint, chalk-garden, terminal-green, bauhaus-bold, sunset-zine, newsroom y monochrome-print.

No son simples cambios de color. Representan lenguajes visuales distintos: prensa, keynote, planos, terminal, newsroom. En la planificación, el agente debe recomendar dos o tres según tema y tono.

Modos de desarrollo

El capítulo 1 siempre se desarrolla y revisa primero. Después hay tres modos: confirmación capítulo por capítulo, desarrollo secuencial o desarrollo paralelo con subagents.

El paralelo es más rápido, pero puede generar diferencias de estilo entre capítulos. Los theme tokens ayudan a mantener unidad.

Para quién sirve

Sirve mejor cuando ya existe material: artículo, guion, descripción de producto, tutorial o explicación técnica. Si el usuario no tiene contenido, el agente debería pedirlo. No es una herramienta de ideación, sino un flujo de contenido a video.

Resumen

web-video-presentation vale porque convierte la producción de videos desde contenido en un flujo colaborativo, revisable y reutilizable.

Une artículo, narración, outline, tema, capítulos, audio y grabación, y usa checkpoints para evitar que el agente avance sin control.

miHoYo LPM 1.0 explicado: cómo un modelo de video con AI puede transformar los NPC de juegos

Fri, 08 May 2026 22:27:10 +0800

LPM 1.0 se puede confundir fácilmente con otro modelo de generación de video con AI. Si se juzga solo por sus demos, quizá no parezca tan espectacular como algunos sistemas de texto a video. Pero si se mira el objetivo del paper, no intenta principalmente generar un clip atractivo. Intenta hacer que un personaje digital parezca presente durante la interacción.

Esa es la diferencia principal entre LPM 1.0 y los modelos de video comunes. Un modelo de video típico se centra en calidad visual, continuidad de cámara y fidelidad al prompt. LPM 1.0 se centra en la actuación del personaje: sincronía de labios, ritmo y expresión al hablar; asentimientos, mirada, pausas y microexpresiones al escuchar; e identidad estable durante interacciones largas.

De generar video a generar actuación

LPM significa Large Performance Model. El nombre importa porque desplaza el límite de la tarea desde “video” hacia “actuación”.

En una conversación real, que alguien parezca natural no depende solo de lo que dice. Escuchar también forma parte de la comunicación: cuándo asiente, hacia dónde mira y cómo cambia sutilmente la expresión influye en si creemos que el personaje está vivo.

Muchos sistemas de humanos digitales siguen pegando texto, voz y movimiento de labios sobre una imagen de personaje. El personaje puede hablar, pero no necesariamente escuchar. Puede producir líneas, pero no siempre reaccionar de forma continua al último segundo de entrada. LPM 1.0 busca convertir esa reproducción pasiva en interacción en tiempo real.

Los tres problemas difíciles

El paper de LPM 1.0 plantea un trilema en la actuación de personajes con AI: expresividad, inferencia en tiempo real y estabilidad de identidad a largo plazo. Un sistema puede verse detallado pero ser lento, responder rápido pero sentirse rígido, o mantenerse estable por poco tiempo y luego desviarse. Conseguir las tres cosas al mismo tiempo es mucho más difícil.

Para abordarlo, LPM 1.0 usa condiciones de personaje más ricas. En vez de dar al modelo una sola imagen de referencia, introduce referencias de identidad de varias granularidades: apariencia global, cuerpo desde múltiples vistas y ejemplos de expresiones faciales. El objetivo es reducir detalles inventados como perfil, dientes, textura de expresión o proporciones corporales, y evitar deformaciones en generaciones largas.

El paper también separa el comportamiento de hablar y escuchar. El audio de habla impulsa principalmente sincronía labial, velocidad, movimiento de cabeza y ritmo corporal. El audio de escucha activa mirada, asentimientos, cambios de postura y microexpresiones. Si ambas señales se mezclan en un único flujo de control, el modelo puede aprender comportamientos erróneos. LPM 1.0 modela speaking y listening por separado y luego los conecta en un sistema online de interacción.

Base LPM y Online LPM

Según el paper público, LPM 1.0 se apoya en un Diffusion Transformer de 17B parámetros. Base LPM aprende videos de actuación de personaje de alta calidad, controlables y con identidad estable. Online LPM es un generador en streaming destilado, diseñado para interacción de baja latencia y larga duración.

Esta división es importante. Un modelo offline puede priorizar calidad, pero un sistema interactivo no puede hacer esperar al usuario. Cuando el usuario empieza a hablar, el personaje debería empezar a “escuchar” de inmediato. Cuando el personaje habla, labios, expresión y movimiento corporal deben seguir al instante. El valor de Online LPM está en comprimir la generación de video compleja hacia una forma cercana a la interacción en tiempo real.

Por eso LPM 1.0 no es solo una herramienta de clips cortos para creadores. Se parece más a un motor visual para agentes conversacionales, streamers virtuales y NPC de juegos: el modelo de lenguaje entiende y genera contenido, el modelo de voz aporta sonido, y LPM hace que el personaje en pantalla actúe de forma creíble.

Qué significa para los juegos

En juegos, LPM 1.0 apunta menos a cinemáticas más bonitas y más a la próxima generación de personajes interactivos.

Los NPC tradicionales dependen de guiones escritos, animaciones fijas y ramificaciones limitadas. El jugador puede hablar con ellos, pero la respuesta suele estar diseñada de antemano. En la era de AI, el objetivo va más lejos: dentro de un mismo mundo, distintos jugadores pueden vivir rutas narrativas distintas, y un mismo personaje puede responder con acciones, emociones y diálogo ajustados al contexto de cada jugador.

Eso es lo que una experiencia de juego realmente personalizada necesita por debajo. Los modelos de lenguaje pueden generar líneas y los sistemas de comportamiento pueden decidir objetivos, pero si el personaje en pantalla sigue pareciendo rígido, al jugador le costará creer que lo entiende. LPM 1.0 intenta cubrir precisamente esa capa visual y de actuación.

No es un producto mágico terminado

LPM 1.0 debe entenderse hoy como una dirección técnica, no como un producto comercial inmediatamente escalable. El paper y las demos muestran una posibilidad: la generación de video de personajes en tiempo real, full-duplex y con identidad estable se acerca a ser utilizable. Pero para entrar ampliamente en juegos aún faltan resolver costes, latencia, despliegue en el borde, seguridad de contenido, derechos de personaje, escenas multijugador e integración con motores.

Una ruta más realista puede empezar por streamers virtuales, acompañantes AI, interacción narrativa, soporte con personajes y tutores educativos. A medida que baje el coste y mejore la latencia, la tecnología podrá entrar en sistemas de juego más complejos.

Resumen

El valor de LPM 1.0 no está en si puede generar el video más impresionante. Está en empujar el objetivo del video con AI desde “generar imagen” hacia “presencia del personaje”.

Si los juegos del futuro se vuelven más personalizados, dinámicos y dependientes de personajes con AI, lenguaje, voz, movimiento, expresión y consistencia de identidad deberán diseñarse juntos. LPM 1.0 ofrece una ruta: personajes digitales que no solo hablan, sino que escuchan, reaccionan y siguen siendo reconociblemente ellos mismos durante interacciones largas.

Referencias:

Pixelle-Video: un motor open source de IA para generar videos cortos a partir de un tema

Thu, 07 May 2026 20:25:17 +0800

Pixelle-Video es un motor open source totalmente automatizado para generar videos cortos, creado por AIDC-AI. Su objetivo es directo: el usuario introduce un tema, y el sistema escribe automaticamente el guion, genera imagenes o videos con IA, crea narracion de voz, anade musica de fondo y renderiza el video final.

Este tipo de herramienta es util para creacion masiva de videos cortos, explicadores de conocimiento, contenido talking-head, resumenes de novelas, videos de historia y cultura, y experimentos de self-media. No es un unico modelo text-to-video. Es una linea de produccion que conecta varias capacidades de IA.

Que automatiza

El flujo por defecto de Pixelle-Video puede resumirse asi:

introducir un tema o un guion fijo;
usar un LLM para generar la narracion;
planificar escenas y generar imagenes o clips de video;
usar TTS para crear la narracion de voz;
anadir musica de fondo;
aplicar una plantilla de video y renderizar el resultado final.

El README describe el flujo como “generacion de guion -> planificacion de imagenes -> procesamiento fotograma a fotograma -> composicion de video”. El diseno modular es claro: cada paso puede reemplazarse, ajustarse o conectarse a un flujo personalizado.

Funciones principales

El proyecto cubre un conjunto bastante completo de capacidades:

escritura de guion con IA: genera automaticamente narracion a partir de un tema;
generacion de imagenes con IA: crea ilustraciones para cada linea o escena;
generacion de video con IA: conecta con modelos de generacion de video como WAN 2.1;
voz TTS: soporta Edge-TTS, Index-TTS y otras opciones;
musica de fondo: usa BGM integrada o musica personalizada;
multiples relaciones de aspecto: soporta formatos verticales, horizontales y otros tamanos de video;
multiples modelos: conecta con GPT, Qwen, DeepSeek, Ollama y mas;
flujos ComfyUI: usa workflows integrados o reemplaza pasos de imagen, TTS y generacion de video.

Las actualizaciones recientes tambien mencionan motion transfer, videos talking-head con humano digital, pipelines image-to-video, voces TTS multilingues, soporte RunningHub y un paquete todo-en-uno para Windows. El proyecto claramente esta avanzando mas alla de un simple script hacia una herramienta de creacion mas completa.

Instalacion y arranque

Los usuarios de Windows pueden mirar primero el paquete oficial todo-en-uno. Esta disenado para reducir friccion de configuracion: no hace falta instalar manualmente Python, uv ni ffmpeg. Despues de extraer el paquete, ejecuta start.bat, abre la interfaz web y configura las APIs necesarias y el servicio de generacion de imagenes.

Para instalar desde codigo fuente, el README da este flujo basico:

1
2
3

git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video
uv run streamlit run web/app.py

La ruta desde codigo fuente es adecuada para usuarios de macOS y Linux, y para cualquiera que quiera modificar plantillas, workflows o configuracion de servicios. Los requisitos principales son uv y ffmpeg.

Prioridades de configuracion

En el primer uso, lo importante no es pulsar “generate” inmediatamente. Lo importante es conectar bien las capacidades externas.

La configuracion del LLM determina la calidad del guion. Puedes elegir modelos como Qwen, GPT, DeepSeek u Ollama, y luego rellenar API Key, Base URL y nombre del modelo. Si quieres minimizar costes, Ollama local es una opcion. Si quieres resultados mas estables, un modelo cloud suele ser mas sencillo.

La configuracion de generacion de imagen y video determina la calidad visual. El proyecto soporta ComfyUI local y RunningHub. Los usuarios que entienden ComfyUI pueden colocar sus propios workflows bajo workflows/ para reemplazar el pipeline por defecto de imagen, video o TTS.

La configuracion de plantillas determina la forma visual final. El proyecto organiza plantillas de video bajo templates/, con reglas de nombres para plantillas estaticas, plantillas de imagen y plantillas de video. Para creadores, esto es mas practico que generar solo assets crudos, porque la salida es un video que puede previsualizarse y descargarse directamente.

Para quien es

Pixelle-Video es especialmente adecuado para tres grupos:

Creadores de videos cortos que quieren convertir ideas en borradores de video rapidamente.
Usuarios de herramientas AIGC que quieren conectar LLMs, ComfyUI, TTS y composicion de video.
Desarrolladores y usuarios de automatizacion que quieren modificar plantillas, workflows o integrar sus propios materiales y modelos.

Si solo quieres hacer un unico video premium muy pulido, puede que no reemplace la edicion manual. Pero si quieres generar muchos explicadores, videos talking-head o videos de ciencia y educacion con una estructura consistente, su enfoque de pipeline tiene valor.

Puntos a tener en cuenta

El techo de este tipo de herramienta lo determinan varios eslabones de la cadena. Un modelo de guion debil produce contenido vacio; un modelo de imagen debil da visuales dispersos; un TTS poco natural hace que el video se sienta tosco; y una plantilla pobre debilita el resultado final.

Por eso conviene empezar con un escenario fijo, por ejemplo un “explicador cientifico vertical de 60 segundos”. Fija primero el LLM, el estilo visual, la voz TTS, el BGM y la plantilla, y despues amplia a mas temas.

El proyecto soporta una configuracion local gratuita, pero los setups locales suelen requerir GPU, configuracion de ComfyUI y archivos de modelos. Los usuarios sin entorno local de inferencia pueden reducir la dificultad usando un LLM cloud mas RunningHub, sin perder de vista el coste de uso.

Lectura breve

Pixelle-Video es interesante no solo porque pueda “generar un video desde una frase”. Su valor real es que divide la produccion de videos cortos en modulos reemplazables: guion, visuales, voz, musica, plantillas y render. Para usuarios comunes, es una herramienta de video con IA de baja barrera. Para desarrolladores, se acerca mas a un framework hackeable de automatizacion de videos cortos.

Si estas estudiando pipelines de videos cortos con IA, o quieres conectar ComfyUI, TTS, LLMs y renderizado con plantillas en un producto usable, Pixelle-Video merece probarse y diseccionarse.