LongCat-Video-Avatar-1.5: modelo abierto de Meituan para video de avatares guiado por audio

LongCat-Video-Avatar-1.5 es un modelo de generación de video de avatares guiado por audio, publicado por el equipo LongCat de Meituan.

Proyecto: https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5

No está pensado como un modelo general de texto a video. Su objetivo es: “dada una voz y ciertas condiciones de personaje, generar un video donde la persona hable, se mueva de forma estable y mantenga una identidad consistente”. Según la model card, soporta Audio-Text-to-Video, Audio-Text-Image-to-Video y Video Continuation, además de entradas de audio de una sola pista o de varias pistas.

En el momento de escribir esto, la página de Hugging Face muestra que el modelo usa MIT License, con etiquetas como audio-text-to-video, audio-image-text-to-video, audio-driven-video-continuation, avatar y video-generation.

Qué cambia en la versión 1.5

La model card oficial describe LongCat-Video-Avatar 1.5 como un framework open source más orientado a producción, centrado en mejorar la estabilidad de la generación de video humano guiado por audio.

Hay varios cambios claros.

Primero, el codificador de audio cambia de Wav2Vec2 a Whisper-Large. Según la descripción oficial, esto produce movimientos de labios más suaves y naturales. En la práctica, los escenarios con alta exigencia de lip sync deberían usar --model_type avatar-v1.5.

Segundo, enfatiza la estabilidad en videos largos y la consistencia de identidad. Los videos de avatares suelen fallar de dos formas: la boca no sincroniza bien en clips cortos, o la cara, el cuerpo, la ropa y el movimiento empiezan a desviarse en clips largos. Uno de los puntos fuertes de LongCat-Video-Avatar-1.5 es que trata lip sync, full-body temporal stability e identity consistency dentro del mismo objetivo.

Tercero, no se limita a presentadores realistas. La model card menciona generalización a anime, animales, interacciones entre varias personas, manipulación de objetos y condiciones reales más complejas. Esto amplía el uso más allá de un “presentador digital de noticias”: también puede aplicarse a minidrama, canto, narración de e-commerce, personajes animados y personajes animales.

Cuarto, ofrece inferencia de 8 pasos. La documentación menciona DMD2-based step distillation para reducir la inferencia a 8 NFE, buscando equilibrar coste de servicio y calidad visual. Para modelos de video esto importa mucho, porque la generación suele ser cara y menos pasos de inferencia afectan directamente a la posibilidad de despliegue.

Qué tareas soporta

Por la model card y los comandos de ejemplo, se puede dividir en tres grupos.

El primero es animación de una sola persona.

Soporta generación de video desde audio y texto, y también desde audio e imagen. Un uso típico es dar una voz para hacer que un personaje hable, actúe o presente.

El segundo es continuación de video.

Los ejemplos usan parámetros como --num_segments=5, --ref_img_index=10 y --mask_frame_range=3 para seguir generando clips más largos bajo condiciones de personaje ya establecidas. Esto encaja con narraciones largas, cursos, canto y actuaciones continuas.

El tercero es animación de varias personas.

El modo multipersona usa run_demo_avatar_multi_audio_to_video.py y soporta varias pistas de audio. La model card también explica dos modos de doble audio: si audio_type es para, merge mode requiere dos clips de igual duración; si es add, concatenation mode concatena dos clips en secuencia y rellena los huecos con silencio.

Instalación y descarga del modelo

El flujo oficial empieza clonando el repositorio LongCat-Video:

1
2


git clone --single-branch --branch main https://github.com/meituan-longcat/LongCat-Video
cd LongCat-Video

Luego se crea un entorno Python 3.10 y se instala PyTorch según la versión de CUDA. El ejemplo para CUDA 12.4 en la model card es:

1
2
3


conda create -n longcat-video python=3.10
conda activate longcat-video
pip install torch==2.6.0+cu124 torchvision==0.21.0+cu124 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124

Después también hacen falta flash_attn==2.7.4.post1, las dependencias del proyecto, librosa, ffmpeg y requirements_avatar.txt. La model card indica que FlashAttention-2 está activado por defecto en la configuración, aunque también se puede cambiar a FlashAttention-3 o xformers.

Los pesos se pueden descargar con huggingface-cli:

1
2
3


pip install "huggingface_hub[cli]"
huggingface-cli download meituan-longcat/LongCat-Video --local-dir ./weights/LongCat-Video
huggingface-cli download meituan-longcat/LongCat-Video-Avatar-1.5 --local-dir ./weights/LongCat-Video-Avatar-1.5

Hay que tener en cuenta que depende de dos directorios de pesos: LongCat-Video como modelo base de generación de video, y LongCat-Video-Avatar-1.5 como modelo de avatar.

Ejemplos rápidos de inferencia

Audio-Text-to-Video para una persona:

1

torchrun --nproc_per_node=2 run_demo_avatar_single_audio_to_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video-Avatar-1.5 --stage_1=at2v --input_json=assets/avatar/single_example_1.json --use_distill --model_type avatar-v1.5 --use_int8

Audio-Image-to-Video para una persona:

1

torchrun --nproc_per_node=2 run_demo_avatar_single_audio_to_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video-Avatar-1.5  --stage_1=ai2v --input_json=assets/avatar/single_example_1.json --use_distill --model_type avatar-v1.5 --use_int8

Audio-Image-to-Video para varias personas:

1

torchrun --nproc_per_node=2 run_demo_avatar_multi_audio_to_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video-Avatar-1.5 --input_json=assets/avatar/multi_example_1.json --use_distill --model_type avatar-v1.5 --use_int8

Estos comandos comparten varias decisiones: todos usan --model_type avatar-v1.5, incluyen --use_distill y en los ejemplos activan --use_int8. La model card dice explícitamente que --use_distill es necesario al usar avatar-v1.5; --use_int8 carga el modelo DiT cuantizado a INT8 para reducir uso de VRAM, y solo se soporta con avatar-v1.5.

Cómo ajustar parámetros

La model card ofrece varias recomendaciones prácticas.

Si la sincronización labial no es suficiente, se puede subir audio CFG. El rango recomendado es de 3 a 5, y valores más altos suelen ayudar a la sincronización.

El prompt no debería ser demasiado corto. Descripciones más largas y concretas suelen mejorar la consistencia del personaje y la naturalidad. Apariencia, acciones, escena, ropa y expresión son detalles útiles.

Si aparecen acciones repetidas, se pueden ajustar --ref_img_index y --mask_frame_range. La model card sugiere que --ref_img_index entre 0 y 24 ayuda a la consistencia, mientras que ponerlo en 30 puede reducir acciones repetidas. Aumentar --mask_frame_range también puede ayudar, aunque valores demasiado grandes pueden introducir artefactos.

En resolución, el modelo es compatible con 480P y 720P mediante --resolution.

Casos de uso adecuados

Las vistas previas oficiales cubren presentación, actuación, canto, marketing de e-commerce, conversación multipersona, animación y personajes animales.

En uso práctico, encaja con estas direcciones:

Noticias, explicación de conocimiento y narración de cursos.
Presentación de productos y videos cortos de marketing para e-commerce.
Streamers virtuales, minidramas con personajes virtuales y canto.
Animación guiada por audio para personajes de anime o animales.
Videos de conversación con varias personas digitales.

Lo más interesante es que trata “lip sync” y “estabilidad en video largo” dentro del mismo framework. Muchos modelos de avatares se ven bien en clips cortos, pero al generar varios segmentos empiezan a sufrir drift de identidad, repetición de movimientos o inestabilidad corporal. LongCat-Video-Avatar-1.5 declara esos problemas como objetivos de optimización.

Qué conviene vigilar

Primero, no es un modelo alojado directamente disponible en Hugging Face Inference Providers. La página indica que no está desplegado por ningún Inference Provider, así que usarlo de verdad requiere preparar entorno, descargar pesos y ejecutar el código de LongCat-Video.

Segundo, el despliegue local no es ligero. Los ejemplos usan torchrun --nproc_per_node=2 y context_parallel_size=2, y dependen de PyTorch, FlashAttention, ffmpeg, librosa y varios pesos de modelo. Incluso con cuantización INT8, encaja mejor con usuarios que tienen un entorno GPU potente.

Tercero, el video de avatares implica imagen personal, voz, privacidad y seguridad de contenido. La model card recuerda que los desarrolladores deben evaluar precisión, seguridad y equidad, además de cumplir las leyes y regulaciones aplicables sobre protección de datos, privacidad y seguridad de contenido. Al generar una persona real o videos comerciales, autorización y cumplimiento importan más que el resultado visual.

Cuarto, no conviene tratar los fragmentos genéricos de Hugging Face sobre “Diffusers/Transformers” como el flujo completo de inferencia de este proyecto. La inferencia real de avatar debe seguir el repositorio LongCat-Video y los ejemplos run_demo_avatar_* de la model card.

Resumen

LongCat-Video-Avatar-1.5 es un modelo abierto de video de avatares que merece atención. No solo hace hablar a una cara: combina audio driving, consistencia de personaje, estabilidad en videos largos, audio multipersona e inferencia destilada dentro de un mismo framework.

Si te interesan streamers virtuales, narración de e-commerce, videos educativos, personajes animados o conversación multipersona, vale la pena probarlo. Pero se parece más a un modelo para que equipos de investigación e ingeniería lo desplieguen y ajusten que a una herramienta web lista para usar. Para llevarlo a producción hacen falta cómputo, autorización de materiales, ajuste de prompts y un flujo de cumplimiento de contenido.

Referencias

LongCat-Video-Avatar-1.5 Hugging Face: https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5
LongCat-Video GitHub: https://github.com/meituan-longcat/LongCat-Video
LongCat-Video-Avatar-1.5 Technical Report: https://github.com/meituan-longcat/LongCat-Video