<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>Digital Humans on KnightLi Blog</title>
        <link>https://knightli.com/es/tags/digital-humans/</link>
        <description>Recent content in Digital Humans on KnightLi Blog</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>es</language>
        <lastBuildDate>Mon, 25 May 2026 07:53:43 +0800</lastBuildDate><atom:link href="https://knightli.com/es/tags/digital-humans/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>LongCat-Video-Avatar-1.5: modelo abierto de Meituan para video de avatares guiado por audio</title>
        <link>https://knightli.com/es/2026/05/25/longcat-video-avatar-1-5-audio-driven-avatar-video/</link>
        <pubDate>Mon, 25 May 2026 07:53:43 +0800</pubDate>
        
        <guid>https://knightli.com/es/2026/05/25/longcat-video-avatar-1-5-audio-driven-avatar-video/</guid>
        <description>&lt;p&gt;&lt;code&gt;LongCat-Video-Avatar-1.5&lt;/code&gt; es un modelo de generación de video de avatares guiado por audio, publicado por el equipo LongCat de Meituan.&lt;/p&gt;
&lt;p&gt;Proyecto: &lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;No está pensado como un modelo general de texto a video. Su objetivo es: “dada una voz y ciertas condiciones de personaje, generar un video donde la persona hable, se mueva de forma estable y mantenga una identidad consistente”. Según la model card, soporta Audio-Text-to-Video, Audio-Text-Image-to-Video y Video Continuation, además de entradas de audio de una sola pista o de varias pistas.&lt;/p&gt;
&lt;p&gt;En el momento de escribir esto, la página de Hugging Face muestra que el modelo usa MIT License, con etiquetas como &lt;code&gt;audio-text-to-video&lt;/code&gt;, &lt;code&gt;audio-image-text-to-video&lt;/code&gt;, &lt;code&gt;audio-driven-video-continuation&lt;/code&gt;, &lt;code&gt;avatar&lt;/code&gt; y &lt;code&gt;video-generation&lt;/code&gt;.&lt;/p&gt;
&lt;h2 id=&#34;qué-cambia-en-la-versión-15&#34;&gt;Qué cambia en la versión 1.5
&lt;/h2&gt;&lt;p&gt;La model card oficial describe &lt;code&gt;LongCat-Video-Avatar 1.5&lt;/code&gt; como un framework open source más orientado a producción, centrado en mejorar la estabilidad de la generación de video humano guiado por audio.&lt;/p&gt;
&lt;p&gt;Hay varios cambios claros.&lt;/p&gt;
&lt;p&gt;Primero, el codificador de audio cambia de Wav2Vec2 a Whisper-Large. Según la descripción oficial, esto produce movimientos de labios más suaves y naturales. En la práctica, los escenarios con alta exigencia de lip sync deberían usar &lt;code&gt;--model_type avatar-v1.5&lt;/code&gt;.&lt;/p&gt;
&lt;p&gt;Segundo, enfatiza la estabilidad en videos largos y la consistencia de identidad. Los videos de avatares suelen fallar de dos formas: la boca no sincroniza bien en clips cortos, o la cara, el cuerpo, la ropa y el movimiento empiezan a desviarse en clips largos. Uno de los puntos fuertes de LongCat-Video-Avatar-1.5 es que trata lip sync, full-body temporal stability e identity consistency dentro del mismo objetivo.&lt;/p&gt;
&lt;p&gt;Tercero, no se limita a presentadores realistas. La model card menciona generalización a anime, animales, interacciones entre varias personas, manipulación de objetos y condiciones reales más complejas. Esto amplía el uso más allá de un “presentador digital de noticias”: también puede aplicarse a minidrama, canto, narración de e-commerce, personajes animados y personajes animales.&lt;/p&gt;
&lt;p&gt;Cuarto, ofrece inferencia de 8 pasos. La documentación menciona DMD2-based step distillation para reducir la inferencia a 8 NFE, buscando equilibrar coste de servicio y calidad visual. Para modelos de video esto importa mucho, porque la generación suele ser cara y menos pasos de inferencia afectan directamente a la posibilidad de despliegue.&lt;/p&gt;
&lt;h2 id=&#34;qué-tareas-soporta&#34;&gt;Qué tareas soporta
&lt;/h2&gt;&lt;p&gt;Por la model card y los comandos de ejemplo, se puede dividir en tres grupos.&lt;/p&gt;
&lt;p&gt;El primero es animación de una sola persona.&lt;/p&gt;
&lt;p&gt;Soporta generación de video desde audio y texto, y también desde audio e imagen. Un uso típico es dar una voz para hacer que un personaje hable, actúe o presente.&lt;/p&gt;
&lt;p&gt;El segundo es continuación de video.&lt;/p&gt;
&lt;p&gt;Los ejemplos usan parámetros como &lt;code&gt;--num_segments=5&lt;/code&gt;, &lt;code&gt;--ref_img_index=10&lt;/code&gt; y &lt;code&gt;--mask_frame_range=3&lt;/code&gt; para seguir generando clips más largos bajo condiciones de personaje ya establecidas. Esto encaja con narraciones largas, cursos, canto y actuaciones continuas.&lt;/p&gt;
&lt;p&gt;El tercero es animación de varias personas.&lt;/p&gt;
&lt;p&gt;El modo multipersona usa &lt;code&gt;run_demo_avatar_multi_audio_to_video.py&lt;/code&gt; y soporta varias pistas de audio. La model card también explica dos modos de doble audio: si &lt;code&gt;audio_type&lt;/code&gt; es &lt;code&gt;para&lt;/code&gt;, merge mode requiere dos clips de igual duración; si es &lt;code&gt;add&lt;/code&gt;, concatenation mode concatena dos clips en secuencia y rellena los huecos con silencio.&lt;/p&gt;
&lt;h2 id=&#34;instalación-y-descarga-del-modelo&#34;&gt;Instalación y descarga del modelo
&lt;/h2&gt;&lt;p&gt;El flujo oficial empieza clonando el repositorio LongCat-Video:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;git clone --single-branch --branch main https://github.com/meituan-longcat/LongCat-Video
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;cd&lt;/span&gt; LongCat-Video
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Luego se crea un entorno Python 3.10 y se instala PyTorch según la versión de CUDA. El ejemplo para CUDA 12.4 en la model card es:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;conda create -n longcat-video &lt;span class=&#34;nv&#34;&gt;python&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;3.10
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;conda activate longcat-video
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;pip install &lt;span class=&#34;nv&#34;&gt;torch&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;==&lt;/span&gt;2.6.0+cu124 &lt;span class=&#34;nv&#34;&gt;torchvision&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;==&lt;/span&gt;0.21.0+cu124 &lt;span class=&#34;nv&#34;&gt;torchaudio&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;==&lt;/span&gt;2.6.0 --index-url https://download.pytorch.org/whl/cu124
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Después también hacen falta &lt;code&gt;flash_attn==2.7.4.post1&lt;/code&gt;, las dependencias del proyecto, &lt;code&gt;librosa&lt;/code&gt;, &lt;code&gt;ffmpeg&lt;/code&gt; y &lt;code&gt;requirements_avatar.txt&lt;/code&gt;. La model card indica que FlashAttention-2 está activado por defecto en la configuración, aunque también se puede cambiar a FlashAttention-3 o xformers.&lt;/p&gt;
&lt;p&gt;Los pesos se pueden descargar con &lt;code&gt;huggingface-cli&lt;/code&gt;:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;pip install &lt;span class=&#34;s2&#34;&gt;&amp;#34;huggingface_hub[cli]&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;huggingface-cli download meituan-longcat/LongCat-Video --local-dir ./weights/LongCat-Video
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;huggingface-cli download meituan-longcat/LongCat-Video-Avatar-1.5 --local-dir ./weights/LongCat-Video-Avatar-1.5
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Hay que tener en cuenta que depende de dos directorios de pesos: LongCat-Video como modelo base de generación de video, y LongCat-Video-Avatar-1.5 como modelo de avatar.&lt;/p&gt;
&lt;h2 id=&#34;ejemplos-rápidos-de-inferencia&#34;&gt;Ejemplos rápidos de inferencia
&lt;/h2&gt;&lt;p&gt;Audio-Text-to-Video para una persona:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;torchrun --nproc_per_node&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;m&#34;&gt;2&lt;/span&gt; run_demo_avatar_single_audio_to_video.py --context_parallel_size&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;m&#34;&gt;2&lt;/span&gt; --checkpoint_dir&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;./weights/LongCat-Video-Avatar-1.5 --stage_1&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;at2v --input_json&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;assets/avatar/single_example_1.json --use_distill --model_type avatar-v1.5 --use_int8
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Audio-Image-to-Video para una persona:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;torchrun --nproc_per_node&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;m&#34;&gt;2&lt;/span&gt; run_demo_avatar_single_audio_to_video.py --context_parallel_size&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;m&#34;&gt;2&lt;/span&gt; --checkpoint_dir&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;./weights/LongCat-Video-Avatar-1.5  --stage_1&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;ai2v --input_json&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;assets/avatar/single_example_1.json --use_distill --model_type avatar-v1.5 --use_int8
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Audio-Image-to-Video para varias personas:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;torchrun --nproc_per_node&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;m&#34;&gt;2&lt;/span&gt; run_demo_avatar_multi_audio_to_video.py --context_parallel_size&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;m&#34;&gt;2&lt;/span&gt; --checkpoint_dir&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;./weights/LongCat-Video-Avatar-1.5 --input_json&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;assets/avatar/multi_example_1.json --use_distill --model_type avatar-v1.5 --use_int8
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Estos comandos comparten varias decisiones: todos usan &lt;code&gt;--model_type avatar-v1.5&lt;/code&gt;, incluyen &lt;code&gt;--use_distill&lt;/code&gt; y en los ejemplos activan &lt;code&gt;--use_int8&lt;/code&gt;. La model card dice explícitamente que &lt;code&gt;--use_distill&lt;/code&gt; es necesario al usar &lt;code&gt;avatar-v1.5&lt;/code&gt;; &lt;code&gt;--use_int8&lt;/code&gt; carga el modelo DiT cuantizado a INT8 para reducir uso de VRAM, y solo se soporta con &lt;code&gt;avatar-v1.5&lt;/code&gt;.&lt;/p&gt;
&lt;h2 id=&#34;cómo-ajustar-parámetros&#34;&gt;Cómo ajustar parámetros
&lt;/h2&gt;&lt;p&gt;La model card ofrece varias recomendaciones prácticas.&lt;/p&gt;
&lt;p&gt;Si la sincronización labial no es suficiente, se puede subir audio CFG. El rango recomendado es de 3 a 5, y valores más altos suelen ayudar a la sincronización.&lt;/p&gt;
&lt;p&gt;El prompt no debería ser demasiado corto. Descripciones más largas y concretas suelen mejorar la consistencia del personaje y la naturalidad. Apariencia, acciones, escena, ropa y expresión son detalles útiles.&lt;/p&gt;
&lt;p&gt;Si aparecen acciones repetidas, se pueden ajustar &lt;code&gt;--ref_img_index&lt;/code&gt; y &lt;code&gt;--mask_frame_range&lt;/code&gt;. La model card sugiere que &lt;code&gt;--ref_img_index&lt;/code&gt; entre 0 y 24 ayuda a la consistencia, mientras que ponerlo en 30 puede reducir acciones repetidas. Aumentar &lt;code&gt;--mask_frame_range&lt;/code&gt; también puede ayudar, aunque valores demasiado grandes pueden introducir artefactos.&lt;/p&gt;
&lt;p&gt;En resolución, el modelo es compatible con 480P y 720P mediante &lt;code&gt;--resolution&lt;/code&gt;.&lt;/p&gt;
&lt;h2 id=&#34;casos-de-uso-adecuados&#34;&gt;Casos de uso adecuados
&lt;/h2&gt;&lt;p&gt;Las vistas previas oficiales cubren presentación, actuación, canto, marketing de e-commerce, conversación multipersona, animación y personajes animales.&lt;/p&gt;
&lt;p&gt;En uso práctico, encaja con estas direcciones:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Noticias, explicación de conocimiento y narración de cursos.&lt;/li&gt;
&lt;li&gt;Presentación de productos y videos cortos de marketing para e-commerce.&lt;/li&gt;
&lt;li&gt;Streamers virtuales, minidramas con personajes virtuales y canto.&lt;/li&gt;
&lt;li&gt;Animación guiada por audio para personajes de anime o animales.&lt;/li&gt;
&lt;li&gt;Videos de conversación con varias personas digitales.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Lo más interesante es que trata “lip sync” y “estabilidad en video largo” dentro del mismo framework. Muchos modelos de avatares se ven bien en clips cortos, pero al generar varios segmentos empiezan a sufrir drift de identidad, repetición de movimientos o inestabilidad corporal. LongCat-Video-Avatar-1.5 declara esos problemas como objetivos de optimización.&lt;/p&gt;
&lt;h2 id=&#34;qué-conviene-vigilar&#34;&gt;Qué conviene vigilar
&lt;/h2&gt;&lt;p&gt;Primero, no es un modelo alojado directamente disponible en Hugging Face Inference Providers. La página indica que no está desplegado por ningún Inference Provider, así que usarlo de verdad requiere preparar entorno, descargar pesos y ejecutar el código de LongCat-Video.&lt;/p&gt;
&lt;p&gt;Segundo, el despliegue local no es ligero. Los ejemplos usan &lt;code&gt;torchrun --nproc_per_node=2&lt;/code&gt; y &lt;code&gt;context_parallel_size=2&lt;/code&gt;, y dependen de PyTorch, FlashAttention, ffmpeg, librosa y varios pesos de modelo. Incluso con cuantización INT8, encaja mejor con usuarios que tienen un entorno GPU potente.&lt;/p&gt;
&lt;p&gt;Tercero, el video de avatares implica imagen personal, voz, privacidad y seguridad de contenido. La model card recuerda que los desarrolladores deben evaluar precisión, seguridad y equidad, además de cumplir las leyes y regulaciones aplicables sobre protección de datos, privacidad y seguridad de contenido. Al generar una persona real o videos comerciales, autorización y cumplimiento importan más que el resultado visual.&lt;/p&gt;
&lt;p&gt;Cuarto, no conviene tratar los fragmentos genéricos de Hugging Face sobre “Diffusers/Transformers” como el flujo completo de inferencia de este proyecto. La inferencia real de avatar debe seguir el repositorio LongCat-Video y los ejemplos &lt;code&gt;run_demo_avatar_*&lt;/code&gt; de la model card.&lt;/p&gt;
&lt;h2 id=&#34;resumen&#34;&gt;Resumen
&lt;/h2&gt;&lt;p&gt;LongCat-Video-Avatar-1.5 es un modelo abierto de video de avatares que merece atención. No solo hace hablar a una cara: combina audio driving, consistencia de personaje, estabilidad en videos largos, audio multipersona e inferencia destilada dentro de un mismo framework.&lt;/p&gt;
&lt;p&gt;Si te interesan streamers virtuales, narración de e-commerce, videos educativos, personajes animados o conversación multipersona, vale la pena probarlo. Pero se parece más a un modelo para que equipos de investigación e ingeniería lo desplieguen y ajusten que a una herramienta web lista para usar. Para llevarlo a producción hacen falta cómputo, autorización de materiales, ajuste de prompts y un flujo de cumplimiento de contenido.&lt;/p&gt;
&lt;h2 id=&#34;referencias&#34;&gt;Referencias
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;LongCat-Video-Avatar-1.5 Hugging Face: &lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;LongCat-Video GitHub: &lt;a class=&#34;link&#34; href=&#34;https://github.com/meituan-longcat/LongCat-Video&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/meituan-longcat/LongCat-Video&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;LongCat-Video-Avatar-1.5 Technical Report: &lt;a class=&#34;link&#34; href=&#34;https://github.com/meituan-longcat/LongCat-Video&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/meituan-longcat/LongCat-Video&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        
    </channel>
</rss>
