LongCat-Video-Avatar-1.5：美团开源音频驱动数字人视频模型

LongCat-Video-Avatar-1.5 是美团 LongCat 团队发布的音频驱动数字人视频生成模型。

项目地址：https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5

它面向的不是普通文生视频，而是“给一段语音和角色条件，生成会说话、动作稳定、身份一致的视频”。从模型卡看，它支持 Audio-Text-to-Video、Audio-Text-Image-to-Video 和 Video Continuation，也支持单路音频和多路音频输入。

截至写作时，Hugging Face 页面显示该模型采用 MIT License，标签包括 audio-text-to-video、audio-image-text-to-video、audio-driven-video-continuation、avatar 和 video-generation。

这次 1.5 版更新了什么

官方模型卡把 LongCat-Video-Avatar 1.5 描述为一个更偏生产可用的开源框架，目标是提升音频驱动人物视频生成的稳定性。

几个重点变化比较明确。

第一，音频编码器从 Wav2Vec2 换成了 Whisper-Large。官方说法是，这能带来更平滑、更自然的唇部动态。实际使用时，对口型同步要求高的场景，应该优先使用 --model_type avatar-v1.5。

第二，它强调长视频稳定性和身份一致性。数字人视频最怕两类问题：短片里嘴型对不上，长片里脸、身体、衣服和动作逐渐漂移。LongCat-Video-Avatar-1.5 的卖点之一，就是同时关注 lip sync、full-body temporal stability 和 identity consistency。

第三，它不只面向真人播报。模型卡提到它可以泛化到动漫、动物、多人互动、拿取物体等更复杂条件。这意味着它的应用范围不局限于新闻播报式数字人，也可以覆盖短剧、唱歌、电商口播、动画角色和动物角色。

第四，它提供 8-step 推理。官方提到通过 DMD2-based step distillation，把推理压到 8 NFE，用来平衡服务成本和画质。这对视频模型很关键，因为视频生成通常算力成本高，推理步数少会直接影响可部署性。

支持哪些任务

从模型卡和示例命令看，主要可以分成三类。

第一类是单人动画。

它支持从音频和文本生成视频，也支持从音频和图片生成视频。常见用途是给一段语音，让某个角色说话、表演或播报。

第二类是视频续写。

示例里通过 --num_segments=5、--ref_img_index=10、--mask_frame_range=3 等参数，让模型在已有角色条件下继续生成更长片段。这个能力适合长口播、课程讲解、唱歌和连续表演。

第三类是多人动画。

多人模式使用 run_demo_avatar_multi_audio_to_video.py，支持多路音频。模型卡里还说明了两种双音频模式：audio_type 设为 para 时是 merge mode，需要两段等长音频；设为 add 时是 concatenation mode，可以按顺序拼接两段音频，并用静音填充间隔。

安装和模型下载

官方推荐先克隆 LongCat-Video 仓库：

1
2


git clone --single-branch --branch main https://github.com/meituan-longcat/LongCat-Video
cd LongCat-Video

然后创建 Python 3.10 环境，并按 CUDA 版本安装 PyTorch。模型卡给出的 CUDA 12.4 示例是：

1
2
3


conda create -n longcat-video python=3.10
conda activate longcat-video
pip install torch==2.6.0+cu124 torchvision==0.21.0+cu124 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124

后续还需要安装 flash_attn==2.7.4.post1、项目依赖、librosa、ffmpeg 和 requirements_avatar.txt。模型卡说明，配置里默认启用 FlashAttention-2，也可以改成 FlashAttention-3 或 xformers。

模型权重可以用 huggingface-cli 下载：

1
2
3


pip install "huggingface_hub[cli]"
huggingface-cli download meituan-longcat/LongCat-Video --local-dir ./weights/LongCat-Video
huggingface-cli download meituan-longcat/LongCat-Video-Avatar-1.5 --local-dir ./weights/LongCat-Video-Avatar-1.5

这里要注意，它依赖两个权重目录：一个是 LongCat-Video 基础视频生成模型，另一个是 LongCat-Video-Avatar-1.5 数字人模型。

快速推理示例

单人 Audio-Text-to-Video 示例：

1

torchrun --nproc_per_node=2 run_demo_avatar_single_audio_to_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video-Avatar-1.5 --stage_1=at2v --input_json=assets/avatar/single_example_1.json --use_distill --model_type avatar-v1.5 --use_int8

单人 Audio-Image-to-Video 示例：

1

torchrun --nproc_per_node=2 run_demo_avatar_single_audio_to_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video-Avatar-1.5  --stage_1=ai2v --input_json=assets/avatar/single_example_1.json --use_distill --model_type avatar-v1.5 --use_int8

多人 Audio-Image-to-Video 示例：

1

torchrun --nproc_per_node=2 run_demo_avatar_multi_audio_to_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video-Avatar-1.5 --input_json=assets/avatar/multi_example_1.json --use_distill --model_type avatar-v1.5 --use_int8

这些命令有几个共同点：都使用 --model_type avatar-v1.5，都带 --use_distill，并且示例里都打开了 --use_int8。模型卡明确说，--use_distill 是使用 avatar-v1.5 时需要的选项；--use_int8 用于加载 INT8 量化 DiT 模型，降低显存占用，并且只支持 avatar-v1.5。

参数怎么调

模型卡给了几条实用建议。

如果口型同步不够好，可以调高 audio CFG。官方建议区间是 3 到 5，数值更高通常有利于同步。

Prompt 不要写得太短。更长、更具体的描述通常能带来更好的角色一致性和自然度。比如角色外观、动作、场景、衣着、表情都可以写进去。

如果出现重复动作，可以调整 --ref_img_index 和 --mask_frame_range。模型卡建议 --ref_img_index 在 0 到 24 之间更利于一致性，设为 30 有助于减少重复动作；增大 --mask_frame_range 也可能缓解重复，但过大可能引入伪影。

分辨率方面，模型兼容 480P 和 720P，可以通过 --resolution 控制。

适合哪些场景

官方预览覆盖了播报、表演、唱歌、电商营销、多人对话、动画和动物角色。

从实际用途看，它比较适合这些方向：

新闻播报、知识讲解、课程口播。
电商商品介绍和营销短视频。
虚拟主播、虚拟角色短剧、唱歌表演。
动漫或动物角色的音频驱动动画。
多人对话型数字人视频。

它最值得关注的点，是把“口型同步”和“长视频稳定”放在同一个框架里处理。很多数字人模型短片效果可以，但一旦拉长到多段生成，就容易出现身份漂移、动作重复、身体不稳。LongCat-Video-Avatar-1.5 明确把这些问题作为优化目标。

使用时要注意什么

第一，它不是 Hugging Face Inference Provider 上直接可用的托管模型。页面显示目前没有部署到 Inference Provider，实际使用需要自己准备环境、下载权重、运行 LongCat-Video 代码。

第二，本地部署门槛不低。示例命令使用 torchrun --nproc_per_node=2 和 context_parallel_size=2，依赖 PyTorch、FlashAttention、ffmpeg、librosa 和多份模型权重。即使有 INT8 量化，仍然更适合有较强 GPU 环境的用户。

第三，数字人视频涉及肖像、声音、隐私和内容安全。模型卡也提醒开发者需要自行评估准确性、安全性、公平性，并遵守数据保护、隐私和内容安全相关法律法规。用它生成真人形象或商业视频时，授权和合规比技术效果更重要。

第四，不要把模型卡里的通用 Hugging Face “Diffusers/Transformers 使用片段”当成本项目的完整推理方式。真正的 avatar 推理还是应该参考 LongCat-Video 仓库和模型卡里的 run_demo_avatar_* 示例。

小结

LongCat-Video-Avatar-1.5 是一个值得关注的开源数字人视频模型。它不只是做一张脸说话，而是把音频驱动、角色一致性、长视频稳定、多人音频和蒸馏推理放到同一个框架里。

如果你关注虚拟主播、电商口播、课程讲解、动画角色或多人对话视频，它值得测试。但它更像研究和工程团队可以部署调优的模型，不是开箱即用的网页工具。真正落地时，要同时准备算力、素材授权、提示词调参和内容合规流程。

参考资料

LongCat-Video-Avatar-1.5 Hugging Face：https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5
LongCat-Video GitHub：https://github.com/meituan-longcat/LongCat-Video
LongCat-Video-Avatar-1.5 Technical Report：https://github.com/meituan-longcat/LongCat-Video