LongCat-Video-Avatar-1.5 是美团 LongCat 团队发布的音频驱动数字人视频生成模型。
项目地址:https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5
它面向的不是普通文生视频,而是“给一段语音和角色条件,生成会说话、动作稳定、身份一致的视频”。从模型卡看,它支持 Audio-Text-to-Video、Audio-Text-Image-to-Video 和 Video Continuation,也支持单路音频和多路音频输入。
截至写作时,Hugging Face 页面显示该模型采用 MIT License,标签包括 audio-text-to-video、audio-image-text-to-video、audio-driven-video-continuation、avatar 和 video-generation。
这次 1.5 版更新了什么
官方模型卡把 LongCat-Video-Avatar 1.5 描述为一个更偏生产可用的开源框架,目标是提升音频驱动人物视频生成的稳定性。
几个重点变化比较明确。
第一,音频编码器从 Wav2Vec2 换成了 Whisper-Large。官方说法是,这能带来更平滑、更自然的唇部动态。实际使用时,对口型同步要求高的场景,应该优先使用 --model_type avatar-v1.5。
第二,它强调长视频稳定性和身份一致性。数字人视频最怕两类问题:短片里嘴型对不上,长片里脸、身体、衣服和动作逐渐漂移。LongCat-Video-Avatar-1.5 的卖点之一,就是同时关注 lip sync、full-body temporal stability 和 identity consistency。
第三,它不只面向真人播报。模型卡提到它可以泛化到动漫、动物、多人互动、拿取物体等更复杂条件。这意味着它的应用范围不局限于新闻播报式数字人,也可以覆盖短剧、唱歌、电商口播、动画角色和动物角色。
第四,它提供 8-step 推理。官方提到通过 DMD2-based step distillation,把推理压到 8 NFE,用来平衡服务成本和画质。这对视频模型很关键,因为视频生成通常算力成本高,推理步数少会直接影响可部署性。
支持哪些任务
从模型卡和示例命令看,主要可以分成三类。
第一类是单人动画。
它支持从音频和文本生成视频,也支持从音频和图片生成视频。常见用途是给一段语音,让某个角色说话、表演或播报。
第二类是视频续写。
示例里通过 --num_segments=5、--ref_img_index=10、--mask_frame_range=3 等参数,让模型在已有角色条件下继续生成更长片段。这个能力适合长口播、课程讲解、唱歌和连续表演。
第三类是多人动画。
多人模式使用 run_demo_avatar_multi_audio_to_video.py,支持多路音频。模型卡里还说明了两种双音频模式:audio_type 设为 para 时是 merge mode,需要两段等长音频;设为 add 时是 concatenation mode,可以按顺序拼接两段音频,并用静音填充间隔。
安装和模型下载
官方推荐先克隆 LongCat-Video 仓库:
|
|
然后创建 Python 3.10 环境,并按 CUDA 版本安装 PyTorch。模型卡给出的 CUDA 12.4 示例是:
|
|
后续还需要安装 flash_attn==2.7.4.post1、项目依赖、librosa、ffmpeg 和 requirements_avatar.txt。模型卡说明,配置里默认启用 FlashAttention-2,也可以改成 FlashAttention-3 或 xformers。
模型权重可以用 huggingface-cli 下载:
|
|
这里要注意,它依赖两个权重目录:一个是 LongCat-Video 基础视频生成模型,另一个是 LongCat-Video-Avatar-1.5 数字人模型。
快速推理示例
单人 Audio-Text-to-Video 示例:
|
|
单人 Audio-Image-to-Video 示例:
|
|
多人 Audio-Image-to-Video 示例:
|
|
这些命令有几个共同点:都使用 --model_type avatar-v1.5,都带 --use_distill,并且示例里都打开了 --use_int8。模型卡明确说,--use_distill 是使用 avatar-v1.5 时需要的选项;--use_int8 用于加载 INT8 量化 DiT 模型,降低显存占用,并且只支持 avatar-v1.5。
参数怎么调
模型卡给了几条实用建议。
如果口型同步不够好,可以调高 audio CFG。官方建议区间是 3 到 5,数值更高通常有利于同步。
Prompt 不要写得太短。更长、更具体的描述通常能带来更好的角色一致性和自然度。比如角色外观、动作、场景、衣着、表情都可以写进去。
如果出现重复动作,可以调整 --ref_img_index 和 --mask_frame_range。模型卡建议 --ref_img_index 在 0 到 24 之间更利于一致性,设为 30 有助于减少重复动作;增大 --mask_frame_range 也可能缓解重复,但过大可能引入伪影。
分辨率方面,模型兼容 480P 和 720P,可以通过 --resolution 控制。
适合哪些场景
官方预览覆盖了播报、表演、唱歌、电商营销、多人对话、动画和动物角色。
从实际用途看,它比较适合这些方向:
- 新闻播报、知识讲解、课程口播。
- 电商商品介绍和营销短视频。
- 虚拟主播、虚拟角色短剧、唱歌表演。
- 动漫或动物角色的音频驱动动画。
- 多人对话型数字人视频。
它最值得关注的点,是把“口型同步”和“长视频稳定”放在同一个框架里处理。很多数字人模型短片效果可以,但一旦拉长到多段生成,就容易出现身份漂移、动作重复、身体不稳。LongCat-Video-Avatar-1.5 明确把这些问题作为优化目标。
使用时要注意什么
第一,它不是 Hugging Face Inference Provider 上直接可用的托管模型。页面显示目前没有部署到 Inference Provider,实际使用需要自己准备环境、下载权重、运行 LongCat-Video 代码。
第二,本地部署门槛不低。示例命令使用 torchrun --nproc_per_node=2 和 context_parallel_size=2,依赖 PyTorch、FlashAttention、ffmpeg、librosa 和多份模型权重。即使有 INT8 量化,仍然更适合有较强 GPU 环境的用户。
第三,数字人视频涉及肖像、声音、隐私和内容安全。模型卡也提醒开发者需要自行评估准确性、安全性、公平性,并遵守数据保护、隐私和内容安全相关法律法规。用它生成真人形象或商业视频时,授权和合规比技术效果更重要。
第四,不要把模型卡里的通用 Hugging Face “Diffusers/Transformers 使用片段”当成本项目的完整推理方式。真正的 avatar 推理还是应该参考 LongCat-Video 仓库和模型卡里的 run_demo_avatar_* 示例。
小结
LongCat-Video-Avatar-1.5 是一个值得关注的开源数字人视频模型。它不只是做一张脸说话,而是把音频驱动、角色一致性、长视频稳定、多人音频和蒸馏推理放到同一个框架里。
如果你关注虚拟主播、电商口播、课程讲解、动画角色或多人对话视频,它值得测试。但它更像研究和工程团队可以部署调优的模型,不是开箱即用的网页工具。真正落地时,要同时准备算力、素材授权、提示词调参和内容合规流程。
参考资料
- LongCat-Video-Avatar-1.5 Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5
- LongCat-Video GitHub:https://github.com/meituan-longcat/LongCat-Video
- LongCat-Video-Avatar-1.5 Technical Report:https://github.com/meituan-longcat/LongCat-Video