LongCat-Video-Avatar-1.5:美团开源音频驱动数字人视频模型

整理美团 LongCat 团队在 Hugging Face 发布的 LongCat-Video-Avatar-1.5:它面向音频驱动数字人视频生成,支持 AT2V、ATI2V、视频续写、单人和多人音频输入,并提供蒸馏推理与 INT8 量化选项。

LongCat-Video-Avatar-1.5 是美团 LongCat 团队发布的音频驱动数字人视频生成模型。

项目地址:https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5

它面向的不是普通文生视频,而是“给一段语音和角色条件,生成会说话、动作稳定、身份一致的视频”。从模型卡看,它支持 Audio-Text-to-Video、Audio-Text-Image-to-Video 和 Video Continuation,也支持单路音频和多路音频输入。

截至写作时,Hugging Face 页面显示该模型采用 MIT License,标签包括 audio-text-to-videoaudio-image-text-to-videoaudio-driven-video-continuationavatarvideo-generation

这次 1.5 版更新了什么

官方模型卡把 LongCat-Video-Avatar 1.5 描述为一个更偏生产可用的开源框架,目标是提升音频驱动人物视频生成的稳定性。

几个重点变化比较明确。

第一,音频编码器从 Wav2Vec2 换成了 Whisper-Large。官方说法是,这能带来更平滑、更自然的唇部动态。实际使用时,对口型同步要求高的场景,应该优先使用 --model_type avatar-v1.5

第二,它强调长视频稳定性和身份一致性。数字人视频最怕两类问题:短片里嘴型对不上,长片里脸、身体、衣服和动作逐渐漂移。LongCat-Video-Avatar-1.5 的卖点之一,就是同时关注 lip sync、full-body temporal stability 和 identity consistency。

第三,它不只面向真人播报。模型卡提到它可以泛化到动漫、动物、多人互动、拿取物体等更复杂条件。这意味着它的应用范围不局限于新闻播报式数字人,也可以覆盖短剧、唱歌、电商口播、动画角色和动物角色。

第四,它提供 8-step 推理。官方提到通过 DMD2-based step distillation,把推理压到 8 NFE,用来平衡服务成本和画质。这对视频模型很关键,因为视频生成通常算力成本高,推理步数少会直接影响可部署性。

支持哪些任务

从模型卡和示例命令看,主要可以分成三类。

第一类是单人动画。

它支持从音频和文本生成视频,也支持从音频和图片生成视频。常见用途是给一段语音,让某个角色说话、表演或播报。

第二类是视频续写。

示例里通过 --num_segments=5--ref_img_index=10--mask_frame_range=3 等参数,让模型在已有角色条件下继续生成更长片段。这个能力适合长口播、课程讲解、唱歌和连续表演。

第三类是多人动画。

多人模式使用 run_demo_avatar_multi_audio_to_video.py,支持多路音频。模型卡里还说明了两种双音频模式:audio_type 设为 para 时是 merge mode,需要两段等长音频;设为 add 时是 concatenation mode,可以按顺序拼接两段音频,并用静音填充间隔。

安装和模型下载

官方推荐先克隆 LongCat-Video 仓库:

1
2
git clone --single-branch --branch main https://github.com/meituan-longcat/LongCat-Video
cd LongCat-Video

然后创建 Python 3.10 环境,并按 CUDA 版本安装 PyTorch。模型卡给出的 CUDA 12.4 示例是:

1
2
3
conda create -n longcat-video python=3.10
conda activate longcat-video
pip install torch==2.6.0+cu124 torchvision==0.21.0+cu124 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124

后续还需要安装 flash_attn==2.7.4.post1、项目依赖、librosaffmpegrequirements_avatar.txt。模型卡说明,配置里默认启用 FlashAttention-2,也可以改成 FlashAttention-3 或 xformers。

模型权重可以用 huggingface-cli 下载:

1
2
3
pip install "huggingface_hub[cli]"
huggingface-cli download meituan-longcat/LongCat-Video --local-dir ./weights/LongCat-Video
huggingface-cli download meituan-longcat/LongCat-Video-Avatar-1.5 --local-dir ./weights/LongCat-Video-Avatar-1.5

这里要注意,它依赖两个权重目录:一个是 LongCat-Video 基础视频生成模型,另一个是 LongCat-Video-Avatar-1.5 数字人模型。

快速推理示例

单人 Audio-Text-to-Video 示例:

1
torchrun --nproc_per_node=2 run_demo_avatar_single_audio_to_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video-Avatar-1.5 --stage_1=at2v --input_json=assets/avatar/single_example_1.json --use_distill --model_type avatar-v1.5 --use_int8

单人 Audio-Image-to-Video 示例:

1
torchrun --nproc_per_node=2 run_demo_avatar_single_audio_to_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video-Avatar-1.5  --stage_1=ai2v --input_json=assets/avatar/single_example_1.json --use_distill --model_type avatar-v1.5 --use_int8

多人 Audio-Image-to-Video 示例:

1
torchrun --nproc_per_node=2 run_demo_avatar_multi_audio_to_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video-Avatar-1.5 --input_json=assets/avatar/multi_example_1.json --use_distill --model_type avatar-v1.5 --use_int8

这些命令有几个共同点:都使用 --model_type avatar-v1.5,都带 --use_distill,并且示例里都打开了 --use_int8。模型卡明确说,--use_distill 是使用 avatar-v1.5 时需要的选项;--use_int8 用于加载 INT8 量化 DiT 模型,降低显存占用,并且只支持 avatar-v1.5

参数怎么调

模型卡给了几条实用建议。

如果口型同步不够好,可以调高 audio CFG。官方建议区间是 3 到 5,数值更高通常有利于同步。

Prompt 不要写得太短。更长、更具体的描述通常能带来更好的角色一致性和自然度。比如角色外观、动作、场景、衣着、表情都可以写进去。

如果出现重复动作,可以调整 --ref_img_index--mask_frame_range。模型卡建议 --ref_img_index 在 0 到 24 之间更利于一致性,设为 30 有助于减少重复动作;增大 --mask_frame_range 也可能缓解重复,但过大可能引入伪影。

分辨率方面,模型兼容 480P 和 720P,可以通过 --resolution 控制。

适合哪些场景

官方预览覆盖了播报、表演、唱歌、电商营销、多人对话、动画和动物角色。

从实际用途看,它比较适合这些方向:

  • 新闻播报、知识讲解、课程口播。
  • 电商商品介绍和营销短视频。
  • 虚拟主播、虚拟角色短剧、唱歌表演。
  • 动漫或动物角色的音频驱动动画。
  • 多人对话型数字人视频。

它最值得关注的点,是把“口型同步”和“长视频稳定”放在同一个框架里处理。很多数字人模型短片效果可以,但一旦拉长到多段生成,就容易出现身份漂移、动作重复、身体不稳。LongCat-Video-Avatar-1.5 明确把这些问题作为优化目标。

使用时要注意什么

第一,它不是 Hugging Face Inference Provider 上直接可用的托管模型。页面显示目前没有部署到 Inference Provider,实际使用需要自己准备环境、下载权重、运行 LongCat-Video 代码。

第二,本地部署门槛不低。示例命令使用 torchrun --nproc_per_node=2context_parallel_size=2,依赖 PyTorch、FlashAttention、ffmpeg、librosa 和多份模型权重。即使有 INT8 量化,仍然更适合有较强 GPU 环境的用户。

第三,数字人视频涉及肖像、声音、隐私和内容安全。模型卡也提醒开发者需要自行评估准确性、安全性、公平性,并遵守数据保护、隐私和内容安全相关法律法规。用它生成真人形象或商业视频时,授权和合规比技术效果更重要。

第四,不要把模型卡里的通用 Hugging Face “Diffusers/Transformers 使用片段”当成本项目的完整推理方式。真正的 avatar 推理还是应该参考 LongCat-Video 仓库和模型卡里的 run_demo_avatar_* 示例。

小结

LongCat-Video-Avatar-1.5 是一个值得关注的开源数字人视频模型。它不只是做一张脸说话,而是把音频驱动、角色一致性、长视频稳定、多人音频和蒸馏推理放到同一个框架里。

如果你关注虚拟主播、电商口播、课程讲解、动画角色或多人对话视频,它值得测试。但它更像研究和工程团队可以部署调优的模型,不是开箱即用的网页工具。真正落地时,要同时准备算力、素材授权、提示词调参和内容合规流程。

参考资料

记录并分享
使用 Hugo 构建
主题 StackJimmy 设计