LongCat-Video-Avatar-1.5：美團開源音訊驅動數位人影片模型

LongCat-Video-Avatar-1.5 是美團 LongCat 團隊發布的音訊驅動數位人影片生成模型。

專案地址：https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5

它面向的不是普通文生影片，而是「給一段語音和角色條件，生成會說話、動作穩定、身分一致的影片」。從模型卡看，它支援 Audio-Text-to-Video、Audio-Text-Image-to-Video 和 Video Continuation，也支援單路音訊和多路音訊輸入。

截至寫作時，Hugging Face 頁面顯示該模型採用 MIT License，標籤包括 audio-text-to-video、audio-image-text-to-video、audio-driven-video-continuation、avatar 和 video-generation。

這次 1.5 版更新了什麼

官方模型卡把 LongCat-Video-Avatar 1.5 描述為一個更偏生產可用的開源框架，目標是提升音訊驅動人物影片生成的穩定性。

幾個重點變化比較明確。

第一，音訊編碼器從 Wav2Vec2 換成了 Whisper-Large。官方說法是，這能帶來更平滑、更自然的唇部動態。實際使用時，對口型同步要求高的場景，應該優先使用 --model_type avatar-v1.5。

第二，它強調長影片穩定性和身分一致性。數位人影片最怕兩類問題：短片裡嘴型對不上，長片裡臉、身體、衣服和動作逐漸漂移。LongCat-Video-Avatar-1.5 的賣點之一，就是同時關注 lip sync、full-body temporal stability 和 identity consistency。

第三，它不只面向真人播報。模型卡提到它可以泛化到動漫、動物、多人互動、拿取物體等更複雜條件。這意味著它的應用範圍不局限於新聞播報式數位人，也可以覆蓋短劇、唱歌、電商口播、動畫角色和動物角色。

第四，它提供 8-step 推理。官方提到透過 DMD2-based step distillation，把推理壓到 8 NFE，用來平衡服務成本和畫質。這對影片模型很關鍵，因為影片生成通常算力成本高，推理步數少會直接影響可部署性。

支援哪些任務

從模型卡和示例命令看，主要可以分成三類。

第一類是單人動畫。

它支援從音訊和文字生成影片，也支援從音訊和圖片生成影片。常見用途是給一段語音，讓某個角色說話、表演或播報。

第二類是影片續寫。

示例裡透過 --num_segments=5、--ref_img_index=10、--mask_frame_range=3 等參數，讓模型在已有角色條件下繼續生成更長片段。這個能力適合長口播、課程講解、唱歌和連續表演。

第三類是多人動畫。

多人模式使用 run_demo_avatar_multi_audio_to_video.py，支援多路音訊。模型卡裡還說明了兩種雙音訊模式：audio_type 設為 para 時是 merge mode，需要兩段等長音訊；設為 add 時是 concatenation mode，可以按順序拼接兩段音訊，並用靜音填充間隔。

安裝和模型下載

官方推薦先 clone LongCat-Video 倉庫：

1
2


git clone --single-branch --branch main https://github.com/meituan-longcat/LongCat-Video
cd LongCat-Video

然後建立 Python 3.10 環境，並按 CUDA 版本安裝 PyTorch。模型卡給出的 CUDA 12.4 示例是：

1
2
3


conda create -n longcat-video python=3.10
conda activate longcat-video
pip install torch==2.6.0+cu124 torchvision==0.21.0+cu124 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124

後續還需要安裝 flash_attn==2.7.4.post1、專案依賴、librosa、ffmpeg 和 requirements_avatar.txt。模型卡說明，配置裡預設啟用 FlashAttention-2，也可以改成 FlashAttention-3 或 xformers。

模型權重可以用 huggingface-cli 下載：

1
2
3


pip install "huggingface_hub[cli]"
huggingface-cli download meituan-longcat/LongCat-Video --local-dir ./weights/LongCat-Video
huggingface-cli download meituan-longcat/LongCat-Video-Avatar-1.5 --local-dir ./weights/LongCat-Video-Avatar-1.5

這裡要注意，它依賴兩個權重目錄：一個是 LongCat-Video 基礎影片生成模型，另一個是 LongCat-Video-Avatar-1.5 數位人模型。

快速推理示例

單人 Audio-Text-to-Video 示例：

1

torchrun --nproc_per_node=2 run_demo_avatar_single_audio_to_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video-Avatar-1.5 --stage_1=at2v --input_json=assets/avatar/single_example_1.json --use_distill --model_type avatar-v1.5 --use_int8

單人 Audio-Image-to-Video 示例：

1

torchrun --nproc_per_node=2 run_demo_avatar_single_audio_to_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video-Avatar-1.5  --stage_1=ai2v --input_json=assets/avatar/single_example_1.json --use_distill --model_type avatar-v1.5 --use_int8

多人 Audio-Image-to-Video 示例：

1

torchrun --nproc_per_node=2 run_demo_avatar_multi_audio_to_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video-Avatar-1.5 --input_json=assets/avatar/multi_example_1.json --use_distill --model_type avatar-v1.5 --use_int8

這些命令有幾個共同點：都使用 --model_type avatar-v1.5，都帶 --use_distill，並且示例裡都開啟了 --use_int8。模型卡明確說，--use_distill 是使用 avatar-v1.5 時需要的選項；--use_int8 用於載入 INT8 量化 DiT 模型，降低顯存占用，並且只支援 avatar-v1.5。

參數怎麼調

模型卡給了幾條實用建議。

如果口型同步不夠好，可以調高 audio CFG。官方建議區間是 3 到 5，數值更高通常有利於同步。

Prompt 不要寫得太短。更長、更具體的描述通常能帶來更好的角色一致性和自然度。比如角色外觀、動作、場景、衣著、表情都可以寫進去。

如果出現重複動作，可以調整 --ref_img_index 和 --mask_frame_range。模型卡建議 --ref_img_index 在 0 到 24 之間更利於一致性，設為 30 有助於減少重複動作；增大 --mask_frame_range 也可能緩解重複，但過大可能引入偽影。

解析度方面，模型相容 480P 和 720P，可以透過 --resolution 控制。

適合哪些場景

官方預覽覆蓋了播報、表演、唱歌、電商行銷、多人對話、動畫和動物角色。

從實際用途看，它比較適合這些方向：

新聞播報、知識講解、課程口播。
電商商品介紹和行銷短影片。
虛擬主播、虛擬角色短劇、唱歌表演。
動漫或動物角色的音訊驅動動畫。
多人對話型數位人影片。

它最值得關注的點，是把「口型同步」和「長影片穩定」放在同一個框架裡處理。很多數位人模型短片效果可以，但一旦拉長到多段生成，就容易出現身分漂移、動作重複、身體不穩。LongCat-Video-Avatar-1.5 明確把這些問題作為優化目標。

使用時要注意什麼

第一，它不是 Hugging Face Inference Provider 上直接可用的託管模型。頁面顯示目前沒有部署到 Inference Provider，實際使用需要自己準備環境、下載權重、執行 LongCat-Video 程式碼。

第二，本地部署門檻不低。示例命令使用 torchrun --nproc_per_node=2 和 context_parallel_size=2，依賴 PyTorch、FlashAttention、ffmpeg、librosa 和多份模型權重。即使有 INT8 量化，仍然更適合有較強 GPU 環境的使用者。

第三，數位人影片涉及肖像、聲音、隱私和內容安全。模型卡也提醒開發者需要自行評估準確性、安全性、公平性，並遵守資料保護、隱私和內容安全相關法律法規。用它生成真人形象或商業影片時，授權和合規比技術效果更重要。

第四，不要把模型卡裡的通用 Hugging Face “Diffusers/Transformers 使用片段”當成本專案的完整推理方式。真正的 avatar 推理還是應該參考 LongCat-Video 倉庫和模型卡裡的 run_demo_avatar_* 示例。

小結

LongCat-Video-Avatar-1.5 是一個值得關注的開源數位人影片模型。它不只是做一張臉說話，而是把音訊驅動、角色一致性、長影片穩定、多人音訊和蒸餾推理放到同一個框架裡。

如果你關注虛擬主播、電商口播、課程講解、動畫角色或多人對話影片，它值得測試。但它更像研究和工程團隊可以部署調優的模型，不是開箱即用的網頁工具。真正落地時，要同時準備算力、素材授權、提示詞調參和內容合規流程。

參考資料

LongCat-Video-Avatar-1.5 Hugging Face：https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5
LongCat-Video GitHub：https://github.com/meituan-longcat/LongCat-Video
LongCat-Video-Avatar-1.5 Technical Report：https://github.com/meituan-longcat/LongCat-Video