LongCat-Video-Avatar-1.5 是美團 LongCat 團隊發布的音訊驅動數位人影片生成模型。
專案地址:https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5
它面向的不是普通文生影片,而是「給一段語音和角色條件,生成會說話、動作穩定、身分一致的影片」。從模型卡看,它支援 Audio-Text-to-Video、Audio-Text-Image-to-Video 和 Video Continuation,也支援單路音訊和多路音訊輸入。
截至寫作時,Hugging Face 頁面顯示該模型採用 MIT License,標籤包括 audio-text-to-video、audio-image-text-to-video、audio-driven-video-continuation、avatar 和 video-generation。
這次 1.5 版更新了什麼
官方模型卡把 LongCat-Video-Avatar 1.5 描述為一個更偏生產可用的開源框架,目標是提升音訊驅動人物影片生成的穩定性。
幾個重點變化比較明確。
第一,音訊編碼器從 Wav2Vec2 換成了 Whisper-Large。官方說法是,這能帶來更平滑、更自然的唇部動態。實際使用時,對口型同步要求高的場景,應該優先使用 --model_type avatar-v1.5。
第二,它強調長影片穩定性和身分一致性。數位人影片最怕兩類問題:短片裡嘴型對不上,長片裡臉、身體、衣服和動作逐漸漂移。LongCat-Video-Avatar-1.5 的賣點之一,就是同時關注 lip sync、full-body temporal stability 和 identity consistency。
第三,它不只面向真人播報。模型卡提到它可以泛化到動漫、動物、多人互動、拿取物體等更複雜條件。這意味著它的應用範圍不局限於新聞播報式數位人,也可以覆蓋短劇、唱歌、電商口播、動畫角色和動物角色。
第四,它提供 8-step 推理。官方提到透過 DMD2-based step distillation,把推理壓到 8 NFE,用來平衡服務成本和畫質。這對影片模型很關鍵,因為影片生成通常算力成本高,推理步數少會直接影響可部署性。
支援哪些任務
從模型卡和示例命令看,主要可以分成三類。
第一類是單人動畫。
它支援從音訊和文字生成影片,也支援從音訊和圖片生成影片。常見用途是給一段語音,讓某個角色說話、表演或播報。
第二類是影片續寫。
示例裡透過 --num_segments=5、--ref_img_index=10、--mask_frame_range=3 等參數,讓模型在已有角色條件下繼續生成更長片段。這個能力適合長口播、課程講解、唱歌和連續表演。
第三類是多人動畫。
多人模式使用 run_demo_avatar_multi_audio_to_video.py,支援多路音訊。模型卡裡還說明了兩種雙音訊模式:audio_type 設為 para 時是 merge mode,需要兩段等長音訊;設為 add 時是 concatenation mode,可以按順序拼接兩段音訊,並用靜音填充間隔。
安裝和模型下載
官方推薦先 clone LongCat-Video 倉庫:
|
|
然後建立 Python 3.10 環境,並按 CUDA 版本安裝 PyTorch。模型卡給出的 CUDA 12.4 示例是:
|
|
後續還需要安裝 flash_attn==2.7.4.post1、專案依賴、librosa、ffmpeg 和 requirements_avatar.txt。模型卡說明,配置裡預設啟用 FlashAttention-2,也可以改成 FlashAttention-3 或 xformers。
模型權重可以用 huggingface-cli 下載:
|
|
這裡要注意,它依賴兩個權重目錄:一個是 LongCat-Video 基礎影片生成模型,另一個是 LongCat-Video-Avatar-1.5 數位人模型。
快速推理示例
單人 Audio-Text-to-Video 示例:
|
|
單人 Audio-Image-to-Video 示例:
|
|
多人 Audio-Image-to-Video 示例:
|
|
這些命令有幾個共同點:都使用 --model_type avatar-v1.5,都帶 --use_distill,並且示例裡都開啟了 --use_int8。模型卡明確說,--use_distill 是使用 avatar-v1.5 時需要的選項;--use_int8 用於載入 INT8 量化 DiT 模型,降低顯存占用,並且只支援 avatar-v1.5。
參數怎麼調
模型卡給了幾條實用建議。
如果口型同步不夠好,可以調高 audio CFG。官方建議區間是 3 到 5,數值更高通常有利於同步。
Prompt 不要寫得太短。更長、更具體的描述通常能帶來更好的角色一致性和自然度。比如角色外觀、動作、場景、衣著、表情都可以寫進去。
如果出現重複動作,可以調整 --ref_img_index 和 --mask_frame_range。模型卡建議 --ref_img_index 在 0 到 24 之間更利於一致性,設為 30 有助於減少重複動作;增大 --mask_frame_range 也可能緩解重複,但過大可能引入偽影。
解析度方面,模型相容 480P 和 720P,可以透過 --resolution 控制。
適合哪些場景
官方預覽覆蓋了播報、表演、唱歌、電商行銷、多人對話、動畫和動物角色。
從實際用途看,它比較適合這些方向:
- 新聞播報、知識講解、課程口播。
- 電商商品介紹和行銷短影片。
- 虛擬主播、虛擬角色短劇、唱歌表演。
- 動漫或動物角色的音訊驅動動畫。
- 多人對話型數位人影片。
它最值得關注的點,是把「口型同步」和「長影片穩定」放在同一個框架裡處理。很多數位人模型短片效果可以,但一旦拉長到多段生成,就容易出現身分漂移、動作重複、身體不穩。LongCat-Video-Avatar-1.5 明確把這些問題作為優化目標。
使用時要注意什麼
第一,它不是 Hugging Face Inference Provider 上直接可用的託管模型。頁面顯示目前沒有部署到 Inference Provider,實際使用需要自己準備環境、下載權重、執行 LongCat-Video 程式碼。
第二,本地部署門檻不低。示例命令使用 torchrun --nproc_per_node=2 和 context_parallel_size=2,依賴 PyTorch、FlashAttention、ffmpeg、librosa 和多份模型權重。即使有 INT8 量化,仍然更適合有較強 GPU 環境的使用者。
第三,數位人影片涉及肖像、聲音、隱私和內容安全。模型卡也提醒開發者需要自行評估準確性、安全性、公平性,並遵守資料保護、隱私和內容安全相關法律法規。用它生成真人形象或商業影片時,授權和合規比技術效果更重要。
第四,不要把模型卡裡的通用 Hugging Face “Diffusers/Transformers 使用片段”當成本專案的完整推理方式。真正的 avatar 推理還是應該參考 LongCat-Video 倉庫和模型卡裡的 run_demo_avatar_* 示例。
小結
LongCat-Video-Avatar-1.5 是一個值得關注的開源數位人影片模型。它不只是做一張臉說話,而是把音訊驅動、角色一致性、長影片穩定、多人音訊和蒸餾推理放到同一個框架裡。
如果你關注虛擬主播、電商口播、課程講解、動畫角色或多人對話影片,它值得測試。但它更像研究和工程團隊可以部署調優的模型,不是開箱即用的網頁工具。真正落地時,要同時準備算力、素材授權、提示詞調參和內容合規流程。
參考資料
- LongCat-Video-Avatar-1.5 Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5
- LongCat-Video GitHub:https://github.com/meituan-longcat/LongCat-Video
- LongCat-Video-Avatar-1.5 Technical Report:https://github.com/meituan-longcat/LongCat-Video