米哈遊 LPM 1.0 解讀：AI 影片模型如何重塑遊戲 NPC

LPM 1.0 最容易被誤解成又一個 AI 影片生成模型。只看展示，它未必像一些文生影片產品那樣追求宏大的鏡頭調度和誇張的視覺衝擊；但如果把它放回論文裡的目標，就會發現它真正想解決的不是「生成一段好看的影片」，而是「讓一個數位角色在互動中像是在場」。

這也是 LPM 1.0 和普通影片模型最大的區別。普通影片模型更關注畫面品質、鏡頭連續性和文字指令還原；LPM 1.0 關注的是角色表演：說話時口型、節奏、表情要同步，傾聽時也要有點頭、視線、停頓和微表情，長時間互動中還要保持角色身份穩定。

從生成影片到生成表演

LPM 是 Large Performance Model，也就是大型表演模型。這個命名很重要，因為它把任務邊界從「影片」改成了「表演」。

在真實對話裡，一個人是否顯得自然，並不只取決於他說了什麼。很多時候，傾聽本身就構成了交流：對方是否在合適的時候點頭，眼神是否跟得上語境，表情是否隨著情緒輕微變化，都會影響我們對「這個角色是否活著」的判斷。

現有很多數位人方案，本質上仍是在把文字、語音和口型拼接到一個人物形象上。角色會說話，但不一定會聽；能輸出台詞，但不一定能根據上一秒的輸入做出連續反應。LPM 1.0 的目標，是把這種被動播報改造成即時互動。

LPM 1.0 論文把問題概括為 AI 角色表演裡的三角矛盾：表現力、即時性和長時身份一致性。一個系統可以畫面細膩但很慢，也可以回應很快但動作僵硬，或者短時間穩定但長時間後身份漂移。要同時做到三者，難度會明顯上升。

為了解決這個問題，LPM 1.0 採用了更複雜的角色條件輸入。它不是只給模型一張參考圖，而是引入多粒度身份參考，包括整體外觀、多視角身體和多表情面部參考。這樣做的目的，是減少模型對側臉、牙齒、表情紋理、身體比例等細節的「腦補」，讓角色在長時間生成中不容易變形。

論文中還區分了說話和傾聽兩類行為。說話音訊主要驅動口型、語速、頭部和身體節奏；傾聽音訊則更多觸發視線、點頭、姿態變化和微表情。如果把兩類訊號混在一起，模型很容易學亂。LPM 1.0 的思路是把 speaking 和 listening 分別建模，再在線上系統裡把它們接到同一套互動流程裡。

從公開論文看，LPM 1.0 的底座是一個 17B 參數的 Diffusion Transformer。Base LPM 負責學習高品質、可控、身份穩定的角色表演影片；Online LPM 則是經過蒸餾後的串流生成器，用來支撐低延遲、長時互動。

這個拆分很關鍵。離線模型可以追求品質，但互動場景不能讓使用者等很久。使用者一開口，角色就應該開始「聽」；角色開始說話時，口型、表情和身體動作也要立刻跟上。Online LPM 的價值，就在於把複雜的影片生成壓縮到更接近即時互動的形態。

因此，LPM 1.0 不是單純給創作者做短影片素材的工具。它更像是對話智能體、虛擬直播角色和遊戲 NPC 的視覺引擎：語言模型負責理解和生成內容，語音模型負責聲音，LPM 負責讓螢幕裡的角色以可信的方式「表演出來」。

如果把它放進遊戲產業，LPM 1.0 指向的並不是更漂亮的過場動畫，而是下一代可互動角色。

傳統遊戲裡的 NPC，大多依賴預寫腳本、固定動畫和有限分支。玩家可以和它對話，但它對玩家的反饋通常是被設計好的。AI 時代的目標會更進一步：同一個世界觀下，不同玩家可能獲得不同故事線；同一個角色面對不同玩家，也能產生更貼合語境的動作、情緒和回應。

這就是「千人千面」遊戲體驗真正需要的底層能力。語言模型可以生成台詞，行為系統可以決定目標，但如果角色在螢幕上的表現仍然僵硬，玩家很難相信它是一個正在理解自己的對象。LPM 1.0 試圖補上的，正是這塊視覺和表演層。

當然，LPM 1.0 目前更適合作為技術路線來理解，而不是馬上等同於可大規模商用的完整產品。論文和展示證明了一種可能性：即時、全雙工、身份穩定的角色影片生成正在接近可用狀態。但真正進入遊戲，還要解決成本、延遲、端側部署、內容安全、角色版權、多人場景和引擎整合等問題。

更現實的落地路徑，可能不是一上來替換所有 NPC，而是先進入虛擬主播、AI 陪伴、劇情互動、角色客服、教育陪練等單人角色場景。等模型成本下降、延遲進一步降低，再逐步進入更複雜的遊戲系統。

LPM 1.0 的價值，不在於它能不能生成最驚豔的一段影片，而在於它把 AI 影片的目標從「畫面生成」推向了「角色存在感」。

如果未來的遊戲真的走向更個性化、更動態、更依賴 AI 角色的形態，那麼語言、語音、動作、表情和身份一致性必須被合在一起考慮。LPM 1.0 提供的正是這樣一條路線：讓數位角色不只是會說話，而是能傾聽、能反應，並在長時間互動中保持像同一個人。

參考連結：