米哈游 LPM 1.0 解读：AI 视频模型如何重塑游戏 NPC

LPM 1.0 最容易被误解成又一个 AI 视频生成模型。只看演示，它未必像一些文生视频产品那样追求宏大的镜头调度和夸张的视觉冲击；但如果把它放回论文里的目标，就会发现它真正想解决的不是“生成一段好看的视频”，而是“让一个数字角色在互动中像是在场”。

这也是 LPM 1.0 和普通视频模型最大的区别。普通视频模型更关注画面质量、镜头连续性和文本指令还原；LPM 1.0 关注的是角色表演：说话时口型、节奏、表情要同步，倾听时也要有点头、视线、停顿和微表情，长时间互动中还要保持角色身份稳定。

从生成视频到生成表演

LPM 是 Large Performance Model，也就是大型表演模型。这个命名很重要，因为它把任务边界从“视频”改成了“表演”。

在真实对话里，一个人是否显得自然，并不只取决于他说了什么。很多时候，倾听本身就构成了交流：对方是否在合适的时候点头，眼神是否跟得上语境，表情是否随着情绪轻微变化，都会影响我们对“这个角色是否活着”的判断。

现有很多数字人方案，本质上仍是在把文本、语音和口型拼接到一个人物形象上。角色会说话，但不一定会听；能输出台词，但不一定能根据上一秒的输入做出连续反应。LPM 1.0 的目标，是把这种被动播报改造成实时互动。

LPM 1.0 论文把问题概括为 AI 角色表演里的三角矛盾：表现力、实时性和长时身份一致性。一个系统可以画面细腻但很慢，也可以响应很快但动作僵硬，或者短时间稳定但长时间后身份漂移。要同时做到三者，难度会明显上升。

为了解这个问题，LPM 1.0 采用了更复杂的角色条件输入。它不是只给模型一张参考图，而是引入多粒度身份参考，包括整体外观、多视角身体和多表情面部参考。这样做的目的，是减少模型对侧脸、牙齿、表情纹理、身体比例等细节的“脑补”，让角色在长时间生成中不容易变形。

论文中还区分了说话和倾听两类行为。说话音频主要驱动口型、语速、头部和身体节奏；倾听音频则更多触发视线、点头、姿态变化和微表情。如果把两类信号混在一起，模型很容易学乱。LPM 1.0 的思路是把 speaking 和 listening 分别建模，再在在线系统里把它们接到同一套互动流程里。

从公开论文看，LPM 1.0 的底座是一个 17B 参数的 Diffusion Transformer。Base LPM 负责学习高质量、可控、身份稳定的角色表演视频；Online LPM 则是经过蒸馏后的流式生成器，用来支撑低延迟、长时互动。

这个拆分很关键。离线模型可以追求质量，但互动场景不能让用户等很久。用户一开口，角色就应该开始“听”；角色开始说话时，口型、表情和身体动作也要立刻跟上。Online LPM 的价值，就在于把复杂的视频生成压缩到更接近实时交互的形态。

因此，LPM 1.0 不是单纯给创作者做短视频素材的工具。它更像是对话智能体、虚拟直播角色和游戏 NPC 的视觉引擎：语言模型负责理解和生成内容，语音模型负责声音，LPM 负责让屏幕里的角色以可信的方式“表演出来”。

如果把它放进游戏行业，LPM 1.0 指向的并不是更漂亮的过场动画，而是下一代可互动角色。

传统游戏里的 NPC，大多依赖预写脚本、固定动画和有限分支。玩家可以和它对话，但它对玩家的反馈通常是被设计好的。AI 时代的目标会更进一步：同一个世界观下，不同玩家可能获得不同故事线；同一个角色面对不同玩家，也能产生更贴合语境的动作、情绪和回应。

这就是“千人千面”游戏体验真正需要的底层能力。语言模型可以生成台词，行为系统可以决定目标，但如果角色在屏幕上的表现仍然僵硬，玩家很难相信它是一个正在理解自己的对象。LPM 1.0 试图补上的，正是这块视觉和表演层。

当然，LPM 1.0 目前更适合作为技术路线来理解，而不是马上等同于可大规模商用的完整产品。论文和演示证明了一种可能性：实时、全双工、身份稳定的角色视频生成正在接近可用状态。但真正进入游戏，还要解决成本、延迟、端侧部署、内容安全、角色版权、多人场景和引擎集成等问题。

更现实的落地路径，可能不是一上来替换所有 NPC，而是先进入虚拟主播、AI 陪伴、剧情互动、角色客服、教育陪练等单人角色场景。等模型成本下降、延迟进一步降低，再逐步进入更复杂的游戏系统。

LPM 1.0 的价值，不在于它能不能生成最惊艳的一段视频，而在于它把 AI 视频的目标从“画面生成”推向了“角色存在感”。

如果未来的游戏真的走向更个性化、更动态、更依赖 AI 角色的形态，那么语言、语音、动作、表情和身份一致性必须被合在一起考虑。LPM 1.0 提供的正是这样一条路线：让数字角色不只是会说话，而是能倾听、能反应，并在长时间互动中保持像同一个人。

参考链接：