看完米哈游43页论文,我终于看懂他们到底要拿AI做什么了
米哈游43页AI论文揭秘LPM模型:超越视频生成,打造实时交互AI角色,实现千人千面游戏体验。探索AI如何革新游戏NPC与虚拟直播!
米哈游近期发布的自研AI模型LPM,并未带来视觉层面的强烈冲击,却在业内收获极高评价。
啃完其43页技术论文后不难发现,这款模型的核心价值,早已超越普通AI视频生成范畴,更直指米哈游对未来游戏形态的终极构想。
这款AI模型的研发团队实力雄厚,核心成员童欣拥有20余年图形学与3D视觉深耕经验,曾爱玲则是AI视频生成领域的新锐研究者,二人带领团队直面AI视频领域的经典难题——表现力、实时推理与身份稳定性难以兼顾的困境,而米哈游的技术
目标,从一开始就与普通AI视频公司截然不同。
当前多数AI角色模型,本质只是让角色对口型念台词、生成基础表情,仅完成文本到画面的转化。LPM团队则提出核心观点:会说话不等于像人,真正的“人味儿”藏在倾听里。用户倾诉时需要的不是机械等待后的统一回复,而是倾诉过程中自然的情绪反馈、恰当的停顿、灵动的视线与微表情,这也是LPM命名为“大型表演模型”的原因,其目标从生成视频转向生成真实表演。
为实现这一目标,LPM彻底改写技术路线。它摒弃先写脚本再表演的模式,直接从音频信号学习视觉反应,让AI依据上一秒接收的信息即时生成反馈,更贴近人类真实的行为逻辑。
同时模型采用视频全双工设计,在数据层拆分说话与倾听行为,通过双音频输入分别建模,让角色可无缝切换说话与倾听状态,实现自然的实时流式互动。针对AI角色常见的身份一致性问题,LPM不再依赖单张参考图,而是加入多视角、多姿态参考信息,让模型在表演中持续对照,保证角色细节稳定。
技术落地层面,团队先打造170亿参数的BaseLPM,实现高质量可控的角色表演与时序一致性,再通过模型蒸馏得到OnlineLPM,兼顾低延迟与无限时长互动的稳定性,让实时交互AI角色、虚拟直播与游戏NPC的视觉引擎成为可能。这也是LPM演示画面看似不够惊艳的原因,它从不是单纯的视频生成工具,而是支撑实时交互AI的底层视觉能力。
米哈游的终极目标,是打造AI主导的千人千面游戏体验。传统游戏受限于生产成本,所有玩家体验高度趋同,而AI技术可以理解玩家行为,实时生成个性化内容。
LPM具备的实时表演生成、全双工对话、长期身份一致性等能力,正是实现这种下一代游戏形态的基础。从技术突破到交互革新,米哈游始终围绕“真实可互动的虚拟角色”前行,这也是其布局AI的核心逻辑。











