米哈游原神之父再放大招!蔡浩宇的AI公司发布首个视频大模型,主打高一致性视频角色表演生成
米哈游创始人蔡浩宇AI公司发布全球首个高一致性视频角色表演生成模型LPM 1.0,解决游戏角色僵硬问题,实现实时表情动作生成,颠覆游戏开发模式!

提到蔡浩宇,所有玩游戏的人都不陌生——米哈游的创始人,是《原神》《崩坏》系列的幕后大佬,正是他,让我们看到了国产游戏的崛起,也让我们沉浸在一个个精彩的游戏世界里。

自从跨界扎进了AI领域,在新加坡创办了Anuttacon公司,专门做AI交互式内容和AGI产品研发,而且去年就已经发售了首款AI游戏《星之低语》。当地时间4月9日,他的公司又放出了一个大招——正式发布全球首个高一致性视频角色表演生成模型LPM 1.0。

这个LPM 1.0模型,到底跟我们玩游戏有什么关系?简单说,它能让游戏里的角色,变得和真人一样有情绪、有动作,彻底告别“僵硬感”和“重复感”。

根据Anuttacon团队在arXiv发布的论文,LPM 1.0模型拥有170亿参数,采用的是扩散Transformer架构,这种架构的优势的就是,能统一处理角色的空间、时间和条件信息,让生成的角色视频更清晰、更连贯、更稳定。
论文里还提到,现在的视频生成模型,都面临一个“表演三难”的问题——很难同时做到高表现力、实时推理和长时稳定性。比如有的模型能生成表情自然的角色,但生成速度特别慢,要等好几分钟;有的模型生成速度快,但角色播着播着就“变脸”,特别出戏;还有的模型能保持稳定,但表情和动作都很僵硬,没有灵魂。


而LPM 1.0,就完美解决了这个“三难”问题。它能根据文本、参考图片或视频,生成具有连贯动作和表现力的角色视频,而且所有过程都是实时的——也就是说,你输入指令,下一秒就能看到生成的视频。更重要的是,它能保持角色身份的稳定,不管生成多久的视频,角色的脸、发型、穿着都不会变,表情和动作也特别自然。
除此之外,这个模型还能和ChatGPT、豆包等AI模型即插即用。这意味着,以后游戏里的NPC,不仅能跟你实时对话,还能有对应的表情和动作——你跟它说开心的事,它会笑着回应;你跟它说难过的事,它会露出心疼的表情,再也不是那个只会念固定台词的“工具人”了。

而且,这个模型的应用场景特别广,除了游戏NPC,还能用于虚拟主播、游戏陪伴、教育辅导等领域。比如以后做游戏直播,虚拟主播能实时跟观众互动,表情和动作比现在自然太多;玩家自己也能通过这个模型,生成自己喜欢的游戏角色视频,不用再依赖专业的剪辑和动作捕捉工具。
不过,目前这个LPM 1.0模型,只供非商业学术使用,暂无计划对外发布模型权重、源代码、在线演示等服务,也不会开源。但这将是一个革命性的突破。
从《原神》到AI大模型,蔡浩宇一直都在突破自我,也一直在推动游戏行业的进步。这可能将会彻底颠覆未来的游戏开发模式,让游戏创作变得更高效、更简单。



