AI 游戏进入“世界模型”时代，哪些创业项目最值得关注？

2026-06-08 16:23:56 神评论

17173 新闻导语

AI游戏进入世界模型时代，大厂与创业公司争相布局！Decart、Mirage、World Labs等最值得关注的项目，带你一探未来游戏新形态。

早在2024年底的时候，Decart放出了Oasis。

它的画面像《我的世界》，玩家能走路、跳跃、挖方块。但玩几分钟后，玩家就会发现不对劲。刚放下的土块，转身再回来，可能已经变了样；建筑边缘会融化，空间记忆也不稳定。

按传统游戏标准看，Oasis显然称不上“好玩”。但它刺激行业神经的地方在于：这个世界不是由传统引擎渲染出来的，而是AI根据玩家输入，一帧一帧“想”出来的。这就是过去一年多AI游戏圈最值得关注的新方向——世界模型。

世界模型不是帮开发者做游戏，而是让模型本身去模拟一个可交互的世界。玩家按下W，模型预测下一帧；玩家转向，模型补全视野外空间；玩家输入一句“让城市下雨”，场景开始改变。

这件事离成熟商业游戏还很远，但它已经足够重要。因为大厂、创业公司和资本，正在从不同方向挤进同一条赛道。

·大厂把参照系抬高了

世界模型最典型的案例是Google DeepMind的Genie 3。

相比早前Genie 2从图片生成可操作3D环境，Genie 3已经更接近“实时世界模型”：它可以根据文本生成动态环境，并允许用户以720p、约24FPS的方式实时探索，连续交互能维持数分钟，还支持通过提示词触发世界事件。

这意味着，世界模型正在往可持续、可干预的方向走。DeepMind对它的定位也很清楚，主要是为AI agent提供训练和评估环境。

微软的Muse/WHAM更贴近游戏产业。

它由Microsoft Research和Xbox旗下Ninja Theory合作，基于《Bleeding Edge》的真实玩家数据训练，输入包括游戏画面和手柄操作。微软已经公开了200M和1.6B参数版本权重、样本数据和演示工具；后续还推出了实时版本WHAM-RT，并接入Copilot Labs体验。

Muse的重点不在画质，而在方法论：游戏公司手里的玩法录像、玩家操作和反馈数据，未来可能反过来成为训练世界模型的燃料。

腾讯与多所高校合作研发的GameGen-X/GameGen-O则代表另一条线：围绕开放世界游戏视频做生成和控制。其OGameData数据集覆盖大量3A级游戏视频片段，模型目标是生成开放世界风格的游戏视频，并加入一定程度的交互控制。

它指向的是开放世界内容生产的老问题：角色、环境、事件这些高成本元素，能不能被模型批量生成和预演？

把大厂项目放在一起看，基本构成了世界模型在游戏里的三条主线：DeepMind关心可交互世界如何训练智能体；微软关心真实游戏数据如何反哺开发流程；腾讯关心开放世界内容如何被生成模型重做一遍。

创业公司的机会，也是在这些方向之间寻找更快落地的切口。

·Decart：最像“AI游戏”的一次尝试

目前最容易被玩家直接感知的项目，还是前面提到的Decart的Oasis。

Oasis学习的是《我的世界》：玩家输入动作，模型生成下一帧画面。它早期可以做到约20FPS的实时体验，并与AI芯片公司Etched合作，希望未来降低推理成本。

自2025年以来，Decart的融资也明显升温。

它最初以2100万美元种子轮出隐，随后完成3200万美元融资；最新公司官网和公开报道显示，Decart又宣布了3亿美元级别新融资，累计融资超过4.5亿美元（约合30亿人民币），并把业务从单一Oasis扩展到实时视频、沉浸式体验和物理AI相关世界模型。

它的问题仍然明显：分辨率、幻觉、空间一致性、操作反馈都远不如传统游戏。因为传统游戏是开发者写规则、做资产，引擎负责渲染和运行。

Oasis是模型看过大量游戏录像后，自己学会了一个近似的游戏世界。前者是确定性系统，后者是概率性模拟。如果可控性、记忆和成本逐步解决，游戏可能出现一种新形态——玩家走到哪里，世界就生成到哪里。

·Mirage：世界模型更可能先改造UGC

相比Oasis的偏技术展示，Dynamics Lab的Mirage更像在寻找产品入口。

Mirage的定位是AI原生UGC游戏引擎。早期版本展示过城市、赛车等场景，玩家可以移动，也能用文本指令改变世界。

到了Mirage 2，它进一步加入了“从图片生成可交互世界”的能力：用户上传照片、草图或概念图，就能进入一个可探索的实时场景，并继续用文字修改。

这个方向很接地气。UGC游戏最大的痛点，一直是把想象力落地太难。Roblox、Minecraft、UEFN已经把门槛降了很多，但创作者仍然需要理解编辑器、脚本这些规则。

如果Mirage这类产品能成立，未来创作方式可能变成：“给我一个雨夜城市，街道上有追逐战。”随后再不断补充：“把路变窄，增加霓虹灯和敌人，切成竞速玩法。”

在这个赛道，世界模型不需要一开始就取代完整引擎。只要能让创作者更快搭出一个可探索、可修改的空间，就已经有价值。

·World Labs、Odyssey：先把空间做好，再谈可玩性

另一类创业公司选择先解决世界长什么样、是否稳定，走追本溯源的硬核路线。

李飞飞创办的World Labs是这条线里最受关注的公司之一。

它主打Large World Models，也就是具备空间理解、生成和推理能力的大模型。2025年，World Labs推出了首个商业化产品Marble，可以从文字、图片、视频、全景图或粗略3D layout生成可编辑、可下载的3D世界，并支持导出Gaussian splats、mesh或视频。

2026年，World Labs又宣布完成10亿美元（约合68亿人民币）新融资，其中包括Autodesk的2亿美元投资，合作重点之一正是把世界模型接入3D创作工作流。

对游戏行业来说，World Labs的短期价值是改变场景生产流程。概念图、照片、文字描述，都可能变成一个可浏览、编辑的3D空间，再进入Unreal、Unity、Blender等传统游戏行业工具链。

https://www.worldlabs.ai/

Odyssey的路线更偏向现实世界。

团队有自动驾驶背景，使用自研360度采集设备获取真实世界数据。其Explorer可以从图片生成3D世界，并以Gaussian Splat等形式导入专业创作工具；后续Odyssey-2/Odyssey-2 Pro又把方向推进到更通用的世界模拟。

Odyssey还获得了NVentures、Samsung Next等投资，Pixar联合创始人Ed Catmull也加入董事会并投资。

所以这类公司提醒我们：世界模型不一定都要从实时可玩切入。因为在游戏生产里，可用的空间资产本身就是一个巨大需求。

·真正的壁垒，在数据和推理成本

世界模型听上去很梦幻，但落到产业里，最大的两个问题是数据和成本。

普通视频只能告诉模型画面变了，但游戏数据还能告诉模型为什么变了：玩家按了什么键、角色做了什么动作、系统给了什么反馈。这种“状态—动作—结果”的对应关系，对训练世界模型非常宝贵。

General Intuition是一个例子。

它由游戏短视频平台Medal孵化，2025年完成约1.337亿美元（约合9亿人民币）种子轮融资。Medal每年产生约20亿条游戏视频，覆盖数万款游戏。所以General Intuition不直接做AI游戏，但它想训练更懂空间、动作和因果关系的智能体，用在游戏NPC、无人机乃至机器人场景。

所以这类公司可以看作某种第三方供应链服务商。

再说成本。

实时生成视频，比传统渲染贵得多。一个玩家还好，如果要支撑成千上万人同时在线，成本就很难打平。因此，围绕底层推理和部署的公司也开始浮出水面。

Etched做专用AI芯片，希望降低Transformer推理成本；Overworld推出Waypoint-1，强调本地优先的实时扩散世界模型，试图让交互式世界在消费级GPU上运行；Reactor则在2026年带着5900万美元融资出隐，提供实时世界模型的SDK、API和部署平台，目标是把低延迟实时视频生成变成开发者能调用的基础设施。

它们不是游戏或者AI公司，却可能决定这个行业能不能从demo走向产品。