华为联合高校推出世界模型 WorldGrow:单卡 30 分钟生成 272㎡场景
华为联合高校推出WorldGrow世界模型,单卡30分钟生成272㎡超大3D场景,具备照片级真实感和智能导航,效率提升6倍!
AI 大 house 真来了。
华为联合上海交通大学、华中科技大学推出了世界模型 WorldGrow,可以生成 1800㎡超大室内场景(19x39 块),单卡 30 分钟就跑了 272㎡。

里面的虚拟人还能顺畅导航,不带迷路的。(小声说:大平层确实需要导航)

并且场景具备连贯的几何拓扑和照片级真实感外观,智能体的导航则是在复杂空间布局中自主规划路径。

这可以说是走到哪建到哪了,那场景是怎么搭的?
具备连贯的几何拓扑和照片级真实感外观
以前想造个像样的 3D 大场景,坑不少。
比如有些技术先靠 2D 模型画张图,再硬掰成 3D,结果换完视角一看,沙发腿歪了、墙壁纹理断了……
还有一些方法最多只能造单个房间,扩展成套房就卡壳;更离谱的是没有布局逻辑 —— 出现冰箱塞进卧室,床摆在厨房的情况。

现在,WorldGrow 来搞装修了(bushi),用三个核心技术填坑。

第一步是先做数据精准预处理,从 3D-FRONT 这类大规模数据集里提取优质样本,用 Blender 执行场景切片,通过布尔交集对场景进行区块切分,再靠 occupancy 检测确保区块内容密度(可见内容≥95%)。
同时,构建了粗、细两个数据集,粗块来确定宏观布局,细块保留纹理细节。
第二步靠 3D 块补全机制实现了无缝拼接,在生成新区块时,先让结构生成器确定 3D 结构框架,再让 latent 生成器重建结构化潜变量(SLAT)特征,保证外观风格统一。
并且,在输入模型时,会把带噪潜变量、补全区域二进制掩码、已掩码的已知区域特征打包融合,让模型依据现有区块的上下文信息精准生成,消除边缘断裂、纹理错位等拼接缝。
第三步是粗到精生成策略,把场景扩展变成了补全缺失块的任务。
先通过粗结构模型敲定整体规划,比如窗户朝向、走廊连接等布局;随后对粗结构进行三线性插值上采样,将分辨率匹配至细块级别,再调用细结构生成器补全家具、纹理等细节。

对比可以看出,WorldGrow 能够生成高分辨率、连续的室内场景,且场景具有真实且连贯的纹理。

实验数据显示,在 3D-FRONT 数据集上,它的几何重建指标 MMD、COV 均达 SOTA,FID(用于评估生成质量的核心指标,越低越优)低至 7.52,大幅优于 SynCity、BlockFusion 等主流方法;

即便扩展到 7×7 块的超大场景,边缘质量仍然稳定。

在效率上,单张 A100 显卡,30 分钟即可生成 10×10 区块(约 272㎡)的室内场景,速度是同类技术的 6 倍。

团队介绍
本文一作是来自上海交通大学的 Sikuang Li 和 Chen Yang,研究完成于他们在华为实习期间。
Chen Yang 目前仍为华为研究实习生,研究聚焦于计算机视觉和计算机图形学,导师之一就是这项研究的通讯作者、AI 大牛田奇。
田奇,华为终端 BG 首席科学家,国际欧亚科学院院士,ACM / IEEE Fellow。
- 1正惊GIF:有点嚣张了!颜值超绝美女两部手机太招摇,看呆旁边小伙
- 2《永劫无间》女解说被批“穿着暴露” 官方解决方案来了
- 3《Grand Theft Auto VI》开发商Rockstar证实第三方数据泄露事件中“少量非核心公司信息被访问”,黑客发出…
- 4滴滴自动驾驶 CEO 张博:十年积累,已实现 L4 级全栈核心技术的自主可控
- 5苹果部分配置 Mac mini / Mac Studio 在美国缺货,尚不明确是内存芯片短缺还是新品发布前兆
- 6明末题材新作《哀鸿》首周销量近 10 万但口碑两极分化,零创游戏嵇零致歉并承诺补救
- 7被浏览650万次的问题:有哪些很难安利的好游戏?
- 8腾讯的《王者荣耀世界》终于上线了,这游戏到底好玩吗?
- 98张地图4种玩法!《坦克世界:HEAT》内测于4月16日开启
- 10八年老厂轰然倒塌!韩国游戏公司破产,三款游戏同时停运


