被称为“AI教母”的华裔女科学家,这次又掀起了一场关于AI空间智能的革命
AI教母李飞飞突破空间智能!Marble模型用一句话生成3D世界,颠覆传统创作。探索AI从二维到三维的跨越,开启元宇宙新纪元。
wuhu快报

文 | _2nd.
继00后华裔少女创立的AI影视工作室
预售收入1.1亿美元震撼好莱坞!
几天不见
又一华裔科学家为我们带来新的技术突破!
从初至异国生活拮据到研究不被认可
再到如今的AI女神
当大家目光都聚焦在那些大型语言模型上的时候
她的团队又掀起了一场关于AI空间智能的革命
你敢相信吗?
仅凭一句话或一张照片
你就可以成为虚拟空间的造物主
当AI成为世界的建构者
我们是否身处于楚门的世界当中?
全新AI模型 Marble
由美籍华裔科学家
斯坦福大学教授、“AI教母”李飞飞
创立的World Labs公司于近日正式发布
该模型通过单张图片或文本提示
即可生成持久存在、
几何一致且风格多样的3D世界
彻底改变了传统3D内容生成的局限性
实现了空间智能领域的里程碑式突破!
01
Marble与Genie3有何区别
Marble和我们之前提到的由谷歌推出的AI软件、“实时交互”的世界模型Genie 3略有不同。
简单来说,相较于Genie3那种强调交互、实时生成的视频模型,Marble更关注空间结构本身的合理性与关联性。
Marble能在十分钟内快速搭建出一个可探索的立体空间——你可以在里面自由行走、观察,这个空间拥有真实的物理结构,不像普通视频那样只是平面画面叠加。
虽然说目前还处于早期阶段,它生成的更像是个“空间框架”:画面不够精细,局部会有模糊感,也缺少光影变化或像水流动、物体碰撞这类物理互动效果,但在技术上的突破程度依旧备受业界关注。

谷歌DeepMind的Genie 3则走了另一条技术路线——它更关注“空间里会发生什么”。
通过文字提示,它能生成会动起来的场景,以每秒24帧、720p的清晰度持续运行好几分钟,更像是个“能互动的物理世界模拟器”。
而Marble最大的价值在于则从空间维度去探索世界生成,在空间合理性和物理关联上开了一个新口子。
或许,一个真正完整的虚拟世界,需要两者结合:既要有稳定连贯的空间,也要有动态交互的逻辑。如果说Genie 3代表的是“身临其境”的互动感,Marble则提供的是“眼见为实”的真实感。
02
Marble 的独特之处
Marble模型的独特之处就在于,可以将各种风格的输入转化为3D世界,从平面、色彩鲜明的卡通到逼真、细节丰富的图像,让用户能够不断探索和尝试,找到最契合自己需求的3D世界。

它就像是生成式AI里专门“造3D世界”的高手,比如你想把一张卡通画变成能走进去、转着看的3D场景,或者把写实照片变成奇幻风格的3D空间,它也都能轻松搞定。
模型支持从扁平卡通到超写实、赛博朋克等十余种风格转换,通版、奇幻版、彩色版三个完全不同但风格统一的版本,不会出现画风混乱的情况。
在技术上,基于扩散模型架构,Marble可生成无时间限制、支持自由探索的3D场景。其几何结构复杂度远超传统点云或深度图技术,能做出完整的环境,比如能“穿墙”看里面的隐藏空间,还能把多个场景无缝连起来,变成超级大的世界。
通过开源Spark渲染库,把特殊的图像数据直接变成网页能用的格式,这样在电脑、手机和VR眼镜上都能快速加载,加载速度比以前快了40%以上。

从World Labs放出的官方博客中,我们可以看到更详细的技术细节。
无论是输入一张图片还是一段文字提示,Marble 都能生成一个3D世界,提供给用户无限制地探索 —— 没有时间限制、没有形变、没有不一致性。
与此前成果相比,现在生成的3D世界规模更大、风格更多样化、几何结构也更为干净。

Marble让用户可以浏览和构建3D世界。爱好者和开发者还可以将生成的世界导出为高斯点云,并在下游项目中加以使用。
这在开源渲染库Spark的支持下尤为方便,它能够将高斯点云无缝集成进Three.js,用于构建基于Web的3D体验,并能高效地在桌面电脑、笔记本电脑、移动设备和VR头显上运行。

由Marble生成的3D世界支持用户在浏览器中进行自由视角的导航,且完全零成本。
相比深度图或点云所提供的有限3D体验,Marble所生成的世界具备更丰富的几何复杂度,能够生成更完整的3D场景,使用户可以从输入视角的背后或更远处进行探索。
03
为什么说Marble实现了AI技术的跨越
按照以上逻辑,我们不难发现,从感知到认知,从静态到动态,现在AI的发展正在从“单点突破”转向“系统重构”,而其核心变化之一便是生成式AI向世界模型进化。
简单区分一下,生成式AI与世界模型之间的区别:
比如我们熟知的GPT、DALL-E等,这些AI主要功能是根据输入生成新的内容,如文本、图像,此为生成式AI。而世界模型则更进一步,它们试图理解和模拟现实世界的运作方式,可能包括物理规律、因果关系、动态交互等。
前者解决“是什么”的问题,后者解决“为什么”和“如何运行”的问题。
世界模型对具身智能特别重要,具身智能就是让机器人或系统能在真实环境里感知、做决定、行动和学习。世界模型就是帮它们理解物理规律,提前模拟和规划,比如机器人怎么移动、怎么避开障碍。
而Marble模型正是这种转变的典型例子——它不仅生成3D世界,还能“理解”这个世界的形状、风格和互动规则。比如知道墙后面有什么,不同风格怎么统一,甚至能模拟动态交互。

这标志着AI从“看二维画面”到“懂三维世界”的跨越,为元宇宙、具身智能等前沿领域奠定关键技术基石。
04
World Labs的背后,众星云集
2024年3月,美籍华裔科学家李飞飞创立World Labs,专注研发能“理解三维物理世界”的AI模型——大世界模型,让AI像人一样感知空间位置、物体关系及动态交互。
该公司大牛云集,由李飞飞领衔,联合创始人涵盖实时风格转换技术发明者Justin Johnson、可微分渲染器Pulsar创始人Christoph Lassner及神经辐射场联合提出者Ben Mildenhall,成员多来自斯坦福、MIT等顶尖学府,汇聚计算机视觉领域顶尖人才。
李飞飞本人是一位出生于北京书香家庭的70后,父亲为工程师、母亲为教师。小学时随父母迁居成都,1992年(16岁)恰逢 “出国潮”,移居到了美国新泽西州的一个小镇上,进入当地的高中就读,但因为英语能力有限,李飞飞刚入学时便需要面临沟通难题,父母亲也因语言不通,只能选择相机维修员和超市收银员这样的工作,家庭收入与生活质量远不及国内中产水平。深知父母不易的她,迅速克服语言障碍,一边打工一边学习,还曾借钱开洗衣店补贴家用。1995年,她以全校前列的成绩考入普林斯顿大学物理学专业,并获全额奖学金。当时的新闻报道
1999年毕业之际,李飞飞在 “继续学业研究” 与 “入职华尔街解决家庭经济困境” 间抉择,最终在家人支持与自身对科研的向往中,决定一条路走到“黑”:2005年,李飞飞获加州理工学院电子工程博士学位,后于伊利诺伊大学厄巴纳 - 香槟分校任教一年。2007年,她任普林斯顿大学计算机科学系助理教授,同年联合发起ImageNet项目 —— 该项目日后成为人脸识别等AI技术的重要基石。2009年,李飞飞加入斯坦福大学,2012年升任终身副教授,2013-2018年任该校人工智能实验室主任。2017年休假期间,她出任谷歌副总裁兼云首席科学家,推动成立 Google AI 中国中心并倡导 “AI 平民化”;后因谷歌与美国国防部合作引发争议,于2018年重返斯坦福,此后还担任多项要职并入选多个院士机构。2024年,她与多位同僚联合成立了World Labs。
World Labs如今的使命是推动“空间智能”发展,使AI具备理解空间的能力,这与李飞飞长期规划的计算机视觉三大方向——具身智能(让AI在真实环境中行动学习)、视觉推理(从画面推导信息)、场景理解(把握空间整体逻辑)一脉相承。

成立仅四月,这家初创公司便迅速获得市场认可,估值超10亿美元,获A16Z、恩颐投资等顶级风投及Jeff Dean、Geoffrey Hinton等科技界重量级人物个人投资,总融资超2亿美元,这一点也充分体现市场对空间智能与世界模型技术的信心。
其实在李飞飞博士曾经的一处采访中,她就曾表达过自己想要研发这种AI模型的出发点在于,她认为语言其实是对现实世界信息的一种有损压缩,就好像我们如果想让他人了解一个特复杂的东西,与其用嘴去描述,不如让对方直接看一眼来得清楚。

虽然会有人认为语言才是体现人类智慧的核心,但我们同样无法否认,我们大脑里处理空间信息的部分其实是非常古老且高效的,这一点也体现出了空间想象力的重要性。
05
World Labs的愿景与展望
就像World Labs在其官网页面所写的那样:
人类智能有很多方面。
一种是语言智能 ,使我们能够通过语言与他人交流和联系。但也许更根本的是空间智能 ,它使我们能够理解周围的世界并与之互动。
空间智能还帮助我们创造,并将我们脑海中的图片带入物理世界。我们用它来推理、移动和发明——从简陋的沙堡到高耸的城市,想象和建筑任何东西。
而为什么说研究三维是一件很有必要的事呢?答案也许在于我们生活的这个世界本身就是三维的,我们需在空间维度解决问题,如机器人训练、建筑设计等,而大世界模型为此打开了技术突破口。
想想看,我们能够生成无数个用途不一的三维数字世界。
有些数字场景可以专门用来训练机器人,让他们在安全的环境里先学习怎么跟物理世界打交道,这样既能减小成本,又能高效地去进行测试;
有些数字场景可以让建筑师实时验证空间设计方案,工业设计师可生成产品3D原型进行交互测试,独立开发者可快速搭建开放世界原型,如《塞尔达传说》式场景,将数月工作量压缩至几分钟,且支持动态缩放与隐藏细节探索。

而普通人也可以用它来创造自己的虚拟空间,搞点社交、虚拟旅行,甚至构思全新的互动故事。
基于以上畅想,一个真正意义上的多元宇宙的时代正在来临,虽然目前marble可能无法达到这样一个理想的高度,但不得不说,它的出现已经实现了从0到1的突破。
正如李飞飞所言:“这不仅是技术突破,更是人类与数字世界交互方式的革命。”
但Marble目前暂不支持动态物体(如人物、动物)生成,超大规模场景加载存在延迟,边缘区域细节偶有模糊。
即便如此,Marble的诞生标志着AI从“感知二维”向“理解三维”的跨越,其“生成即用”的特性正推动3D创作从专业工具向大众平台转型,为元宇宙、具身智能等前沿领域奠定关键技术基石。
这不仅是技术本身的问题,它很可能会深刻的改变机器人行业,还有创意产业的面貌,以及我们每一个人未来跟数字信息跟虚拟世界的互动方式。
也就是说,这样的AI模型一旦成熟起来,不仅能重建我们看到的世界,还能根据我们的想象去创造出以前根本不存在的全新的三维空间。
美好的展望固然让人心动,可我们却不得不去思考,如果说未来创造和进入这些虚拟世界变得像我们今天刷刷网页那么简单,那么及时,这又对我们的创造力边界,对我们的工作模式,甚至对我们关于真实和存在本身的理解会带来怎样的冲击呢?
EN




































