微软这波杀疯了!一句话就能拿捏3D影视游戏资产了?
微软发布革命性AI模型TRELLIS.2!一句话生成可直接使用的3D游戏资产,支持PBR材质与复杂拓扑结构,开源免费下载体验!
最近,AI生成3D模型突然又“火”了起来。







大家可能刷到过吧?一张草图秒变带纹理的3D模型,手机拍个杯子就能在Blender里渲染,甚至有独立开发者用AI批量产出游戏道具,角色、武器、UI图标一应俱全。3D打印圈更是也已玩开,手办、建筑微缩、个性灯饰,效果相当能打。






▲ 图源:小红书

▲ 图源:数字生命卡兹克
但老手都清楚这些模型大多“可远观而不可亵玩焉”,放进游戏?拓扑乱、没法绑骨骼;做动画?容易穿模;进工业流程?材质没物理属性,光照一打就露馅。
直到最近,情况好像开始变了,微软亚洲研究院发布了新一代 3D生成模型TRELLIS.2——
0/0
继续观看
微软这波杀疯了!一句话就能拿捏3D影视游戏资产了?




▲ 输入图片,TRELLIS.2就可以输出一个细节丰富,比例协调的3D模型
消息一出,3D创作圈、游戏开发社区和技术论坛瞬间炸锅。不是因为参数多大、跑得多快,虽然这些本来也很香,而是大家终于敢问那个憋了好久的问题:这次生成的3D模型,是不是真的能用?
这问题太真实了,过去几年,3D AI确实没闲着,像腾讯混元这样的国产模型,也在不断推进技术边界,甚至被不少人视为国内3D生成领域的“扛把子”。

从一张图生成3D模型?从一段文字“召唤”三维物体?这些能力其实早就有了。

但问题在于,很多模型输出的3D,更像是“PPT里的概念图”,看着光鲜,一进引擎就露馅。结构松散、拓扑乱成一团、材质跟物理世界毫无关系……
渲染时还能糊弄一下,真要放进Unity、UE或者Blender里做项目?对不起,bug比功能还多。


▲ 以往生成3D模型会出现的缺漏或是错误
正因如此,3D AI一直处在一种尴尬的“高开低走”状态:看起来很未来,用起来很头疼。
而TRELLIS.2引发讨论的核心就在于它试图正面回应这些长期被回避的问题:几何是否闭合?结构是否可靠?材质是否具备真实物理属性?生成结果是否能直接进入下游使用?


在社交平台和技术论坛上,已经有开发者迫不及待地做了对比测试。
结果TRELLIS.2输出的模型不仅几何完整,连材质都“打包输出”,开箱即用的程度让人眼前一亮。


3D AI难道真的已经从“视觉演示”阶段,迈向“可用工具”阶段?TRELLIS.2到底什么来头?这次小编就和大家一起一探究竟!

01

先进3D AI背后的“东方力量”
TRELLIS.2是微软研究院(Microsoft Research)不久前开源发布的一款大型3D生成AI模型,旨在生成具有任意拓扑结构和丰富材质属性的高分辨率 3D 资产,从而进一步减轻开发者在预处理阶段的负担。

该模型具备约40亿参数(4B),以稀疏体素(O-Voxel)为核心表示方式,能够提供完整的PBR物理渲染材质 —— 也就是贴合现实物理规律的专业材质,生成的三维资产可直接用于各类专业渲染或影视、游戏的引擎制作流程中。而这些材质属性,正是让 3D 内容在引擎或渲染工具中呈现出逼真光影效果的关键。

不像有些模型只管“捏个形状”,TRELLIS.2则是把几何结构和材质属性放在同一个流程里生成,还能处理那些让传统算法抓狂的复杂结构。
这些细节,恰恰是过去AI生成3D最常翻车的地方。



TRELLIS.2的研发主要集中在微软亚洲研究院(Microsoft Research Asia)内部,该机构长期在计算机视觉、图形学与生成式 AI 领域开展深度研究。
这只研发团队中多位核心开发者都是来自亚洲的科学家,其中大部分还是来自我国的顶尖技术人才。

▲ TRELLIS.2模型的技术论文
比如你可能听说过的杨蛟龙博士——微软亚洲研究院首席研究员,专注3D视觉与空间智能多年,正是TRELLIS.2技术路线的灵魂人物之一。

整个团队还联合了国内多所高校与研究所的一线力量,在3D大模型领域默默“卷”了好几年,才换来今天的成果。

从官方文献和技术博客的叙述来看,这支团队在模型底层表示机制、压缩机制与几何材质联合建模策略上做了系统性的技术重构。这也是为什么TRELLIS.2的技术路线在业内获得关注的一个重要原因。



TRELLIS.2 生成效果(上)与其他 3D 模型生成效果(下)
微软亚洲研究院发布的效果对比
更友好的是,TRELLIS.2完全开源!研究者和开发者可以自由下载、测试,甚至商用集成(只要遵守许可协议)。
社区也迅速行动起来像ComfyUI插件、Docker镜像纷纷上线,哪怕没有部署本地,也能调用接口跑起来试试手感。

▲ TRELLIS.2云端部署版本https://huggingface.co/spaces/microsoft/TRELLIS.2
大家可以登陆这个网站亲自动手,步骤非常简单,将图片拖入窗口调试就可以啦。

02

TRELLIS.2到底“新”在哪?
在2D图像生成已经卷成红海的今天,3D生成依然是块硬骨头。
一、为什么传统3D生成会受限呢?
这是因为绝大多数早期的 3D 生成技术,都是靠场表述(Field-Based Representation)—— 也就是 SDF、NeRF 这类隐式函数 —— 来为物体“捏出” 3D 立体的几何形状。
它们本质上是在用数学“猜”物体表面在哪里,适合表现封闭、连续、流形的物体。

但现实世界哪有那么多完美气球?一片飘动的树叶个镂空的椅子、两个零件交错的机械结构……这些开放、非流形、带内部空间的物体,场表示一碰就懵,要么生成厚得离谱的“假结构”,要么直接崩掉。

因为场表示天然要求“水密结构”,即物体必须是封闭的几何壳层才能有明确的内部/外部定义。一旦几何结构不满足封闭假设,就容易失真或生成错误几何。

更别说材质了,传统纹理处理往往是后期拼合式,先生成一个白模,再通过图像投影等方式贴上纹理,如果不严谨考虑到结构变化则容易导致贴图错位、模糊或偏差。
传统3D生成结果中,我们常见到这样的症状:表面看起来像个三维物体,但细看内部、边缘和薄结构时却充满瑕疵。
TRELLIS.2正是在试图系统性地解决这些长期存在的现实难点,让AI知道,为什么这里是这样长的,这里为什么要“转弯”。

TRELLIS.2 生成的有皮质布料且带有褶皱的物体
二、O-Voxel,给AI一个“立体像素大脑”

▲ 官方发布的O-Voxel原理示意图,及3D资源与O-Voxels之间的即时双向转换
据官方介绍,之所以能实现如今的高精度,得益于TRELLIS.2引入了称为O-Voxel(Omni-Voxel) 的稀疏体素结构。这种结构与传统体素或场方法不同,是一种“非场(field-free)”稀疏体素表示,可同时描述几何与材质属性,并且更好地支持复杂拓扑的表达。

▲ 官方释出的O-Voxel通俗解释图
你可以把它理解为“更聪明的立体像素”,它不仅能描述形状,还能同时编码材质;在细节多的地方自动加密分辨率,空白区域则保持稀疏,高效又精准。


这包括了支持任意拓扑结构,包括开放表面、非流形几何和内部空间;在细节丰富的区域自动提高表示分辨率,在空白区域保持简洁,从而更高效。
这一点在生成复杂对象时尤其明显,例如树叶、玻璃与透明结构,以及零件穿插的嵌套几何等,它们不是“闭合壳体”,传统场方法通常会把这些结构误生成成“多层厚体”或错误几何。TRELLIS.2的O-Voxel则能在生成时保持形状细节与结构一致性。


三、物理材质与真实表现
另一项长期困扰3D生成的难点是材质表现。传统3D生成算法往往只输出形状,然后再用后处理方式贴上纹理,这种贴图式生成本质上是“渲染层的拼合”,导致
材质与几何对齐不精确,特别是在复杂内部结构或遮挡区域;光照驱动的材质反应缺乏物理一致性。


TRELLIS.2在这一点上做了不同的设计:几何与材质同时生成,并直接输出支持PBR(Physically Based Rendering,基于物理渲染)的完整材质管道,包括了:基础色、粗糙度、金属度以及透明度。


这种同步式表达让3D模型在光照环境下的表现更加真实:金属表面可以呈现反光、布料表现漫反射,而透明物体可以根据视角与光照显现通透度。这样的生成结果其实更适合直接进入渲染过程,无需额外手动烘焙或修正材质。
通俗地说,这次AI建模就是模型和贴图同步生成,不用先建白模,再生成对应的贴图,并且在导出的时候能一并将模型和贴图打包输出,相比传统工程,大大节省了时间。



其中,这次在透明度上的体现无疑是大家最期待的,国外有博主在第一时间测评了。
这位叫Stefan 3D AI Lab的油管博主,将一张透明的鱼缸图片喂给AI。


但是,如图所示,他得到的并不是一个带有透明度贴图的三维模型,从官方发布的使用报告可以得知,这是因为,文件默认以不透明的模式导出。

▲ 在GitHub上关于TRELLIS.2使用的报告
将模型先下载后,在blender中打开,着色器里将Alpha通道连接到对应的输入口。



然后就可以看到这个模型的透明效果了。


TRELLIS.2在透明材质上的处理表现令人眼前一亮。基于团队对 O-Voxel技术的深入研究,AI生成3D模型的材质表现力相较以往实现了明显提升,细节与真实感都有了新的突破。


除此以外,生成模型的速度也就显得很重要,毕竟如果只提升了质,没有提速的话,在生产中反而会拖后腿。
从社区与官方公开的数据来看,TRELLIS.2在高端 GPU(如 NVIDIA H100)上的生成效率,512³分辨率:约3秒;1024³分辨率:约17秒;1536³分辨率:约60秒。

▲ 官方给出的输出时间
这样分级,一方面,TRELLIS.2让40亿参数的大模型不至于因为显存过高而无法实际运算,另一方面,它使得生成质量与细节表现也能够在多种分辨率上实现兼顾。
当然,除了种种新升级,在开发者社区的讨论中,也出现了一些对比与反馈,例如在Reddit等论坛上有用户指出,TRELLIS.2的几何与纹理生成效果相对传统模型有提升,但在生产级的拓扑干净度、艺术级别可控度等方面仍有提升空间。


单图输入仍是主要模式,多视角输入尚未全面支持;缺乏自动骨骼(rigging)与动画支持,对动态人物或骨骼驱动的资产仍需后续处理;在本地部署时对显存要求仍较高,某些社区测试显示运行高分辨率生成至少需要16GB以上GPU内存。
这些限制说明TRELLIS.2虽已在许多关键技术上取得突破,但仍属于生成工具进入工程级应用的初期阶段,未来仍有进一步发展空间。
下滑查看更多
▲ Trellis.2 AI 3D模型:全面问题解答
03

3D AI的赛道,才刚刚起跑
如果把过去两年生成式AI的发展画成一条曲线,图像与文本模型已经明显进入商业化阶段,而3D AI则更像是刚刚开始抬头的“第二条曲线”。


首先,维度复杂性决定了3D的技术门槛远高于2D。
2D生成是对像素分布的学习,而3D不仅要理解形状,还得搞懂空间关系、遮挡逻辑、拓扑连续性,以及材质与光的物理互动。任何一个环节掉链子,模型就“废了”。


其次,高质量3D数据太稀缺。
相比互联网中海量、天然配对的文本和图像数据,结构干净、拓扑规范、材质完整的3D资产本就昂贵,且往往存在版权与格式不统一的问题。这导致很多研究只能在合成数据上“闭门造车”,泛化能力自然就受限。
从这个角度看,近几年来3D AI的活跃,并不是突然爆发,而是底层算力、表示方法和工程经验积累到一定程度后的结果。


在这一轮3D AI技术推进中,TRELLIS.2并非唯一受到关注的模型。不同团队选择了不同的技术切口,也反映出3D生成尚未形成统一范式。
在这轮浪潮中,TRELLIS.2并非孤例。国产团队也在发力——比如Hyper3D推出的Rodin Gen-2(Deemos)。

▲ https://hyper3d.ai/


公开资料显示,Rodin Gen-2 在SIGGRAPH 2025上亮相,并获得了业界的高度关注。与Trellis.2不同,Rodin更关注从 RGB图像中恢复场景结构与组成关系,强调空间层级与组件逻辑。
1月24日,负责研发的Hyper3D团队公布了Rodin Gen-2 Edit“文字 / 图像生成 3D”AI 模型,拓展了创作自由度。

如果从更加宏观的生态视角来看,可以将当前部分代表性模型放在同一张“功能地图”中理解:

需要注意的是,这些模型目前都处在快速迭代阶段。无论是资产级还是场景级方案,都尚未形成真正意义上的“行业标准”。实际效果、适用范围与成本,仍高度依赖具体使用场景与算力条件。

3D AI正在从“方向探索”走向“路径分化”
当前3D AI领域呈现出一个清晰趋势:从早期的“能不能生成”,转向“生成出来能做什么”。

TRELLIS.2的价值,在于它代表了“资产可用性”这一方向的阶段性成果;而Rodin Gen-2等国产模型,则从更宏观的空间与结构层面,探索3D AI的另一种可能性。
TRELLIS.2以开源姿态降低‘可用3D资产’的生产门槛,其意义或许不止于又一个高效工具。它更可能触动一场生产关系的‘稀疏化’变革:,未来,一个独立游戏开发者、一个小型工作室,能否凭借此类工具,挑战过去只有大厂才能驾驭的3A级资产质量?当高质量3D生成不再是垄断资源,创意是否会从管线化的工业流程中解放,催生出更分布式、更依托社区协作的创作新模式?这不仅是技术的竞赛,更是创作生态的演进。
在这一阶段,与其急于判断“谁会胜出”,不如更关注哪些模型,正在真正靠近创作流程与生产链条。
这,或许才是3D AI下一阶段竞争的核心。

