一半价格，一样能打！15人华人团队带着新模型，冲进了OpenAI和谷歌的牌局！

2026-05-10 16:30:42 神评论

17173 新闻导语

15人华人团队推出Uni-1.1模型，AI图像生成全球第三！价格仅为OpenAI和谷歌的一半，支持电影海报、漫画创作等场景，实测效果不输巨头。点击了解这款性价比超高的AI生图工具！

AI图像生成赛道，最近刚刚经历了一轮“王位易主”。

围绕着ChatGPT image 2和Nano Banana 2孰强孰弱的争论到现在为止没有停息过。一个是现任王者，一个是前代顶流，它们几乎占据了AI生图圈所有人的注意力。

也正因为如此，很少有人会把目光投向第三名。

因为在大哥和二哥忙于争斗的时候，榜单上其他选手看起来好像“群演”一样。

但是这回不一样。

榜单第三的位置上，突然出现了一个新玩家。

在真正介绍它之前，我们不妨先看几组网友的实测：

这是一组AI生成电影海报和视觉分镜的测试。

用户上传提示词后，AI开始构建“对于世界的想象”，生成完整的场景、合理的光影，以及不违和的氛围感。

给它一张简单草图，它也可以进一步还原成接近分镜效果图的画面。

▲ 用户希望：凌晨两点，我的房间，窗外正下着雨，玻璃上留着雨水打湿的反光，窗台上放着一杯咖啡。我独自坐在沙发上，身旁亮着一盏暖灯，氛围带着淡淡的孤独与空虚，室内是温暖的光线，不要把画面做得太暗。

到了视频创作相关场景里，它还能根据用户意愿，加入类似A24电影的影像风格。A24擅长中低成本独立电影，常常使用颗粒感更强、情绪更浓的胶片质感，而这个AI生成的画面，也能在一定程度上捕捉到这种风格特征。

它可以设计各式各样的动作契合场景。

从地铁、超市到街头巷尾... ...

相比过去需要反复描述角色细节的流程，现在用户只需要给出更少的提示词，它就能生成相对完整的角色设定图。

也可以让它直接生成带有韩日马克笔风格的角色海报。

甚至更进一步，它可以绕过传统的分镜、草图、上色流程，直接根据提示生成一集具备可读性的漫画。

下滑查看更多

再看一组测试：

用户似乎是一个时尚行业的版面设计师，他要求AI能理解他脑中关于人物应该在版面上的呈现效果而生成效果图。

令他惊喜的是，这个AI好像真的有在理解用户想要什么。

在建筑设计场景里，情况也类似。

设计师可以把一张草图直接转化成更接近成品的视觉方案，省去了以往对着电脑等渲染的十数杯咖啡的时间。

看到这里，如果我告诉你，以上这些案例都不是来自现任王者ChatGPT Image 2，也不是来自前代王者Nano Banana 2，你还会觉得它俩的实力真的不可替代吗？

这些图像，全部来自一款最近冲上榜单的新模型：Uni-1.1。

特别的是，它背后并不是一个传统意义上的巨头团队，而是一支不到15人、由华人领衔的研发团队。

在Arena.ai最新的图像生成盲测榜单上，Uni-1.1冲到了全球第三。排它前面的，恰好就是Image 2和Nano Banana 2。

换句话说，这款新模型没靠大厂血统，直接坐上了全球AI图像生成第一梯队牌桌。

关键，它还把价格打到了这两位对手的一半以下——2K单图最低0.04美元，成功变成了鹬蚌相争的那位渔翁。

一个全球前三、但更便宜的图像模型，生成效果却不输老牌巨头的新玩家，突然杀进了最激烈的AI图像生成赛道。

Uni-1.1能成为AI生图的代餐吗？

2026年5月6日，Luma AI宣布正式开放Uni-1.1 API。

▲ https://lumalabs.ai/uni-1

此举相当于把这个模型的能力封装成开发者可以直接调用的服务。

根据官方释出的信息，Uni-1具备常识性场景补全、空间推理和基于合理性的画面变换。

比如说要生成一张猫猫海报，它除了要确定主体物猫猫的动态以外，还会去考虑场景元素的搭配以及前后遮挡关系。

大家生图的时候一般都会把很多参考图提前喂给AI，你想的是AI能够完美地将元素融合，但是大多情况下导致生成结果你不满意就是因为“引导性”还不强，让出来的结果“拼凑感”很严重。

对此，AI处理图片的“可引导性”就变成了商业场景里最值钱的能力。

Uni-1支持参考图引导生成，你可以同时喂给它多张参考图——产品照、人物肖像、场景参考、品牌logo——模型会在语义层面理解这些素材之间的关系，而不是简单地把它们当贴图拼在一起。

还有一个就是AI得有文化，我记得当时聊Image 2那期就聊过。大家可以戳链接了解详情：GPT-image-2上线24小时，设计圈已经没人睡得着觉了

Luma官方特别强调Uni-1具备跨文化的视觉理解能力，覆盖不同美学风格、网络迷因、漫画语言等。

对于需要做多国本地化投放的全球品牌来说，这个能力直接对应着真金白银的效率提升，毕竟少拐几个弯，能节省数万的token。

三个维度背后，是一套与传统扩散模型不同的技术路线。（以下内容略微有一些深度）

Uni-1采用decoder-only自回归Transformer架构，让文本token和图像token在同一个序列里“共舞”。

翻译一下就是，同时看文看图，像人类看漫画一样，不用经过图文互转这一步。

API层面的体现就是两个端点，推理端点负责解构指令、规划构图、锁定品牌约束。生成端点负责在推理好的框架之上完成像素渲染。

它的价值在于把“创意可控性”这个原本是Prompt工程的“概率学”，变成一套可编程、可预测的生产级API契约。

那么，Uni-1.1究竟有没有实力替代掉AI生图双王呢？

我们可以看一些横向对比：

大家觉得如何呢？同样的提示词，Uni-1.1做到了2K单图最低0.04美元，并且别忘了，它是以第一代的身份，把价格压到同类的一半。

Luma模型产品经理Barkley Dai曾说：Luma现在是Arena.ai第三名了。GPT-Image 2级别的智能，Midjourney级别的审美，价格只有Nano Banana的零头。

所以，Uni-1.1 API的开放，补上了Luma整体创作链路中的一个关键环节。它提供了“画图”的强实力外，更是为下游的广告、电商、游戏等内容创作流水线，提供了一个能理解商业意图、并能稳定执行出图的“智能画笔”。

而Luma在它之上搭建的Luma Agents，就是使用这支画笔的“创意制片”。

一部AI预告片，暴露了Luma的野心

Uni-1.1 API在榜单上的排名和定价策略，已经让人初步感受到Luma的不俗实力。不过，数据终究只是参考，真正的表现如何，还是得看实测结果。

早在两个月前，AI影视区大佬PJ Ace，就用Luma Agent配合Seedance 2.0的制作了一支名叫《红色崛起》（Red Rising）的AI预告片，当时在社交媒体上引发了不少关注。（《红色崛起》是PJ最喜欢的科幻系列，销量超过200万）

作品欣赏

已关注

关注

重播分享赞

观看更多

wuhu动画人空间

0/0

00:00/02:41

进度条，百分之0

播放

00:00

02:41

倍速

全屏

倍速播放中

0.5倍 0.75倍 1.0倍 1.5倍 2.0倍

超清流畅

继续观看

一半价格，一样能打！15人华人团队带着新模型，冲进了OpenAI和谷歌的牌局！

转载

一半价格，一样能打！15人华人团队带着新模型，冲进了OpenAI和谷歌的牌局！

wuhu动画人空间

已同步到看一看写下你的评论

视频详情

具体是怎么操作的呢？（干货来了～）

他先把15页的书摘、自己写的剧本和镜头列表喂给 Luma Agent。

Agent开始干活，为每个主要角色生成30个外观选项，然后根据剧本创建场景参考图。

PJ再和Agent不断对话迭代：“用这个描述重新生成”“这个角度更好”“保持上一张场景的风格”... ...

他提到一种2x2分镜方法：一次Agent生成100张2x2的图片（也就是400张画面），从中选出最满意的几张，告诉Agent “裁剪并放大”。

为什么PJ钟意这种2x2分镜方法呢？他解释道：因为它保持了画幅内场景和角色的连续性，并且它会批量裁剪放大所有的图像，个人和团队可以快速、大批量地工作，效率也大大提升。

最后PJ选出核心镜头，送入Seedance 2.0，PJ会手动筛选、剪辑，形成一段高质量的片段。

▲ 提示词：

【风格】好莱坞科幻电影。整个镜头框架以缓慢、令人恶心的螺旋方式旋转360度，以匹配飞船的滚动。【时长】10秒角色：Darrow (@)：炭黑色重型机甲盔甲，金色头发在头盔关闭前可见。Sevro (@)：背景角色，粗犷的莫霍克发型，检查装备。Victra (@)：高大、凶猛的女性，穿着高科技战术装备。镜头动作：镜头1（锚定之吻）：中景镜头对准Darrow和Victra。当护卫舰开始进行剧烈的螺旋机动以躲避炮火时，重力发生变化。镜头开始旋转180度。Darrow和Victra被迫抓住一个液压蒸汽管和一个磁轨以保持直立。在旋转中，Victra拉着Darrow的胸甲，给了他一个坚定而绝望的吻。在背景中，Sevro可见地将靴子抵在地板上以防滑动。镜头2（冲击与面罩）：特写镜头。飞船遭受了巨大的动能撞击；剧烈的震动摇晃了镜头框架。Victra退后，她的脸被闪烁的红色闪光灯照亮，低声用英国口音说：“祝好运。”她抬手用力将Darrow的重金属头盔面罩砰的一声压下，发出响亮的机械声。就在面罩锁定的瞬间，另一声巨大的撞击震动了镜头，画面完成了360度旋转，陷入完全的混乱。

再然后PJ会逐场景地查看，并从之前的场景中获取图像参考，以匹配未来场景的相同外观。

这里他提醒，一定要保持画面序列有序排列，如果不按场景将序列分组，画布可能会变得杂乱。

PJ的办法是将它们按主场景和子场景分组，比如这里，主场景是人物在过桥，但子场景是人物在用喷火枪滋两个金色的角色。

▲ 这个与拉格纳战斗的序列是由100多个15秒的片段拼接而成的。PJ给了它两个参考：泰坦以巨大的力量和速度与每个人战斗。他获胜了。给我展示多个他胜利的电影风格的快速剪辑。手持摄像机。

PJ在分享时还提到一个有意思的细节，当时Luma还没有把Seedance集成进平台，但他猜测未来一旦API发布Luma很可能会这么做。（目前暂未）

他也说Luma Agent让图像编辑变得非常简单，PJ让它通过一个简单的提示添加不同的元素到他的展示中，比如这样：“给我展示图像2（保持相同的构图），但把图像1中的全息人放到图像2的全息屏幕中，给我10张照片。”相比原先，省去他不少工夫。

现在随着Uni-1.1 API的开放，Luma把Agent的底层图像能力标准化、可编程化带给了每一个人。

这个案例之所以重要，是因为它展示了Luma想做的事情不只是“再一个模型”，而是一个创作中枢，能记住设定，管理素材，调用模型，反复试错，最后把东西推进到能交付的状态。

那么问题来了，一个有这种野心的公司，和一支能做出Uni-1.1这种模型的15人团队，背后是什么样的故事？

15人华人领衔团队，凭什么杀进牌桌

要回答这个问题，得先聊聊Luma这家公司的来时路。

Luma AI成立于2021年，早期切的方向和OpenAI这些厂商不同，他们研究的是3D和神经渲染。

简单说，它从一开始关心的就不是“AI 怎么聊天”，而是“AI怎么理解和生成视觉世界”。这个基因决定了它之后所有的产品路线——无论是后来的视频、图像还是Agent，全部围绕视觉创作展开。

2024年6月，Luma发布了Dream Machine，一款AI视频生成模型。这是很多人第一次真正认识Luma。

在当时，Seedance系列还处在早期研发阶段，大伙使用的AI视频模型还存在很大的“幻觉问题”，但那个时候，Dream Machine生成的视频就有不错的调校。

从更好的电影镜头感，画面构图到光影过渡、镜头运动都更像一个“会拍片子”的模型，所以很快，Dream Machine迅速积累了超过2500万用户，也让Luma在AI视频赛道初步站稳。

但Luma没有满足于“又一个视频模型”的定位。

2025年，Luma完成9亿美元C轮融资，估值超过40亿美元。这笔钱没有全砸在训练更大的模型上，而是投向了一个更大的野心——把AI从“单个工具”变成“整套创作流程”。

2026年3月5日，这个野心有了第一个实体的落地形态——Luma Agent正式发布。

Luma Agent声称要让AI创作让普通人更能触手可及，TechCrunch（美国科技类博客）在当时报道里提到，Luma Agent能够调用Ray、Veo、Kling、Uni-1等多种模型，像个“不喊累的制片助理”一样，记住设定、管理素材、反复试错。

两个月后，也就是2026年5月5日，Uni-1.1 API开放。API提供数据和能力，Agent组织流程，两者配合，Luma想要打造的AI内容生产流水线至此闭环，这才是Luma这次引起轰动的底层原因。

聊完公司路线，再回头看那个不到15人的团队，就不觉得是"凭空冒出来"了。

Uni-1的核心研究团队由两位华人学者领衔：宋佳铭（Jiaming Song）和沈博魁（William Shen）。

宋佳铭，清华本科、斯坦福博士。他的代表作DDIM（Denoising Diffusion Implicit Models）是扩散模型采样加速的奠基性工作。如果要说清楚它的意义，用一个简单的比喻就够了：早期扩散模型出图慢，有点像“慢工出细活”，每一步都要反复计算；DDIM做的事情，就是让模型在尽量不牺牲画质的前提下，把出图速度提上来。这项技术被Stable Diffusion、DALL·E等主流系统广泛采用，是扩散模型走向实用化的关键一步。

沈博魁，斯坦福本科及博士。他的研究路径更偏视觉理解和物理世界。他参与的工作Taskonomy获得了CVPR 2018最佳论文奖，这项研究试图系统性地理解不同视觉任务之间的关系。简单说，就是让AI知道“识别一个物体”和“理解一个场景”之间到底有什么联系。此外，他在机器人、物体动态和视觉理解领域也有扎实积累。

两个人的组合很登对，一个更懂“怎么生成”，一个更懂“怎么理解世界”。

两位学者各自的研究底色让Uni-1.1冲榜前三不再是“15人小团队突然打败大厂”的爽文剧本。

确切的说法是：一家从视觉生成出发的公司，在积累了四年多的技术路线之后，恰好在图像生成这个节点上，由两位背景互补的华人学者带队，打出了一张让市场不得不关注的牌。