一半价格,一样能打!15人华人团队带着新模型,冲进了OpenAI和谷歌的牌局!
15人华人团队推出Uni-1.1模型,AI图像生成全球第三!价格仅为OpenAI和谷歌的一半,支持电影海报、漫画创作等场景,实测效果不输巨头。点击了解这款性价比超高的AI生图工具!
AI图像生成赛道,最近刚刚经历了一轮“王位易主”。
围绕着ChatGPT image 2和Nano Banana 2孰强孰弱的争论到现在为止没有停息过。一个是现任王者,一个是前代顶流,它们几乎占据了AI生图圈所有人的注意力。

也正因为如此,很少有人会把目光投向第三名。
因为在大哥和二哥忙于争斗的时候,榜单上其他选手看起来好像“群演”一样。


但是这回不一样。
榜单第三的位置上,突然出现了一个新玩家。
在真正介绍它之前,我们不妨先看几组网友的实测:

这是一组AI生成电影海报和视觉分镜的测试。
用户上传提示词后,AI开始构建“对于世界的想象”,生成完整的场景、合理的光影,以及不违和的氛围感。
给它一张简单草图,它也可以进一步还原成接近分镜效果图的画面。


▲ 用户希望:凌晨两点,我的房间,窗外正下着雨,玻璃上留着雨水打湿的反光,窗台上放着一杯咖啡。我独自坐在沙发上,身旁亮着一盏暖灯,氛围带着淡淡的孤独与空虚,室内是温暖的光线,不要把画面做得太暗。
到了视频创作相关场景里,它还能根据用户意愿,加入类似A24电影的影像风格。A24擅长中低成本独立电影,常常使用颗粒感更强、情绪更浓的胶片质感,而这个AI生成的画面,也能在一定程度上捕捉到这种风格特征。



它可以设计各式各样的动作契合场景。
从地铁、超市到街头巷尾... ...


相比过去需要反复描述角色细节的流程,现在用户只需要给出更少的提示词,它就能生成相对完整的角色设定图。





也可以让它直接生成带有韩日马克笔风格的角色海报。



甚至更进一步,它可以绕过传统的分镜、草图、上色流程,直接根据提示生成一集具备可读性的漫画。


下滑查看更多
再看一组测试:





用户似乎是一个时尚行业的版面设计师,他要求AI能理解他脑中关于人物应该在版面上的呈现效果而生成效果图。
令他惊喜的是,这个AI好像真的有在理解用户想要什么。

在建筑设计场景里,情况也类似。
设计师可以把一张草图直接转化成更接近成品的视觉方案,省去了以往对着电脑等渲染的十数杯咖啡的时间。





看到这里,如果我告诉你,以上这些案例都不是来自现任王者ChatGPT Image 2,也不是来自前代王者Nano Banana 2,你还会觉得它俩的实力真的不可替代吗?
这些图像,全部来自一款最近冲上榜单的新模型:Uni-1.1。
特别的是,它背后并不是一个传统意义上的巨头团队,而是一支不到15人、由华人领衔的研发团队。

在Arena.ai最新的图像生成盲测榜单上,Uni-1.1冲到了全球第三。排它前面的,恰好就是Image 2和Nano Banana 2。

换句话说,这款新模型没靠大厂血统,直接坐上了全球AI图像生成第一梯队牌桌。
关键,它还把价格打到了这两位对手的一半以下——2K单图最低0.04美元,成功变成了鹬蚌相争的那位渔翁。

一个全球前三、但更便宜的图像模型,生成效果却不输老牌巨头的新玩家,突然杀进了最激烈的AI图像生成赛道。
01

Uni-1.1能成为AI生图的代餐吗?
2026年5月6日,Luma AI宣布正式开放Uni-1.1 API。


▲ https://lumalabs.ai/uni-1
此举相当于把这个模型的能力封装成开发者可以直接调用的服务。
根据官方释出的信息,Uni-1具备常识性场景补全、空间推理和基于合理性的画面变换。
比如说要生成一张猫猫海报,它除了要确定主体物猫猫的动态以外,还会去考虑场景元素的搭配以及前后遮挡关系。


大家生图的时候一般都会把很多参考图提前喂给AI,你想的是AI能够完美地将元素融合,但是大多情况下导致生成结果你不满意就是因为“引导性”还不强,让出来的结果“拼凑感”很严重。
对此,AI处理图片的“可引导性”就变成了商业场景里最值钱的能力。
Uni-1支持参考图引导生成,你可以同时喂给它多张参考图——产品照、人物肖像、场景参考、品牌logo——模型会在语义层面理解这些素材之间的关系,而不是简单地把它们当贴图拼在一起。



还有一个就是AI得有文化,我记得当时聊Image 2那期就聊过。大家可以戳链接了解详情:GPT-image-2上线24小时,设计圈已经没人睡得着觉了
Luma官方特别强调Uni-1具备跨文化的视觉理解能力,覆盖不同美学风格、网络迷因、漫画语言等。
对于需要做多国本地化投放的全球品牌来说,这个能力直接对应着真金白银的效率提升,毕竟少拐几个弯,能节省数万的token。




三个维度背后,是一套与传统扩散模型不同的技术路线。(以下内容略微有一些深度)
Uni-1采用decoder-only自回归Transformer架构,让文本token和图像token在同一个序列里“共舞”。
翻译一下就是,同时看文看图,像人类看漫画一样,不用经过图文互转这一步。
API层面的体现就是两个端点,推理端点负责解构指令、规划构图、锁定品牌约束。生成端点负责在推理好的框架之上完成像素渲染。

它的价值在于把“创意可控性”这个原本是Prompt工程的“概率学”,变成一套可编程、可预测的生产级API契约。
那么,Uni-1.1究竟有没有实力替代掉AI生图双王呢?
我们可以看一些横向对比:








大家觉得如何呢?同样的提示词,Uni-1.1做到了2K单图最低0.04美元,并且别忘了,它是以第一代的身份,把价格压到同类的一半。

Luma模型产品经理Barkley Dai曾说:Luma现在是Arena.ai第三名了。GPT-Image 2级别的智能,Midjourney级别的审美,价格只有Nano Banana的零头。

所以,Uni-1.1 API的开放,补上了Luma整体创作链路中的一个关键环节。它提供了“画图”的强实力外,更是为下游的广告、电商、游戏等内容创作流水线,提供了一个能理解商业意图、并能稳定执行出图的“智能画笔”。
而Luma在它之上搭建的Luma Agents,就是使用这支画笔的“创意制片”。
02

一部AI预告片,暴露了Luma的野心
Uni-1.1 API在榜单上的排名和定价策略,已经让人初步感受到Luma的不俗实力。不过,数据终究只是参考,真正的表现如何,还是得看实测结果。

早在两个月前,AI影视区大佬PJ Ace,就用Luma Agent配合Seedance 2.0的制作了一支名叫《红色崛起》(Red Rising)的AI预告片,当时在社交媒体上引发了不少关注。(《红色崛起》是PJ最喜欢的科幻系列,销量超过200万)



作品欣赏
0/0
继续观看
一半价格,一样能打!15人华人团队带着新模型,冲进了OpenAI和谷歌的牌局!
具体是怎么操作的呢?(干货来了~)

他先把15页的书摘、自己写的剧本和镜头列表喂给 Luma Agent。

Agent开始干活,为每个主要角色生成30个外观选项,然后根据剧本创建场景参考图。


PJ再和Agent不断对话迭代:“用这个描述重新生成”“这个角度更好”“保持上一张场景的风格”... ...
他提到一种2x2分镜方法:一次Agent生成100张2x2的图片(也就是400张画面),从中选出最满意的几张,告诉Agent “裁剪并放大”。


为什么PJ钟意这种2x2分镜方法呢?他解释道:因为它保持了画幅内场景和角色的连续性,并且它会批量裁剪放大所有的图像,个人和团队可以快速、大批量地工作,效率也大大提升。

最后PJ选出核心镜头,送入Seedance 2.0,PJ会手动筛选、剪辑,形成一段高质量的片段。

▲ 提示词:
【风格】好莱坞科幻电影。整个镜头框架以缓慢、令人恶心的螺旋方式旋转360度,以匹配飞船的滚动。 【时长】10秒角色:Darrow (@):炭黑色重型机甲盔甲,金色头发在头盔关闭前可见。Sevro (@):背景角色,粗犷的莫霍克发型,检查装备。Victra (@):高大、凶猛的女性,穿着高科技战术装备。镜头动作:镜头1(锚定之吻):中景镜头对准Darrow和Victra。当护卫舰开始进行剧烈的螺旋机动以躲避炮火时,重力发生变化。镜头开始旋转180度。Darrow和Victra被迫抓住一个液压蒸汽管和一个磁轨以保持直立。在旋转中,Victra拉着Darrow的胸甲,给了他一个坚定而绝望的吻。在背景中,Sevro可见地将靴子抵在地板上以防滑动。镜头2(冲击与面罩):特写镜头。飞船遭受了巨大的动能撞击;剧烈的震动摇晃了镜头框架。Victra退后,她的脸被闪烁的红色闪光灯照亮,低声用英国口音说:“祝好运。”她抬手用力将Darrow的重金属头盔面罩砰的一声压下,发出响亮的机械声。就在面罩锁定的瞬间,另一声巨大的撞击震动了镜头,画面完成了360度旋转,陷入完全的混乱。
再然后PJ会逐场景地查看,并从之前的场景中获取图像参考,以匹配未来场景的相同外观。

这里他提醒,一定要保持画面序列有序排列,如果不按场景将序列分组,画布可能会变得杂乱。

PJ的办法是将它们按主场景和子场景分组,比如这里,主场景是人物在过桥,但子场景是人物在用喷火枪滋两个金色的角色。



▲ 这个与拉格纳战斗的序列是由100多个15秒的片段拼接而成的。PJ给了它两个参考:泰坦以巨大的力量和速度与每个人战斗。他获胜了。给我展示多个他胜利的电影风格的快速剪辑。手持摄像机。
PJ在分享时还提到一个有意思的细节,当时Luma还没有把Seedance集成进平台,但他猜测未来一旦API发布Luma很可能会这么做。(目前暂未)
他也说Luma Agent让图像编辑变得非常简单,PJ让它通过一个简单的提示添加不同的元素到他的展示中,比如这样:“给我展示图像2(保持相同的构图),但把图像1中的全息人放到图像2的全息屏幕中,给我10张照片。”相比原先,省去他不少工夫。

现在随着Uni-1.1 API的开放,Luma把Agent的底层图像能力标准化、可编程化带给了每一个人。
这个案例之所以重要,是因为它展示了Luma想做的事情不只是“再一个模型”,而是一个创作中枢,能记住设定,管理素材,调用模型,反复试错,最后把东西推进到能交付的状态。
那么问题来了,一个有这种野心的公司,和一支能做出Uni-1.1这种模型的15人团队,背后是什么样的故事?
03

15人华人领衔团队,凭什么杀进牌桌
要回答这个问题,得先聊聊Luma这家公司的来时路。
Luma AI成立于2021年,早期切的方向和OpenAI这些厂商不同,他们研究的是3D和神经渲染。

简单说,它从一开始关心的就不是“AI 怎么聊天”,而是“AI怎么理解和生成视觉世界”。这个基因决定了它之后所有的产品路线——无论是后来的视频、图像还是Agent,全部围绕视觉创作展开。

2024年6月,Luma发布了Dream Machine,一款AI视频生成模型。这是很多人第一次真正认识Luma。
在当时,Seedance系列还处在早期研发阶段,大伙使用的AI视频模型还存在很大的“幻觉问题”,但那个时候,Dream Machine生成的视频就有不错的调校。
从更好的电影镜头感,画面构图到光影过渡、镜头运动都更像一个“会拍片子”的模型,所以很快,Dream Machine迅速积累了超过2500万用户,也让Luma在AI视频赛道初步站稳。

但Luma没有满足于“又一个视频模型”的定位。
2025年,Luma完成9亿美元C轮融资,估值超过40亿美元。这笔钱没有全砸在训练更大的模型上,而是投向了一个更大的野心——把AI从“单个工具”变成“整套创作流程”。
2026年3月5日,这个野心有了第一个实体的落地形态——Luma Agent正式发布。

Luma Agent声称要让AI创作让普通人更能触手可及,TechCrunch(美国科技类博客)在当时报道里提到,Luma Agent能够调用Ray、Veo、Kling、Uni-1等多种模型,像个“不喊累的制片助理”一样,记住设定、管理素材、反复试错。
两个月后,也就是2026年5月5日,Uni-1.1 API开放。API提供数据和能力,Agent组织流程,两者配合,Luma想要打造的AI内容生产流水线至此闭环,这才是Luma这次引起轰动的底层原因。
聊完公司路线,再回头看那个不到15人的团队,就不觉得是"凭空冒出来"了。
Uni-1的核心研究团队由两位华人学者领衔:宋佳铭(Jiaming Song)和沈博魁(William Shen)。

宋佳铭,清华本科、斯坦福博士。他的代表作DDIM(Denoising Diffusion Implicit Models)是扩散模型采样加速的奠基性工作。如果要说清楚它的意义,用一个简单的比喻就够了:早期扩散模型出图慢,有点像“慢工出细活”,每一步都要反复计算;DDIM做的事情,就是让模型在尽量不牺牲画质的前提下,把出图速度提上来。这项技术被Stable Diffusion、DALL·E等主流系统广泛采用,是扩散模型走向实用化的关键一步。

沈博魁,斯坦福本科及博士。他的研究路径更偏视觉理解和物理世界。他参与的工作Taskonomy获得了CVPR 2018最佳论文奖,这项研究试图系统性地理解不同视觉任务之间的关系。简单说,就是让AI知道“识别一个物体”和“理解一个场景”之间到底有什么联系。此外,他在机器人、物体动态和视觉理解领域也有扎实积累。
两个人的组合很登对,一个更懂“怎么生成”,一个更懂“怎么理解世界”。
两位学者各自的研究底色让Uni-1.1冲榜前三不再是“15人小团队突然打败大厂”的爽文剧本。
确切的说法是:一家从视觉生成出发的公司,在积累了四年多的技术路线之后,恰好在图像生成这个节点上,由两位背景互补的华人学者带队,打出了一张让市场不得不关注的牌。

当然,这条路才刚刚铺开。Uni-1.1的推理和生成能力,会不会真的取代传统广告素材的拍摄和后期?或者说,取代生图双王?Luma Agents能不能真的成为导演和广告创意人的标准工具?这些问题,现在都无法给出肯定的答案。
但至少有一点是确定的,当AI图像模型的竞争,从“谁画得更像”变成“谁能把视觉生成这件事规模化、产业化”,Luma已经用更低的成本和更强的品牌可控性,在OpenAI和Google的牌桌上,撕开了一道口子。
至于这道口子会不会变成赛道里的第三条路,时间会给出答案。
- 1图个好回忆:21年来数值零膨胀?网游史上最叛逆的尝试,差点把魔兽拉下马!
- 2适合新人和回归玩家!韩国MMO《黑色契约 RED》新服开放
- 3钓鱼执法?2亿成本的游戏大作被泄露,倒霉玩家喜提9999年封禁
- 4流水看天美,口碑看魔方?鹅厂四大工作室,究竟谁是爆款之王
- 51亿人民币烧十年?为啥2A的《昭和米国物语》,工期远超3A?
- 629岁性感超模身材太火辣!走红毯前把裙子撑爆了
- 7韩国MMORPG《缔造者:放逐之境》今日开启事前预约
- 8韩援Yasal超美新照!肉腿腹肌大胸三路齐发看不够!
- 9成人手游《星陨计划》全新版本更新,联动活动还有限定团员!
- 10《剑灵:革命》26日大更新:引擎升级 新增职业

