爆款率过半、算力成本仅20%,通义万相模型“跑通了”AI漫剧
通义万相AI漫剧爆款率超50%,算力成本仅20%,实现音画同步生成。探索原生多模态与可控生成技术,助力高效AI视频创作,点击了解商业化突破!
从“妙鸭相机”到“全民舞王”,阿里AI团队的产品能力持续得到市场的验证。近期,随着“千问”App被确立为阿里集团AI时代的超级流量入口,通义万相也迎来了新的发展机遇。
在模型侧,Wan2.5的音画同步是最新一次令业界兴奋的迭代,而万相系列模型在AI内容创作,特别是AI漫剧这一新兴赛道上,展现出巨大的商业潜力。而与此同时,团队已经展开了对“世界模型”的探索,为下一次进化做准备。
娱乐资本论近期再次走近阿里通义实验室,与通义万相产品负责人张宁奕深入探讨了在“百模大战”的激烈竞争下,通义万相的技术演进和商业化成果,以及对AI视频生成未来的前瞻性思考。
根据张宁奕介绍,目前其模型在AI漫剧领域的商业化应用,已达到了部分头部作品“真假难辨”的程度,令人震惊。他们透露,已有平台型客户利用万相模型建立了成熟工作流,不仅实现了单部作品播放量破亿、爆款率超50%的成绩,更成功将算力成本控制在总制作成本的20%以内,真正验证了AI视频模型作为高效生产力的价值。
以下为采访实录:

万相在阿里生态内的应用
娱乐资本论:“千问”现在已经成为阿里集团的AI大入口,这一点如何影响了你们视频大模型团队呢?
张宁奕:集团整合资源全力打造“千问”这样一个全民级的AI应用,对我们来说无疑是重大利好。这意味着通义万相的多模态视频模型有了一个全新的、巨大的C端应用场景。在一个全民级的App里,AI生图和生视频可以有很多玩法和广阔的想象空间,对我们来说是一个全新的多模态应用场地,我们会全面拥抱它。
在“千问”App之前,万相的模型其实已经持续在集团的多个C端场景中应用,例如夸克App里的生图生视频功能。同时,我们也有自己的“万相”品牌站,展示全系列模型的应用。可以说,万相一直拥有明确的C端和B端用户及场景。随着“千问”战略地位的提升,我们能更直接地触达海量用户,获得宝贵的反馈,从而更好地迭代模型。

娱乐资本论:除了C端应用,万相在阿里生态内的其它应用场景有哪些?
张宁奕:在电商领域,商家会使用万相生成商品主图、营销广告视频等素材;在设计师工具类产品中,万相的生图和生视频能力也被深度集成。此外我们还和优酷合作,探索将AI生成技术应用于影视级内容的创作。这些场景提供了宝贵的真实世界反馈,帮助我们明确模型优化的方向。

“原生多模态”与“可控生成”
娱乐资本论:从去年5月至今,万相大模型除了大版本陆续发布上新,还经历了哪些重要的技术里程碑?
张宁奕: 万相今年1月发布了2.1,7月是2.2,9月则推出了2.5预览版。我们一直聚焦两大核心技术方向:“原生多模态”与“可控生成”。

万相2.5版本的“原生多模态”,在保留2.1和2.2在运动和电影级画质优势的基础上,首次实现了文本、图像、视频、语音的多模态联合对齐训练。这意味着模型能够“原生”地一次性生成包含声音的视频,而不是后期合成,这是业内一个重要突破。

在“可控生成”方面,我们4月份基于2.1的基座发布了万相VACE模型,它是一款集视频生成与编辑于一体的全能模型。随着基座模型能力的提升,我们现在可以更好地实现角色一致性、动作控制和提示词还原,大大减少了对复杂工作流的依赖。过去需要通过训练LoRA或搭建复杂工作流才能实现一致性,现在模型通过指令编辑的方式就能原生支持,并且泛化能力更强。
娱乐资本论:在LMArena中,Wan2.5的“图生视频”能力排名非常靠前,乃至与一众商业模型不相上下;而“文生视频”则没有那么靠前。
张宁奕:这是基于我们对客户和市场需求的洞察而导致的。我们发现,在实际的生产环节中,“图生视频”是应用最广泛、最高频的场景。创作者通常会先通过精细的文生图、或图像编辑工具,制作出符合要求的“分镜”或关键帧,然后再让它动起来。因此,我们重点围绕“图生视频”去做了模型效果的极致优化。当然,这并不意味着我们放弃了文生视频,两个方向我们都在持续投入,但资源上会根据市场反馈有所侧重。

AI漫剧的“万相时刻”
娱乐资本论:AI漫剧似乎是万相目前一个非常成功的商业化方向。能否详细介绍一下万相在其中扮演的角色和取得的成果?
张宁奕:AI漫剧是今年内容领域一个非常火热的赛道。我们接触了大量专业的漫剧创作者和平台,他们给我们的反馈是,Wan模型在3D效果、物理世界还原以及物体碰撞等方面的表现非常出色,因此在制作特定类型的剧集时,会优先选择万相模型。
让我分享一个印象深刻的例子。我曾在抖音上刷到一部非常火的AI漫剧,当时弹幕都在讨论这到底是不是AI做的,因为它的质量非常高,几乎看不出AI的痕迹。后来我见到一家平台型的漫剧客户,才震惊地发现,那部剧就是他们用万相制作的。
他们已经形成了一套非常成熟的工作流:专业编剧写剧本,然后用文生图快速生成角色三视图和分镜图,再通过图生视频生成动画,最后进行剪辑和配音。整个流程中,AI极大地提升了效率,降低了门槛。
娱乐资本论:这家客户的成功案例中,万相模型为他们带来了哪些具体的价值?他们是如何评价万相的?
张宁奕:这家客户告诉我们,他们批量制作了大量的剧集,爆款率超过50%,单部作品的播放量能达到数千万甚至上亿。以前我们会比较担心抽卡成本过高,但是在他们公司,万相模型帮助他们将算力成本控制在了总成本的20%以内,其余都是人力成本,主要用于提升作品的艺术品质。这说明AI已经成为了一个高效率的生产工具,而不是实验品。

他们还提到,Wan2.5的音画同步生成能力为行业带来了巨大改变。传统流程需要先生成视频,再对口型,最后找声优配音。而万相可以直接生成带声音的视频,虽然目前音色一致性还在优化中,但这已经大大简化了工作流。他们正基于我们现有的能力,布局未来的内容生产线。
娱乐资本论:您如何看待AI漫剧,乃至AI短剧的未来发展?
张宁奕:我们判断,AI漫剧行业目前已经进入成熟期,重点在于提升质量和扩大产能。诸如PPT漫、沙雕漫等前代技术都已经成熟且成为现在的主流,而真正的分水岭在于“真人”AI短剧。
目前虽然有一些不错的真人AI短剧出现,但离规模化应用还有距离。我们预测,在明年第一季度,真人AI短剧领域会迎来一个重大的技术突破和市场爆发。
工业界应用AI视频模型到工作流,往往需要比模型研发慢一段时间才实际部署,明年春季的真人AI短剧爆发,实际上用当前的Wan2.5模型就已经可以实现。但是我们模型端也还会更进一步,到明年春季,万相还会推出相应的新版本,整个行业的创作方式和工作流都将进一步发生巨大变化。

今年P图模型爆发在意料之内
娱乐资本论:开源为万相系列模型本身和社区带来了什么?
张宁奕:万相在开源社区中建立了巨大的影响力。我们的模型很快就成为了开源领域的SOTA(最佳)。这为开发者提供了一个能力上限很高,且能与各种工作流串联的基座模型。与大语言模型不同,开源社区难以通过小型后训练制作蒸馏模型或者专属知识领域模型,不过通过LoRA微调等等,社区开发者也创造出了许多我们自己都未曾想过的创新玩法和工作流,为行业提供了巨大的想象空间。

娱乐资本论:我们注意到今年Nano Banana、SeeDream等模型以及Wan 2.5“不约而同”地实现了高一致性,可直接编辑图片等提升。以你们模型团队的观察看,这是意料之外的涌现,还是早就在你们预测范围内?
张宁奕:我们是有预测的。在去年创作者向我们提出该方向的需求时,其实我们大致知道这个事情要怎么做。我们会对全年的模型开发路线做一个规划。不过从你有整体技术架构到实现它还是需要时间的。因此如今行业出现这样的能力,我们毫不意外,甚至我们能大概预测到明年这个行业还会发生哪些变化。
实际上我们能看到,行业的发展必然如此。比如近期AI漫剧特别火,也有些公司在和我们探讨真人漫剧。我们的判断是,目前在AI漫剧制作工作中,真人漫剧对制作公司而言仍有一定成本和使用门槛。但可能在半年内,这个情况会发生非常大的改变。因为我们能看到自身模型架构,及后续技术发展大概能达到的水平,但我们仍需时间去实现。
娱乐资本论:通义万相近期的技术路线图是怎样的?
张宁奕:从今年爆火的Sora2和Nano Banana,我们可以发现,只有模型原生能力的提升,才能带来真正的泛化性。例如,Nano Banana对世界知识的掌握是来自模型的原生能力,而不是通过提示词工程等技巧。
因此,我们自己的目标同样是持续提升基座模型的能力,而不是依赖外部系统的堆叠。我们聚焦于“原生多模态”和“可控生成”两个我们用户关注的焦点,并在此基础上,向“世界模型”的方向延伸,未来会将时空关系、模型对真实世界的感知和交互等能力,都融入到整体的基座模型中。
当模型对世界有了更深层次的理解,它就能自然涌现出在3D、物理交互等方面的惊人能力。我们的最终目标是打造一个能够泛化应用于所有行业的通用视觉生成模型,而不仅仅是局限在某个特定的场景或应用。



