真的可以做到人人扮演天命人了?阿里云这次的AI模型为何引起了全球关注?
阿里云通义万相Wan2.2-Animate开源AI模型全球瞩目!支持角色扮演与动作模仿,低成本生成动态视频,颠覆传统动捕技术,人人可当演员!点击了解如何玩转AI视频生成。
wuhu专题


文 | 清风
就在9月19日,阿里云旗下通义万相团队正式开源了全新动作生成模型Wan2.2-Animate。
作为基于Animate Anyone的全面升级版本,该模型不仅在人物一致性、生成质量等指标上大幅提升,还同时支持动作模仿和角色扮演两种模式:支持驱动人物、动画漫画形象和动物照片生成动态视频,可将参考视频中的动作和表情精准迁移到静态图片角色上。
官方表示该项技术可以运用在短视频创作、舞蹈模板生成、动画制作等领域。
如果真的是这样,那岂不是动作捕捉技术直接被推向低成本普及时代?
01
要想证明技术真的突破了
首先得让一张照片先“学会”生动跳舞
前面提到过,Wan2.2-Animate的核心突破在于其双模式设计——同时支持“角色模仿”与“角色扮演”两种创新模式。
在角色模仿模式下,用户只需提供一张角色图片和一段参考视频,模型就能将视频中的动作与表情精准迁移到静态图像角色上。而角色扮演模式则能够在保留原始视频动作、表情及环境的基础上,将视频中的角色替换为指定图片中的形象。
通义万象团队利用空间对齐的骨骼信号复制身体运动,并从源图像中提取隐式面部特征以重现表情,从而生成具有高度可控性与表现力的角色视频。
此外,为提升角色替换时的环境融合效果,他们还开发了一个辅助重光照LoRA模块,在保持角色外观一致性的同时,施加恰当的环境光照与色彩色调。
演示视频集锦
小编也忍不住打开通义万相官网尝试了一番“角色替换”功能,想让wuhu君跟着演员动起来,整体看动作是流畅的,原本视频中的演员神情也的确基本上复刻出来了,只可惜稍微损失了一点wuhu君的帅气(不小心往奇怪的气质上发展了),另外建议大家尝试的时候图片最好导入角色正面站立的动作,生成效果可以更“以假乱真”些。
02
为何国内外受到如此大关注?
它真的比国际大模型还强吗?
多模型同一画面生成效果对比
阿里通义万相Wan2.2-Animate之所以受到全球瞩目,是因为它在核心技术指标、实际应用成本以及开源开放性方面都展现出了显著的竞争优势。
官方实测结果显示,Wan2.2-Animate在视频生成质量、主体一致性及感知损失等多项核心指标上优于StableAnimator、LivePortrait等主流开源模型。在主观评估测试中,其生成效果甚至超越了Runway Act-two等代表性闭源方案。
多模型同一画面生成效果对比
虽然在一些主观评测中表现优异,但像Runway、Pika等国际知名闭源产品毕竟经过了更长时间的市场打磨,在生态集成、用户体验和特定场景的优化上可能仍有其优势。不过,Wan2.2-Animate的崛起无疑给它们带来了巨大的竞争压力。
值得注意的是,通义万相系列模型在HuggingFace与ModelScope平台的总下载量已突破690万次,反映出市场对AI视频生成技术的强烈需求。而自今年2月以来,通义万相已连续开源20多款模型,在开源社区和第三方平台的总下载量超3000万,成为开源社区最受欢迎的视频生成模型之一。
03
人人都可以成为“演员”
动捕技术从此不再“高贵”?
在以往动画及影视制作中,虽然加入动补技术以及在过往纯手K的基础上,让生产效率以及实施难度上降低了很多,但动辄百万元设备以及专业影棚的需求,让小团队望而却步。
Wan2.2-Animate带来的不仅是技术上的突破,更是成本上的革命。根据阿里云公布的收费标准,该模型的标准版每秒收费0.4元,专业版收费0.6元。
从专业影棚到个人电脑,如果真的在未来普及,Wan2.2-Animate的出现,则标志着动捕技术从“专业装备”走向“平民工具”的根本转变。过往既需要专业场地、昂贵设备也需要专业操作人员,如今仅需一张图片和一段参考视频即可实现动作迁移,无疑大幅降低了动态内容创作的门槛。
另外,传统动补主要依赖身上穿戴的物理标记点来捕捉运动轨迹,初版捕捉效果并不能达到直接可以使用的效果,通常需要3D动画师作进一步的优化,从而让角色动作更加真实可信。而如今AI模型则通过学习海量视频数据,内化了对人类动作的理解,实现了从“骨骼捕捉”到“语义理解”的跃迁。总结来说,主要是以下两大关键突破:
一是端到端的简易流程。传统动捕需经历采集、清理、绑定、修复等多步处理,而Wan2.2-Animate直接将图像与视频对齐,输出即可使用,极大简化了制作流程。
二是对动作意图的理解。AI不再只是复制动作形态,更能捕捉舞蹈的韵律、动作的流畅感等难以量化的风格特质,使生成结果更生动自然。
当然,就目前实际案例效果来看,真人以及3D角色的效果已经基本上可以做到“神、情、动”相似,但二维或比较风格化的三渲二效果则还有挺大的改进空间。
04
除了“人人一键生成”
对当下传统影视行业是否可以赋能?
正如数码相机、数字绘图至今依旧不影响传统艺术的蓬勃发展,路边的广告拍或许一晃而过,但路上的墙绘想必大家都会忍不住注目多看;同样的,ai视频未来做得再逼真,依旧会有大批观众始终热爱二三维动画以及真人影视,有需求,必定就会有市场,相互之间独立发展才有利于行业的健康生态。
那么,除了看似“酷炫”却难以直接变现的“一键生成”,这项技术究竟如何为当下行业创造实际价值?试想,这一技术或许能在影视制作领域为角色替换和后期制作提供全新可能。
有评论甚至戏称,有了角色替换功能,后期剪辑同事再也不怕“明星塌房”了,因为替换影视剧中的角色将变得更为可行。
另外在项目前期,导演和制作方或许可以利用Wan2.2-Animate快速生成动态分镜或概念视频,这种方式能更直观、低成本地呈现创意构想,帮助团队在正式投入大量资源前高效沟通和决策。
总之,技术发展的真正价值,不在于取代哪个环节,而在于它让整个创作流程变得更灵活。真正意义上去降低尝试的门槛,让大胆的创意敢于落地,让宝贵的资源能够投入到最需要艺术判断力的环节。
这才是技术赋能行业最美好的样子——工具为人服务,创意因工具而更自由。
05
“超级人工智能之路”
将如何被定义?
就在今天(9月24日),2025云栖大会在杭举办,阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭就终极目标是“超级人工智能”这一主题进行了公开演讲,他认为实现通用人工智能AGI已是确定性事件,但这只是起点,终极目标是发展出能自我迭代、全面超越人类的超级人工智能ASI。
吴泳铭表示,AGI的目标是将人类从80%的日常工作中解放出来,让我们专注于创造与探索。而ASI作为全面超越人类智能的系统,将可能创造出一批“超级科学家”和"全栈超级工程师"。
他认为通往ASI之路将经历三个阶段——
第一阶段是“智能涌现”,特征是“学习人”。
第二个阶段是“自主行动”,特征是“辅助人”。
第三个阶段是“自我迭代”,特征是“超越人”。
他还特别强调,正如电曾经放大了人类物理力量的杠杆,ASI将指数级放大人类的智力杠杆。过去人类消耗10个小时的时间,获得10小时的结果。未来,AI可以让人类10小时的产出乘以十倍、百倍的杠杆。
至于AI技术未来真的能否到达指数级放大人类的智力效能的程度,还需要时间的验证。
然而,当我们将目光拉回当下,最关键的拷问在于:这项技术能否在确保高保真画面质量与清晰合规的版权边界前提下,真正打破创作的技术壁垒?若能实现,下一个引爆市场的作品,其创作者完全可能是一位充满巧思的普通人,而非装备精良的专业团队。
EN





















