17173 > 游戏资讯 > 科技新闻 > 正文

阿里通义实验室发布 PrismAudio 视频生成音频框架:声画同频,音效随行

2026-03-24 16:01:14 神评论
17173 新闻导语

阿里通义实验室发布PrismAudio视频生成音频框架,首创强化学习+思维链技术,实现声画精准同步,音效自然逼真,性能全面超越现有方法,代码即将开源!

感谢网友 Domado 的线索投递!

3 月 24 日消息,阿里巴巴通义实验室今日发布了 PrismAudio,这是一个视频生成音频(Video-to-Audio)框架,其研究重点是环境音 / 音效合成,比如马蹄声、风雨声、金属敲击声等与画面内容同步的背景声音,而不是给人物配音。

附官方详细介绍如下:

PrismAudio 是首个将强化学习与思维链紧密结合的视频生成环境音框架。简单来说,我们教模型学会了“先思考,再发声”,并且有四位“老师”同时给它打分。

语义老师盯着画面,教模型认准“这是马蹄声,不是鸟叫声”。

时序老师拿着秒表,监督声音和动作必须严丝合缝。

美学老师挑剔音质,要求声音自然、有层次、不刺耳。

空间老师听声辨位,检查声音是不是从该来的方向来。

但问题来了:四个老师同时打分,如果要求不一样怎么办?比如语义老师说“这个声音像了”,时序老师说“但慢了半拍”,听谁的?

PrismAudio 的解法是:让模型先想清楚,再动手。

第一步:先写笔记,再发声

传统的配音模型是“端到端”的:输入视频,直接输出音频。模型内部发生了什么,没人知道,也没人控制。

但我们希望模型不是“瞎蒙”,而是“有思路”地生成。所以,我们没让模型一上来就生成音频,而是先让它“写笔记”。

这段视频里有什么?应该发出什么声音?

声音什么时候开始?什么时候结束?顺序怎么排?

声音应该是什么质感?清脆还是低沉?远近怎么处理?

声源在左边还是右边?有没有移动?

四份笔记写完,拼接成一份完整的“行动指南”,再交给音频生成模型去执行。这就是我们说的分解式思维链,不是让模型“一拍脑袋”出声音,而是让它把思考过程拆开、写下来,每一步都有据可依。

第二步:四位老师,持续打分

生成音频后,怎么判断它做得好不好?光靠“像不像真实声音”这一个标准,仍然会让模型再次陷入“顾此失彼”的老问题。所以,我们给每个老师配了一个“打分器”(奖励函数),让四个老师各自打分,互不干扰:

语义老师用 MS-CLAP 打分,检查声音和画面内容是否匹配

时序老师用 Synchformer 打分,精准测量声音和动作是否同步

美学老师用 Meta Audiobox Aesthetics 打分,从清晰度、动态、丰富度等多个维度评估音质

空间老师用 StereoCRW 打分,验证左右声道信息是否与画面中的声源位置一致

四个分数加在一起,形成一个综合评分。模型的目标,就是不断调整自己的生成策略,让这个总分越来越高。这样模型不会被单一标准牵着走,而是必须同时满足四个的要求,哪个维度都不掉队。

第三步:高效训练,解决效率瓶颈

有了打分机制,下一步就是用强化学习来优化模型。

但这里有一个现实问题:强化学习训练扩散模型,太慢了。

传统方法每一步都要做随机采样,成本极高。如果每一步都这么折腾,训练一轮可能要好几周。所以我们设计了一个高效训练算法 Fast-GRPO。

它的核心思路很简单:把随机探索限制在刀刃上。只在生成过程的极短时间内做随机采样,其余时间走快速通道。这样既保留了探索空间,又把训练时间大幅缩短。

结果显示:在单独优化某个指标时,Fast-GRPO 只用 200 步就达到了传统方法 600 步的性能水平。

效果怎么样?

我们做了严格的测试,在传统的 VGGSound 测试集上,PrismAudio 全面超越了现有最好方法:

在我们自己搭建的复杂场景测试集 AudioCanvas 上,差距拉得更大:

PrismAudio 只有 5.18 亿参数,生成 9 秒音频只要 0.63 秒,比那些动辄几十亿参数的模型更轻量、更实用。

这项研究已被顶级会议 ICLR 2026 收录,代码即将开源

论文地址:arXiv:2511.18833

开源地址:https://prismaudio-project.github.io/

【来源:IT之家】
关于PrismAudio,视频生成音频,环境音合成,强化学习,思维链,音效同步,阿里巴巴通义实验室,音频生成框架,Fast-GRPO,ICLR 2026的新闻
17173 首页全新改版规划中!现向各位玩家征集真实使用意见,你的想法将直接影响新版页面设计~动动手指填写问卷,快来共创你心仪的页面布局吧! 参与问卷