阿里通义实验室发布 PrismAudio 视频生成音频框架：声画同频，音效随行

2026-03-24 16:01:14 神评论

17173 新闻导语

阿里通义实验室发布PrismAudio视频生成音频框架，首创强化学习+思维链技术，实现声画精准同步，音效自然逼真，性能全面超越现有方法，代码即将开源！

感谢网友 Domado 的线索投递！

3 月 24 日消息，阿里巴巴通义实验室今日发布了 PrismAudio，这是一个视频生成音频（Video-to-Audio）框架，其研究重点是环境音 / 音效合成，比如马蹄声、风雨声、金属敲击声等与画面内容同步的背景声音，而不是给人物配音。

附官方详细介绍如下：

PrismAudio 是首个将强化学习与思维链紧密结合的视频生成环境音框架。简单来说，我们教模型学会了“先思考，再发声”，并且有四位“老师”同时给它打分。

语义老师盯着画面，教模型认准“这是马蹄声，不是鸟叫声”。

时序老师拿着秒表，监督声音和动作必须严丝合缝。

美学老师挑剔音质，要求声音自然、有层次、不刺耳。

空间老师听声辨位，检查声音是不是从该来的方向来。

但问题来了：四个老师同时打分，如果要求不一样怎么办？比如语义老师说“这个声音像了”，时序老师说“但慢了半拍”，听谁的？

PrismAudio 的解法是：让模型先想清楚，再动手。

第一步：先写笔记，再发声

传统的配音模型是“端到端”的：输入视频，直接输出音频。模型内部发生了什么，没人知道，也没人控制。

但我们希望模型不是“瞎蒙”，而是“有思路”地生成。所以，我们没让模型一上来就生成音频，而是先让它“写笔记”。

这段视频里有什么？应该发出什么声音？
声音什么时候开始？什么时候结束？顺序怎么排？
声音应该是什么质感？清脆还是低沉？远近怎么处理？
声源在左边还是右边？有没有移动？

四份笔记写完，拼接成一份完整的“行动指南”，再交给音频生成模型去执行。这就是我们说的分解式思维链，不是让模型“一拍脑袋”出声音，而是让它把思考过程拆开、写下来，每一步都有据可依。

第二步：四位老师，持续打分

生成音频后，怎么判断它做得好不好？光靠“像不像真实声音”这一个标准，仍然会让模型再次陷入“顾此失彼”的老问题。所以，我们给每个老师配了一个“打分器”（奖励函数），让四个老师各自打分，互不干扰：

语义老师用 MS-CLAP 打分，检查声音和画面内容是否匹配

时序老师用 Synchformer 打分，精准测量声音和动作是否同步

美学老师用 Meta Audiobox Aesthetics 打分，从清晰度、动态、丰富度等多个维度评估音质

空间老师用 StereoCRW 打分，验证左右声道信息是否与画面中的声源位置一致

四个分数加在一起，形成一个综合评分。模型的目标，就是不断调整自己的生成策略，让这个总分越来越高。这样模型不会被单一标准牵着走，而是必须同时满足四个的要求，哪个维度都不掉队。

第三步：高效训练，解决效率瓶颈

有了打分机制，下一步就是用强化学习来优化模型。

但这里有一个现实问题：强化学习训练扩散模型，太慢了。

传统方法每一步都要做随机采样，成本极高。如果每一步都这么折腾，训练一轮可能要好几周。所以我们设计了一个高效训练算法 Fast-GRPO。

它的核心思路很简单：把随机探索限制在刀刃上。只在生成过程的极短时间内做随机采样，其余时间走快速通道。这样既保留了探索空间，又把训练时间大幅缩短。

结果显示：在单独优化某个指标时，Fast-GRPO 只用 200 步就达到了传统方法 600 步的性能水平。

效果怎么样？

我们做了严格的测试，在传统的 VGGSound 测试集上，PrismAudio 全面超越了现有最好方法：

在我们自己搭建的复杂场景测试集 AudioCanvas 上，差距拉得更大：

PrismAudio 只有 5.18 亿参数，生成 9 秒音频只要 0.63 秒，比那些动辄几十亿参数的模型更轻量、更实用。

这项研究已被顶级会议 ICLR 2026 收录，代码即将开源

论文地址：arXiv：2511.18833

开源地址：https://prismaudio-project.github.io/

【来源：IT之家】

关于PrismAudio,视频生成音频,环境音合成,强化学习,思维链,音效同步,阿里巴巴通义实验室,音频生成框架,Fast-GRPO,ICLR 2026的新闻

17173 首页全新改版规划中！现向各位玩家征集真实使用意见，你的想法将直接影响新版页面设计～动动手指填写问卷，快来共创你心仪的页面布局吧！ 参与问卷

今日热点

网易大作疑似复活！曾被曝胎死腹中停更1年

《暗黑：不朽》×《星际争霸》联动《魔兽》乌龟服正式关服

网石权游宇宙MMO新作 PC版抢先公测！

散爆网络两款新作首曝《洛奇英雄传：反抗命运》公开测试反馈

热门测试游戏

品牌栏目

热门新闻排行

Wan网页游戏免费玩