苹果联合中国人民大学发布 VSSFlow 模型:无声视频 AI 同步生成音效与配音
苹果与人大联合推出VSSFlow AI模型,实现无声视频同步生成逼真音效与语音。突破传统技术瓶颈,单一系统即可完成,开源代码已发布。
2 月 10 日消息,科技媒体 9to5Mac 昨日(2 月 9 日)发布博文,报道称苹果公司携手中国人民大学(简称人大),推出 VSSFlow 新型 AI 模型,突破了传统音频生成技术的瓶颈,仅需单一系统即可从无声视频中同时生成逼真的环境音效与人类语音。
该模型的核心能力在于“化静为动”,能够直接处理无声视频数据,在单一系统的框架下,同步生成与画面高度匹配的环境音效以及精准的语音对话。该成果不仅解决了过去音频生成模型功能单一的问题,更在生成质量上达到了行业领先水平。

援引博文介绍,在 VSSFlow 问世之前,行业内的模型往往存在严重的偏科现象:视频转声音模型(V2S)难以生成清晰的语音,而文本转语音模型(TTS)又无法处理复杂的环境噪音。
传统的解决方案通常是将两者分阶段训练,这不仅增加了系统的复杂性,还常因任务冲突导致性能下降。VSSFlow 则另辟蹊径,采用了 10 层架构设计并引入“流匹配”技术,让模型自主学习如何从随机噪声中,重构出目标声音信号。

研究团队在训练过程中发现了一个令人惊喜的现象:联合训练不仅没有导致任务干扰,反而产生了“互助效应”。即语音数据的训练提升了音效生成的质量,而音效数据的加入也优化了语音的表现。
团队为了实现这一效果,向模型投喂了混合数据,包括配有环境音的视频、配有字幕的说话视频以及纯文本转语音数据,并利用合成样本微调模型,让其学会同时输出背景音与人声。
在实际运行中,VSSFlow 以每秒 10 帧的频率从视频中提取视觉线索来塑造环境音效,同时依据文本脚本精确引导语音生成。

测试数据显示,该模型在多项关键指标上均优于专门针对单一任务设计的竞品模型。研究团队目前已在 GitHub 上开源了 VSSFlow 的代码,并正在推进模型权重公开及在线推理演示的开发工作。
附上参考地址
GitHub:VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning
VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning
VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning
- DeepSeek V4永久降价75%后:登顶全球性价比!性价比碾压美系旗舰 2026-05-25
- 马斯克宣布 Grok V9-Medium 1.5T 模型完成训练:加入大量 Cursor 数据,两到三周内发布 2026-05-25
- 无需更新系统:努比亚星云 AIOS 2.0 机型已支持 DeepSeek-V4,覆盖 Z60 / 70 / 80 等系列 2026-05-24
- DeepSeek官宣永久降价 降幅力度远超预期 梁文锋魄力十足 2026-05-23
- IT早报 0523:腾讯音乐官宣放弃音频版权独家授权;中国汽车史首家,上汽集团将迎全球第一亿位用户;DeepSeek 官宣永久降价;微信解释消息撤回时限 2 分钟... 2026-05-23
- 1价值2000元补偿,《洛克王国》主策划道歉!打感情牌还是诚恳反思?
- 230年后重新回归!《遗忘传说》重置版首次开放试玩
- 3开放世界ARPG《龙之剑:觉醒》举办答疑活动
- 4AI外挂不读内存不会被封?腾讯重拳出击:封号10年、永久拉黑
- 5这可能是国产MMO最接近“角色扮演”本源的一次
- 6相爱相杀十年!《贪玩蓝月》和《传奇》迎来世纪和解
- 7《王者荣耀世界》S1赛季来了!新英雄实装,性转功能上线,看点满满
- 89年老网游宣布停更,17万玩家请愿开发续作!呼吁最后更新日登录游戏
- 9原价128元永久畅玩!《暗黑破坏神4》宣布国服免费领延长至8月4日
- 10这款游戏众筹14年,累计筹集超10亿美元,却仍旧处在测试阶段?

