小米开源可控视频音效生成模型 ControlFoley,让声音“按你想要的来”
小米开源可控视频音效生成模型ControlFoley,支持文本引导、文本控制和参考音频控制三类配音,音画同步达SOTA。让声音真正“按你想要的来”,代码与Demo已开放。
5 月 29 日消息,小米大模型应用团队今日发布 ControlFoley 开源模型,面向视频同步音效生成中的“可控性”难题,统一支持文本引导视频配音、文本控制视频配音和参考音频控制视频配音三类任务。
ControlFoley 在多个视频音效生成任务上达到开源 SOTA 表现,在语义对齐、时间同步、声音质量以及多模态控制能力上取得全面提升。代码、模型权重、技术报告、在线 Demo 和开箱即用 Skill 均已开放。

给一段无声视频自动配上音效,已经不再是新鲜事。视频音效生成模型可以根据画面内容生成匹配的声音,让无声视频变得更完整、更有沉浸感。
然而,如果模型只会根据画面自动猜声音,创作者就很难真正控制配音结果。视频音效生成的下一步,需要从“看画面配声音”走向“按意图配声音”。为此,小米大模型应用团队提出并开源了 ControlFoley,一个统一且可控的视频音效生成框架。它不只让视频“有声音”,更希望让声音真正“按你想要的来”。
ControlFoley 的核心目标,是构建一个统一的可控视频音效生成框架,让模型同时具备三类能力:
TV2A:文本引导视频配音。根据视频和文本提示生成同步音效,文本用于补充和细化画面中的声音语义。
TC-V2A:文本控制视频配音。当文本和视频语义发生冲突时,模型仍能遵循文本意图生成目标声音,同时保持和视频动作的时间同步。
AC-V2A:参考音频控制视频配音。根据视频和参考音频生成同步音效,让输出声音在音色和风格上贴近参考音频,同时不破坏视频节奏。
这意味着,ControlFoley 不只是一个“视频生音频”模型,而是一个面向创作控制的多模态音频生成模型。

在视频音效生成中,视觉信息非常强势。它能告诉模型画面中发生了什么,但也容易在多模态融合时压制文本控制。为此,团队新提出并自训练了时空音视频编码器 CAV-MAE-ST,用来增强模型对音视频事件、动作节奏和时间同步关系的理解。

简单理解,CLIP 更擅长理解视觉与文本之间的通用语义关系;CAV-MAE-ST 则面向视频配音任务重新设计和训练,更关注“动作什么时候发生、声音应该什么时候出现”这类音视频时空对应关系。它通过视频帧与音频特征的联合建模,帮助模型捕捉动作节奏、音频事件和时间同步线索。
二者结合后,ControlFoley 既能保留强音画同步能力,又能在文本与视觉发生冲突时更好地响应文本控制。这让模型在“画面是一回事,用户想要另一种声音”的场景下,不再只是被画面牵着走。
时间-音色解耦:让参考音频控制风格,而不扰乱同步参考音频控制的难点在于:一段音频里同时包含“听起来像什么”和“什么时候发生”两类信息。如果模型直接使用参考音频,参考音频里的节奏和时间结构可能会干扰视频本身的动作同步。结果就是,声音风格没控稳,音画同步也被破坏。
ControlFoley 采用时间-音色解耦策略,抑制参考音频中冗余的时间信息,保留更关键的全局音色特征。这样一来,参考音频主要负责控制“声音听起来像什么”,视频则继续负责控制“声音什么时候发生”。
模态鲁棒训练:一个模型,适配多种输入组合真实使用中,用户提供的条件并不固定:有时只有视频,有时有视频和文本,有时还会额外提供参考音频。
ControlFoley 采用随机模态 dropout 和统一多模态表示对齐训练,让模型在不同条件组合下都能保持稳定。同时,模型通过统一 REPA 对齐目标,将生成音频的内部表示与聚合后的多模态条件对齐,提升语义一致性和控制鲁棒性。换句话说,ControlFoley 不是为某一个单点任务“特化”出来的模型,而是一个统一覆盖 TV2A、TC-V2A、AC-V2A 的多任务框架。
在常规视频配音任务 TV2A 上,ControlFoley 在 VGGSound-Test、Kling-Audio-Eval、MovieGen-Audio-Bench 等多个 benchmark 上取得开源 SOTA 表现。
结果对比显示,ControlFoley 在多个数据集上均取得更好的语义对齐、时间同步和声音质量表现。

下图展示了典型视频配音结果的频谱对比。以乐器演奏和体育运动两类典型场景为例,ControlFoley 生成的音频在动作发生的关键时刻能够对齐视频节奏,同时保留更完整的高频细节;相比之下,部分方法会出现声音事件错位、漏掉关键动作声音,或生成与画面不匹配的音频。直观来看,ControlFoley 不仅能“配上声音”,也更能把声音配准、配细。

对标商业闭源系统 Kling-Foley,ControlFoley 在关键体验指标上同样展现出竞争力。在语义对齐、时间同步和声音质量等关键体验指标上,ControlFoley 相比 Kling-Foley 展现出稳定优势;完整客观指标可见技术报告。

ControlFoley 的相关资源已经开放,附开源链接:
技术报告:https://arxiv.org/abs/2604.15086
GitHub:https://github.com/xiaomi-research/controlfoley
模型权重:https://huggingface.co/YJX-Xiaomi/ControlFoley
项目主页 / 在线体验:https://yjx-research.github.io/ControlFoley_web_page/
一键调用 Skill:https://clawhub.ai/yjx-research/controlfoley-audio-generator
完整结果对比:https://yjx-research.github.io/ControlFoley/

