小米开源可控视频音效生成模型 ControlFoley，让声音“按你想要的来”

2026-05-29 18:03:42 神评论

17173 新闻导语

小米开源可控视频音效生成模型ControlFoley，支持文本引导、文本控制和参考音频控制三类配音，音画同步达SOTA。让声音真正“按你想要的来”，代码与Demo已开放。

感谢网友顺势而为的线索投递！

5 月 29 日消息，小米大模型应用团队今日发布 ControlFoley 开源模型，面向视频同步音效生成中的“可控性”难题，统一支持文本引导视频配音、文本控制视频配音和参考音频控制视频配音三类任务。

ControlFoley 在多个视频音效生成任务上达到开源 SOTA 表现，在语义对齐、时间同步、声音质量以及多模态控制能力上取得全面提升。代码、模型权重、技术报告、在线 Demo 和开箱即用 Skill 均已开放。

给一段无声视频自动配上音效，已经不再是新鲜事。视频音效生成模型可以根据画面内容生成匹配的声音，让无声视频变得更完整、更有沉浸感。

然而，如果模型只会根据画面自动猜声音，创作者就很难真正控制配音结果。视频音效生成的下一步，需要从“看画面配声音”走向“按意图配声音”。为此，小米大模型应用团队提出并开源了 ControlFoley，一个统一且可控的视频音效生成框架。它不只让视频“有声音”，更希望让声音真正“按你想要的来”。

ControlFoley 的核心目标，是构建一个统一的可控视频音效生成框架，让模型同时具备三类能力：

TV2A：文本引导视频配音。根据视频和文本提示生成同步音效，文本用于补充和细化画面中的声音语义。

TC-V2A：文本控制视频配音。当文本和视频语义发生冲突时，模型仍能遵循文本意图生成目标声音，同时保持和视频动作的时间同步。

AC-V2A：参考音频控制视频配音。根据视频和参考音频生成同步音效，让输出声音在音色和风格上贴近参考音频，同时不破坏视频节奏。

这意味着，ControlFoley 不只是一个“视频生音频”模型，而是一个面向创作控制的多模态音频生成模型。

▲ ControlFoley 模型架构：联合视觉编码、时间-音色解耦与多模态鲁棒训练共同支撑可控视频音效生成

联合视觉编码：既理解画面，也听懂控制意图

在视频音效生成中，视觉信息非常强势。它能告诉模型画面中发生了什么，但也容易在多模态融合时压制文本控制。为此，团队新提出并自训练了时空音视频编码器 CAV-MAE-ST，用来增强模型对音视频事件、动作节奏和时间同步关系的理解。

▲ 时空音视频编码器 CAV-MAE-ST

简单理解，CLIP 更擅长理解视觉与文本之间的通用语义关系；CAV-MAE-ST 则面向视频配音任务重新设计和训练，更关注“动作什么时候发生、声音应该什么时候出现”这类音视频时空对应关系。它通过视频帧与音频特征的联合建模，帮助模型捕捉动作节奏、音频事件和时间同步线索。

二者结合后，ControlFoley 既能保留强音画同步能力，又能在文本与视觉发生冲突时更好地响应文本控制。这让模型在“画面是一回事，用户想要另一种声音”的场景下，不再只是被画面牵着走。

时间-音色解耦：让参考音频控制风格，而不扰乱同步

参考音频控制的难点在于：一段音频里同时包含“听起来像什么”和“什么时候发生”两类信息。如果模型直接使用参考音频，参考音频里的节奏和时间结构可能会干扰视频本身的动作同步。结果就是，声音风格没控稳，音画同步也被破坏。

ControlFoley 采用时间-音色解耦策略，抑制参考音频中冗余的时间信息，保留更关键的全局音色特征。这样一来，参考音频主要负责控制“声音听起来像什么”，视频则继续负责控制“声音什么时候发生”。

模态鲁棒训练：一个模型，适配多种输入组合

真实使用中，用户提供的条件并不固定：有时只有视频，有时有视频和文本，有时还会额外提供参考音频。

ControlFoley 采用随机模态 dropout 和统一多模态表示对齐训练，让模型在不同条件组合下都能保持稳定。同时，模型通过统一 REPA 对齐目标，将生成音频的内部表示与聚合后的多模态条件对齐，提升语义一致性和控制鲁棒性。换句话说，ControlFoley 不是为某一个单点任务“特化”出来的模型，而是一个统一覆盖 TV2A、TC-V2A、AC-V2A 的多任务框架。

在常规视频配音任务 TV2A 上，ControlFoley 在 VGGSound-Test、Kling-Audio-Eval、MovieGen-Audio-Bench 等多个 benchmark 上取得开源 SOTA 表现。

结果对比显示，ControlFoley 在多个数据集上均取得更好的语义对齐、时间同步和声音质量表现。

下图展示了典型视频配音结果的频谱对比。以乐器演奏和体育运动两类典型场景为例，ControlFoley 生成的音频在动作发生的关键时刻能够对齐视频节奏，同时保留更完整的高频细节；相比之下，部分方法会出现声音事件错位、漏掉关键动作声音，或生成与画面不匹配的音频。直观来看，ControlFoley 不仅能“配上声音”，也更能把声音配准、配细。