ControlFoley – 小米开源的可控视频音效生成模型
ControlFoley:小米推出的革新性视频音效生成模型,赋能可控性视频配音新纪元。
ControlFoley 究竟是什么?
ControlFoley 是小米精心研发并开源的视频音效生成模型,旨在攻克视频到音频(V2A)领域长期存在的“可控性”难题。该模型集成了三大核心视频配音任务:文本引导(TV2A)、文本控制(TC-V2A)以及参考音频控制(AC-V2A)。通过其独创的时空音视频编码器 CAV-MAE-ST、精妙的时间-音色解耦技术以及鲁棒的多模态训练策略,ControlFoley 实现了语义的精准对齐、音画的无缝同步以及音质的全面飞跃。在多项基准测试中,ControlFoley 均取得了开源模型领域的领先地位,并且其代码和模型权重已向公众开放。
ControlFoley 的核心功能
- TV2A(文本引导视频配音):您可以依据视频内容和文本提示,生成与画面完美同步的音效。文本在此扮演着补充画面声音语义的角色,让声音信息更加丰富。
- TC-V2A(文本控制视频配音):当文本描述与视频画面存在语义冲突时,ControlFoley 会优先采纳文本的意图,同时确保音频与视频在时间轴上保持同步,实现更具创造性的控制。
- AC-V2A(参考音频控制视频配音):通过提供一个参考音频,您可以指导模型生成具有特定音色风格的音效,而不会破坏视频原有的节奏感。
ControlFoley 的技术精髓
- 深度融合的视觉编码:我们自主研发的 CAV-MAE-ST 时空音视频编码器,专注于捕捉音视频在时空维度上的对应关系,从而深刻理解动作节奏和时间同步。它与 CLIP 的结合,确保了模型在理解语义和实现同步方面都表现出色。
- 时间与音色的巧妙分离:通过该技术,模型能够有效抑制参考音频中的时间信息,仅保留其全局的音色特征,从而避免了参考音频对视频同步性的干扰。
- 多模态的稳健训练:采用随机模态 dropout 和统一多模态表示对齐的训练方法,使得模型能够灵活适应各种输入组合。同时,通过 REPA 对齐目标,进一步提升了语义的一致性。
如何驾驭 ControlFoley
- 获取开源资源:您可以访问 ControlFoley 的 GitHub 仓库,下载代码和模型权重,或者直接体验官方提供的在线演示。
- 环境的精心配置:请依照仓库说明,详细安装所需的依赖环境,包括 Python 运行环境以及必要的音视频处理库。
- 任务模式的选择:根据您的创作需求,从 TV2A(文本引导)、TC-V2A(文本控制)或 AC-V2A(参考音频控制)中选择最适合的任务模式。
- 输入条件的准备:导入您的视频文件。如果您选择 TV2A 模式,请提供文本提示;若选择 TC-V2A,则输入与画面可能存在冲突的文本指令;若选择 AC-V2A,请上传您的参考音频文件。
- 执行生成推理:运行模型推理脚本。ControlFoley 将运用其联合视觉编码和时间-音色解耦机制,为您生成与视频完美同步的音效。
- 导出与后期处理:获取生成的音频后,通过 VAE Decoder 和 Vocoder 输出最终音轨,并将其与视频合成,即可完成高质量的配音工作。
ControlFoley 的突出优势
- 一体化的解决方案:一个模型即可覆盖文本引导、文本控制和参考音频控制三大类任务,无需频繁切换工具,极大提升了工作效率。
- 卓越的同步精度:我们自主研发的 CAV-MAE-ST 时空编码器显著增强了模型对音视频时序的理解能力,其音画对齐精度在开源竞品中遥遥领先。
- 精细的音色分离:时间-音色解耦技术确保了参考音频仅对音色风格产生影响,而不会干扰视频原有的节奏,保证了音频的自然流畅。
- 强大的控制鲁棒性:通过随机模态 dropout 和统一表示对齐训练,模型在面对单一或多模态输入时,都能输出稳定且高质量的结果。
- 开源领域的 SOTA 表现:在 VGGSound-Test、Kling-Audio-Eval 等多个基准测试中,ControlFoley 在语义对齐和声音质量方面均展现出全面的领先优势。
ControlFoley 的项目入口
- 项目官网:https://yjx-research.github.io/ControlFoley_web_page/
- GitHub 仓库:https://github.com/xiaomi-research/controlfoley
- HuggingFace 模型库:https://huggingface.co/YJX-Xiaomi/ControlFoley
- arXiv 技术论文:https://arxiv.org/abs/2604.15086
ControlFoley 与同类竞品之比较
| 对比维度 | ControlFoley | MMAudio | HunyuanVideo-Foley |
|---|---|---|---|
| 任务覆盖 | 全面支持 TV2A / TC-V2A / AC-V2A 三类可控任务 | 主要专注于 TV2A 基础视频配音 | 主要专注于 TV2A 基础视频配音 |
| 文本冲突处理 | 强大:在冲突场景下 DeSync 值仅为 0.36-0.38,优先遵从文本意图。 | 薄弱:文本内容易被视觉信息所覆盖。 | 薄弱:文本控制能力相对有限。 |
| 参考音频控制 | 支持,且通过时间-音色解耦技术,有效避免对同步性的破坏。 | 不支持此功能。 | 不支持此功能。 |
| 音画同步 | 卓越:借助 CAV-MAE-ST 编码器,极大地增强了时空对应能力。 | 良好。 | 良好。 |
| 开源状态 | 代码、模型权重、技术报告均完全开源。 | 开源。 | 开源。 |
ControlFoley 的应用场景畅想
- 短视频内容创作:为缺乏声音素材的视频添加符合创作者精确意图的定制化音效,有效规避模型自动猜测带来的偏差。
- 动画与游戏开发:为角色动作生成具有特定风格的打击声或环境音,例如将普通的敲门声替换为富有冲击力的木槌击鼓声。
- 影视后期制作:基于参考音频素材,统一全片音效的音色风格,确保品牌或系列作品的声音标识具有高度一致性。
- 广告营销推广:根据文本指令,快速生成与品牌调性高度匹配的同步配音,有力地强化节奏感和情感表达。
- 自媒体直播与二创:为直播剪辑或二次创作的视频补充多模态可控的沉浸式音频体验,显著提升内容的完整度和观赏性。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...


