ControlFoley

ControlFoley – 小米开源的可控视频音效生成模型

ControlFoley：小米推出的革新性视频音效生成模型，赋能可控性视频配音新纪元。

ControlFoley 究竟是什么？

ControlFoley 是小米精心研发并开源的视频音效生成模型，旨在攻克视频到音频（V2A）领域长期存在的“可控性”难题。该模型集成了三大核心视频配音任务：文本引导（TV2A）、文本控制（TC-V2A）以及参考音频控制（AC-V2A）。通过其独创的时空音视频编码器 CAV-MAE-ST、精妙的时间-音色解耦技术以及鲁棒的多模态训练策略，ControlFoley 实现了语义的精准对齐、音画的无缝同步以及音质的全面飞跃。在多项基准测试中，ControlFoley 均取得了开源模型领域的领先地位，并且其代码和模型权重已向公众开放。

ControlFoley 的核心功能

TV2A（文本引导视频配音）：您可以依据视频内容和文本提示，生成与画面完美同步的音效。文本在此扮演着补充画面声音语义的角色，让声音信息更加丰富。
TC-V2A（文本控制视频配音）：当文本描述与视频画面存在语义冲突时，ControlFoley 会优先采纳文本的意图，同时确保音频与视频在时间轴上保持同步，实现更具创造性的控制。
AC-V2A（参考音频控制视频配音）：通过提供一个参考音频，您可以指导模型生成具有特定音色风格的音效，而不会破坏视频原有的节奏感。

ControlFoley 的技术精髓

深度融合的视觉编码：我们自主研发的 CAV-MAE-ST 时空音视频编码器，专注于捕捉音视频在时空维度上的对应关系，从而深刻理解动作节奏和时间同步。它与 CLIP 的结合，确保了模型在理解语义和实现同步方面都表现出色。
时间与音色的巧妙分离：通过该技术，模型能够有效抑制参考音频中的时间信息，仅保留其全局的音色特征，从而避免了参考音频对视频同步性的干扰。
多模态的稳健训练：采用随机模态 dropout 和统一多模态表示对齐的训练方法，使得模型能够灵活适应各种输入组合。同时，通过 REPA 对齐目标，进一步提升了语义的一致性。

如何驾驭 ControlFoley

获取开源资源：您可以访问 ControlFoley 的 GitHub 仓库，下载代码和模型权重，或者直接体验官方提供的在线演示。
环境的精心配置：请依照仓库说明，详细安装所需的依赖环境，包括 Python 运行环境以及必要的音视频处理库。
任务模式的选择：根据您的创作需求，从 TV2A（文本引导）、TC-V2A（文本控制）或 AC-V2A（参考音频控制）中选择最适合的任务模式。
输入条件的准备：导入您的视频文件。如果您选择 TV2A 模式，请提供文本提示；若选择 TC-V2A，则输入与画面可能存在冲突的文本指令；若选择 AC-V2A，请上传您的参考音频文件。
执行生成推理：运行模型推理脚本。ControlFoley 将运用其联合视觉编码和时间-音色解耦机制，为您生成与视频完美同步的音效。
导出与后期处理：获取生成的音频后，通过 VAE Decoder 和 Vocoder 输出最终音轨，并将其与视频合成，即可完成高质量的配音工作。

ControlFoley 的突出优势

一体化的解决方案：一个模型即可覆盖文本引导、文本控制和参考音频控制三大类任务，无需频繁切换工具，极大提升了工作效率。
卓越的同步精度：我们自主研发的 CAV-MAE-ST 时空编码器显著增强了模型对音视频时序的理解能力，其音画对齐精度在开源竞品中遥遥领先。
精细的音色分离：时间-音色解耦技术确保了参考音频仅对音色风格产生影响，而不会干扰视频原有的节奏，保证了音频的自然流畅。
强大的控制鲁棒性：通过随机模态 dropout 和统一表示对齐训练，模型在面对单一或多模态输入时，都能输出稳定且高质量的结果。
开源领域的 SOTA 表现：在 VGGSound-Test、Kling-Audio-Eval 等多个基准测试中，ControlFoley 在语义对齐和声音质量方面均展现出全面的领先优势。

ControlFoley 的项目入口

项目官网：https://yjx-research.github.io/ControlFoley_web_page/
GitHub 仓库：https://github.com/xiaomi-research/controlfoley
HuggingFace 模型库：https://huggingface.co/YJX-Xiaomi/ControlFoley
arXiv 技术论文：https://arxiv.org/abs/2604.15086

ControlFoley 与同类竞品之比较

对比维度	ControlFoley	MMAudio	HunyuanVideo-Foley
任务覆盖	全面支持 TV2A / TC-V2A / AC-V2A 三类可控任务	主要专注于 TV2A 基础视频配音	主要专注于 TV2A 基础视频配音
文本冲突处理	强大：在冲突场景下 DeSync 值仅为 0.36-0.38，优先遵从文本意图。	薄弱：文本内容易被视觉信息所覆盖。	薄弱：文本控制能力相对有限。
参考音频控制	支持，且通过时间-音色解耦技术，有效避免对同步性的破坏。	不支持此功能。	不支持此功能。
音画同步	卓越：借助 CAV-MAE-ST 编码器，极大地增强了时空对应能力。	良好。	良好。
开源状态	代码、模型权重、技术报告均完全开源。	开源。	开源。