ControlFoley

AI工具1小时前更新 AI工具集
0 0 0

ControlFoley – 小米开源的可控视频音效生成模型

ControlFoley:小米推出的革新性视频音效生成模型,赋能可控性视频配音新纪元。

ControlFoley 究竟是什么?

ControlFoley 是小米精心研发并开源的视频音效生成模型,旨在攻克视频到音频(V2A)领域长期存在的“可控性”难题。该模型集成了三大核心视频配音任务:文本引导(TV2A)、文本控制(TC-V2A)以及参考音频控制(AC-V2A)。通过其独创的时空音视频编码器 CAV-MAE-ST、精妙的时间-音色解耦技术以及鲁棒的多模态训练策略,ControlFoley 实现了语义的精准对齐、音画的无缝同步以及音质的全面飞跃。在多项基准测试中,ControlFoley 均取得了开源模型领域的领先地位,并且其代码和模型权重已向公众开放。

ControlFoley 的核心功能

  • TV2A(文本引导视频配音):您可以依据视频内容和文本提示,生成与画面完美同步的音效。文本在此扮演着补充画面声音语义的角色,让声音信息更加丰富。
  • TC-V2A(文本控制视频配音):当文本描述与视频画面存在语义冲突时,ControlFoley 会优先采纳文本的意图,同时确保音频与视频在时间轴上保持同步,实现更具创造性的控制。
  • AC-V2A(参考音频控制视频配音):通过提供一个参考音频,您可以指导模型生成具有特定音色风格的音效,而不会破坏视频原有的节奏感。

ControlFoley 的技术精髓

  • 深度融合的视觉编码:我们自主研发的 CAV-MAE-ST 时空音视频编码器,专注于捕捉音视频在时空维度上的对应关系,从而深刻理解动作节奏和时间同步。它与 CLIP 的结合,确保了模型在理解语义和实现同步方面都表现出色。
  • 时间与音色的巧妙分离:通过该技术,模型能够有效抑制参考音频中的时间信息,仅保留其全局的音色特征,从而避免了参考音频对视频同步性的干扰。
  • 多模态的稳健训练:采用随机模态 dropout 和统一多模态表示对齐的训练方法,使得模型能够灵活适应各种输入组合。同时,通过 REPA 对齐目标,进一步提升了语义的一致性。

如何驾驭 ControlFoley

  • 获取开源资源:您可以访问 ControlFoley 的 GitHub 仓库,下载代码和模型权重,或者直接体验官方提供的在线演示。
  • 环境的精心配置:请依照仓库说明,详细安装所需的依赖环境,包括 Python 运行环境以及必要的音视频处理库。
  • 任务模式的选择:根据您的创作需求,从 TV2A(文本引导)、TC-V2A(文本控制)或 AC-V2A(参考音频控制)中选择最适合的任务模式。
  • 输入条件的准备:导入您的视频文件。如果您选择 TV2A 模式,请提供文本提示;若选择 TC-V2A,则输入与画面可能存在冲突的文本指令;若选择 AC-V2A,请上传您的参考音频文件。
  • 执行生成推理:运行模型推理脚本。ControlFoley 将运用其联合视觉编码和时间-音色解耦机制,为您生成与视频完美同步的音效。
  • 导出与后期处理:获取生成的音频后,通过 VAE Decoder 和 Vocoder 输出最终音轨,并将其与视频合成,即可完成高质量的配音工作。

ControlFoley 的突出优势

  • 一体化的解决方案:一个模型即可覆盖文本引导、文本控制和参考音频控制三大类任务,无需频繁切换工具,极大提升了工作效率。
  • 卓越的同步精度:我们自主研发的 CAV-MAE-ST 时空编码器显著增强了模型对音视频时序的理解能力,其音画对齐精度在开源竞品中遥遥领先。
  • 精细的音色分离:时间-音色解耦技术确保了参考音频仅对音色风格产生影响,而不会干扰视频原有的节奏,保证了音频的自然流畅。
  • 强大的控制鲁棒性:通过随机模态 dropout 和统一表示对齐训练,模型在面对单一或多模态输入时,都能输出稳定且高质量的结果。
  • 开源领域的 SOTA 表现:在 VGGSound-Test、Kling-Audio-Eval 等多个基准测试中,ControlFoley 在语义对齐和声音质量方面均展现出全面的领先优势。

ControlFoley 的项目入口

  • 项目官网:https://yjx-research.github.io/ControlFoley_web_page/
  • GitHub 仓库:https://github.com/xiaomi-research/controlfoley
  • HuggingFace 模型库:https://huggingface.co/YJX-Xiaomi/ControlFoley
  • arXiv 技术论文:https://arxiv.org/abs/2604.15086

ControlFoley 与同类竞品之比较

对比维度ControlFoleyMMAudioHunyuanVideo-Foley
任务覆盖全面支持 TV2A / TC-V2A / AC-V2A 三类可控任务主要专注于 TV2A 基础视频配音主要专注于 TV2A 基础视频配音
文本冲突处理强大:在冲突场景下 DeSync 值仅为 0.36-0.38,优先遵从文本意图。薄弱:文本内容易被视觉信息所覆盖。薄弱:文本控制能力相对有限。
参考音频控制支持,且通过时间-音色解耦技术,有效避免对同步性的破坏。不支持此功能。不支持此功能。
音画同步卓越:借助 CAV-MAE-ST 编码器,极大地增强了时空对应能力。良好。良好。
开源状态代码、模型权重、技术报告均完全开源。开源。开源。

ControlFoley 的应用场景畅想

  • 短视频内容创作:为缺乏声音素材的视频添加符合创作者精确意图的定制化音效,有效规避模型自动猜测带来的偏差。
  • 动画与游戏开发:为角色动作生成具有特定风格的打击声或环境音,例如将普通的敲门声替换为富有冲击力的木槌击鼓声。
  • 影视后期制作:基于参考音频素材,统一全片音效的音色风格,确保品牌或系列作品的声音标识具有高度一致性。
  • 广告营销推广:根据文本指令,快速生成与品牌调性高度匹配的同步配音,有力地强化节奏感和情感表达。
  • 自媒体直播与二创:为直播剪辑或二次创作的视频补充多模态可控的沉浸式音频体验,显著提升内容的完整度和观赏性。
阅读原文
© 版权声明

相关文章

AI聚合视觉工厂

暂无评论

暂无评论...