MMAE

MMAE – 腾讯混元联合高校推出的音频编辑评测基准

MMAE，即 Massive Multitask Audio Editing Benchmark，是音频编辑领域一项开创性的、面向通用指令式音频编辑的大规模多任务评测基准。该基准由上海交通大学、上海创智学院、南洋理工大学以及腾讯混元团队等知名机构携手推出，旨在为下一代智能音频编辑系统构建一套标准化的、可解释的评测体系。

MMAE 的核心价值

MMAE 构建了一个庞大的真实场景音频编辑任务库，收录了 2,000 条模拟实际应用场景的音频编辑任务。与依赖合成数据进行评测的传统方法不同，MMAE 确保了评测结果的真实性和实用性。此外，该基准还包含 17,741 条细致入微的 rubric 评测项，能够从多个维度对系统进行评估。MMAE 的评测体系覆盖了 7 种音频模态，包括纯声音、音乐、语音以及它们的混合组合；任务难度被划分为 6 个级别，从简单的单元素编辑到复杂的跨轮次、多跳推理任务；操作类型则涵盖了 8 类核心编辑功能，包括局部属性的增删改查以及全局的背景/前景/属性调整。这种全面的覆盖为评估智能音频编辑系统的能力提供了坚实的基础。

MMAE 的关键功能亮点

真实世界任务集：MMAE 提供了 2,000 条源自真实场景的高保真音频编辑样本，彻底摒弃了可能存在分布偏移的合成数据，确保评测结果能够真实反映模型在实际应用中的表现。
三维系统化分类：MMAE 建立了 Modality（涵盖声音、音乐、语音及其混合共 7 种模态）、Complexity（从单步到多轮、多跳推理的 6 级难度）、Operation（局部属性编辑与全局属性调整共 8 类操作）的正交分类体系，使得对模型能力的评估更加系统和全面。
精细化 Rubric 评测：每条音频编辑样本都配备了平均约 9 条原子化、可验证的、选择题形式的 rubric。这些 rubric 从指令遵循度和“上下文一致性”两个维度进行评测，确保了评估的客观性和精确性。
多维度量化指标：MMAE 输出 IFR（指令遵循率）、CR（一致性率）和 EMR（精确匹配率）等指标，全面刻画了模型的平均能力和完美执行能力。
自动化评测流程：借助 Qwen3-Omni 多模态大模型作为评判器，MMAE 实现了对模型输出的自动、可复现评分，极大地提高了评测效率。

MMAE 的技术实现深度解析

人机协作标注流程：MMAE 的数据构建过程采用了五阶段的精细化流程：专家头脑风暴收集场景、构建分类学与评测范式、指令中心数据收集与动态平衡、人机协作 rubric 标注，以及最后的交叉审核质量检查，确保了数据的质量和多样性。
基于 Rubric 的评测范式：MMAE 将开放式的音频编辑任务分解为 17,741 条原子化的、正交的、客观的多选题。每条 rubric 仅聚焦于一个不可再分的属性，从而保证了评测结果的可解释性，并有效避免了信号级指标的模糊性。
双维度正交评估机制：IFR 维度用于衡量模型是否精确执行了指令中的修改要求，而 CR 维度则关注指令未涉及的部分是否得到了严格保留。这两者的结合能够有效防止模型采取“只改不保”或“只保不改”的投机取巧策略。
稳定可靠的评判机制：MMAE 使用 Qwen3-Omni 作为外部评判模型，每条 rubric 都查询三次并采用多数决，同时每次查询都随乱选项顺序，以消除潜在的位置偏见，确保评判的公正性和稳定性。

如何有效利用 MMAE

部署评判模型：首先，需要克隆 Qwen3-Omni 的官方仓库并配置好运行环境。然后，启动 vLLM 服务，并参考提供的脚本在 8 块 GPU 上部署两个 tensor-parallel=4 的实例，分别 8001 和 8002 端口。
准备预测结果：在 MMAE 基准元数据的基础上运行待评估的音频编辑模型，将模型的输出音频路径以 chatml 格式追加为 assistant 回复，并将其保存为 JSON 文件。
执行自动评估：最后，通过运行 python -m eval.score 命令，传入预测文件路径、评判模型 API 地址、音频根目录以及并发数等参数，即可自动生成 IFR、CR、EMR 等一系列评估指标。

MMAE 的突出优势

真实数据驱动的严谨性：所有样本均源自真实场景音频，经过多轮精细化修订和审核，有效规避了合成数据可能带来的分布偏移问题。
错误定位的精准性：与 FAD、CLAP 等仅提供总体评分的粗粒度指标不同，MMAE 的 rubric 体系能够精确诊断模型在哪个环节出现问题，为模型能力的提升提供了清晰的诊断路线图。
防投机设计的有效性：同时考核 IFR 和 CR 指标，并引入 EMR 指标，要求模型在准确修改内容和保留原有信息之间取得平衡，有效防止了单一策略的刷分现象。
跨模态的统一性：MMAE 首次将声音、音乐、语音及其混合场景纳入同一评测框架，解决了此前音频编辑基准高度碎片化、严格域受限的问题。
全覆盖的难度梯度：从最基础的单步单元素编辑到需要多跳推理和多轮上下文依赖的复杂任务，MMAE 全面覆盖了模型认知 pipeline 中的感知、推理、生成三个层面的能力。

MMAE 的项目资源

GitHub 仓库：https://github.com/ddlBoJack/MMAE
arXiv 技术论文：https://arxiv.org/pdf/2606.07229

MMAE 与同类竞品的深度对比

对比维度	MMAE	SpeechEditBench
定位	首个通用音频编辑评测基准（跨声音/音乐/语音）	双语多属性语音编辑评测基准（仅限语音）
覆盖模态	7 种：声音、音乐、语音及它们的混合组合	仅限语音（中文与英文双语）
数据规模	2,000 条真实场景样本 + 17,741 条 rubric	未公开具体样本数，覆盖 7 种原子属性编辑任务
任务类型	8 类操作 × 6 级复杂度（单步 → 多跳/多轮）	7 种原子属性：内容、情感、风格、韵律、副语言、说话人、声学；支持组合式多属性同时编辑
评测维度	IFR（指令遵循率）+ CR（一致性率）+ EMR（精确匹配率）	Target Success（目标达成率）+ Preservation Success（内容保持率）+ Joint Success（联合成功率）
评测粒度	Rubric 级：每条样本平均 9 条原子化多选题，可定位具体错误环节	属性级：每个原子任务有预定义阈值（如 WER≤10%、余弦相似度≥0.5、DNSMOS 增益>0 等）
评判器	Qwen3-Omni（多模态大模型，每条 rubric 查询 3 次取多数决）	Gemini（多模态大模型，用于情感/风格/副语言评判）+ Whisper（ASR）+ WavLM（说话人嵌入）+ PANNs（场景分类）

MMAE 的实际应用场景

音频编辑模型研发：为 Step-Audio-EditX、Ming-UniAudio、Audio-Omni 等模型的研究和开发提供标准化的能力评测和迭代诊断依据。
多模态大模型音频模块评估：用于评估统一音频理解、生成和编辑系统的跨模态编辑鲁棒性。
学术研究基准：作为不同音频编辑架构进行公平比较的公共测试平台，有力推动了领域的标准化进程。
工业质检环节：音频内容生产平台可以利用 MMAE 框架构建内部评测体系，从而筛选出最优的编辑模型部署上线。

阅读原文