
导读: 算泥社区,一个集AI大模型开发服务、算法与算力于一体的开源生态,正以前沿技术驱动AI创作边界。文本到图像生成领域,在DALL-E、Midjourney、Stable Diffusion等模型的推动下,已达百花齐放之境。然而,如何让AI生成的图像摆脱“AI味”,真正贴近人类的审美偏好,一直是行业难题。腾讯混元团队联合香港中文大学(深圳)及清华大学深圳国际研究生院的专家,重磅推出“语义相对偏好优化”(SRPO)技术,显著提升了AI生成图像的审美、真实感与艺术感,并将训练时间大幅缩短至十分钟。这项突破性进展,解决了AI审美学习的计算成本高昂、奖励模型离线调试繁琐两大痛点。

AI图像生成的审美困境
近年来,文本到图像生成技术取得了飞跃式发展。从最初的DALL-E,到如今百花齐放的模型,AI已经能够根据文本描述创造出令人惊叹的视觉作品。然而,这些成果往往在技术上达到了“正确”,却难以触及人类内心深处的“美”。生成的图像常常带有明显的“AI痕迹”,缺乏人类所追求的自然、逼真与艺术韵味。究其原因,人类的审美标准复杂且主观,如何将这种“玄学”般的偏好量化并注入AI模型,一直是研究者们面临的巨大挑战。传统的强化学习方法,通过引入“审美裁判”(奖励模型)来指导AI学习,即AI创作一张图,裁判打分,好则奖励,差则惩罚。但这种方式存在两大顽疾:一是“奖励黑客”现象,AI为了追求高分,可能钻评分漏洞,生成表面上分数高但质量低劣的图像,例如偏爱某种颜色或细节极简的“光滑”图像;二是优化范围受限,强化学习通常只能在生成过程的末端进行微调,对于早期阶段的生成轨迹难以干预,这进一步加剧了奖励黑客问题。此外,现有的奖励模型往往基于有限的数据和过时的模型训练,其“审美”判断带有固有偏见,难以适应当前生成模型日新月异的发展和日益挑剔的用户需求,往往需要昂贵的离线微调才能勉强胜任。
Direct-Align:加速AI图像生成的“传送门”
面对上述挑战,腾讯混元团队与合作者们并未退缩,而是选择正面突破。他们首先推出的法宝是Direct-Align。其核心理念堪称点睛之笔:摒弃繁琐的回溯式计算,直接构建一个“传送门”,允许从生成过程中的任何时间点一步到位地恢复出最终的清晰图像。这一创新源于扩散模型的一个内在数学特性——在任意噪声水平\(t\)下,带噪声图像\(x_t\)实际上是原始清晰图像\(x_0\)与高斯噪声\(\epsilon_{gt}\)的线性组合。Direct-Align正是基于此洞察,不再依赖多步迭代采样,而是通过引入真实的噪声先验,利用封闭形式的解析解,瞬间完成图像的恢复。这一技术彻底规避了迭代采样可能导致的梯度等优化不稳定性问题,使得优化过程极为稳健。更重要的是,Direct-Align能够从生成轨迹的任何阶段进行优化,即使是在噪声极大的早期阶段,也能精准恢复图像,这意味着可以在整个生成过程中进行优化,而非仅限于最后几个步骤。为了进一步增强优化稳定性,Direct-Align还引入了一个奖励聚合框架。它从一张清晰图像\(x_0\)出发,生成一系列不同噪声程度的中间状态,对每个状态进行“一步恢复”并计算奖励得分。随后,这些得分通过带有衰减折扣因子的方式进行聚合,最后统一进行梯度更新。关键的折扣因子能够赋予早期阶段奖励更高的权重,有效遏制模型在后期阶段为了追求分数而产生的“奖励黑客”行为。

Direct-Align的卓越之处体现在:它实现了在生成过程早期进行优化,这在以往是难以想象的;它摆脱了多步采样的束缚,极大地提升了计算效率;其优化过程极其稳定,有效避免了梯度;通过全局优化和奖励聚合,它显著缓解了奖励黑客问题。可以说,Direct-Align成功地消除了“计算成本高昂”和“优化范围狭窄”这两座横亘在AI图像生成道路上的大山。
SRPO:AI的“高级审美”调校大师
在Direct-Align奠定的坚实基础上,真正的王牌——语义相对偏好优化(SRPO)——横空出世。若Direct-Align解决了“效率”与“范围”的问题,那么SRPO则直击“审美”与“控制”这两个终极难题。其核心创新在于,将抽象的“奖励信号”转化为可通过文本精确控制的“偏好信号”。这意味着,用户可以实时、动态地向AI传达自己的意图,而无需依赖昂贵的离线奖励模型训练。SRPO的架构看似简洁,实则巧妙地融合了Direct-Align与奖励模型。它运用“语义引导偏好”(Semantic Guided Preference)和“语义相对偏好”(Semantic-Relative Preference)两大机制,实现了对AI审美的精细化。研究团队发现,文本提示(prompt)是可以纵的。通过在原始提示前添加特定的“控制词”,例如“一张逼真的照片”,就能够巧妙地引导奖励模型的评分偏好。这如同向裁判发出指令:“今天我们侧重‘真实感’的评估标准”,裁判便会心领神会地调整其评分逻辑。这一发现具有划时代的意义,它表明可以通过简单的文本操作,转移奖励的偏好,实现可控的审美引导。然而,仅仅引导还不足以完全解决奖励模型的固有偏见。例如,即使引导关注“真实感”,如果奖励模型本身偏爱红色,它仍可能倾向于给带有红色的“真实”照片打高分。为应对此挑战,“语义相对偏好”机制应运而生。以往的方法可能通过引入多个具有不同偏见的奖励模型来寻求折衷,但这往往只能获得平庸的结果。SRPO则另辟蹊径,它洞察到奖励模型的偏见主要源于其图像编码器。因此,它创造性地提出:使用同一个奖励模型,针对同一张图像,生成一对“正向”和“反向”的奖励信号。具体实现方式是通过提示增强。例如,输入一个“正向”提示“一张逼真的照片”,和一个“负向”提示“一张卡通画”,让奖励模型对同一张图进行两次评分。在优化过程中,模型会努力靠近“逼真”的特征,同时主动规避“卡通”的特征。在这个过程中,两个信号中都存在的奖励模型的一般性偏见(如对红色的偏爱)会因为一正一负而被抵消,而我们真正期望的语义差异(逼真与卡通)则被保留并放大。这种操作堪称天才之举!
更有趣的是,借助Direct-Align的双向优化能力,SRPO还实现了一种名为“基于反转的正则化”的创新玩法。在去噪(正向)过程中,模型执行梯度上升,学习好的偏好;而在加噪(反向)过程中,则执行梯度下降,惩罚坏的偏好。通过在不同时间步解耦奖励项和惩罚项,SRPO进一步增强了优化的鲁棒性,使得奖励黑客无处遁形。SRPO的优势是颠覆性的:它实现了在线奖励调整,用户只需修改提示词即可指挥AI,告别了繁琐的微调;通过正负样本对比,从根本上缓解了奖励黑客问题;能够实现对画面风格、质感的精细化控制。最关键的是,它继承了Direct-Align的高效率,以极低的成本完成了这一重大突破。
性能实测:数据与人眼的双重认可
为了验证SRPO的强大能力,研究团队在FLUX.1.dev这一顶级的开源文生图模型上进行了严格的性能测试。他们选用行业公认的HPSv2.1作为奖励模型,并在人类偏好数据集HPDv2上进行训练,随后与ReFL、DRaFT-LV、DanceGRPO等主流在线强化学习方法进行了全方位的对比。评估维度兼顾了自动化指标和人类主观评价。在自动化评估方面,SRPO在美学分数(Aesthetic Score)和PickScore上均位列第一。尤为惊人的是其训练效率,仅需5.3个GPU小时(约等于10分钟),而效果相当的DanceGRPO却需要480个GPU小时,效率提升了近90倍。人类评估的结果更是令人瞩目。在逼真度、美学和总体偏好方面,SRPO实现了断层式的领先。其逼真度“优秀”率从基线模型的8.2%飙升至38.9%,提升了近五倍;美学“优秀”率从9.8%提升至40.5%;整体偏好“优秀”率则从5.3%提升至29.4%。这意味着,在未增加额外训练数据的情况下,SRPO系统性、大幅度地提升了大规模扩散模型的逼真度,堪称前所未有。

团队还进行了深入的详细分析,例如在不同奖励模型(CLIP、PickScore、HPSv2.1)下的表现,发现SRPO的增强效果具有普适性,无论在何种评价标准下都能稳定发挥。他们还证明了在生成过程早期进行优化对于避免奖励黑客至关重要,仅在后期优化时,被“黑”的概率会显著增加。最令人兴奋的是其精细化的控制能力。通过简单的“控制词”,SRPO就能让模型在“明亮”、“暗黑”、“油画”、“漫画”、“赛博朋克”等多种风格之间自如切换。实验结果表明,在奖励模型训练数据现频率较高的词汇,如“油画”,控制效果尤为显著。对于一些较少见的风格,如“文艺复兴”,虽然效果稍弱,但通过组合提示(如“文艺复兴风格的油画”)也能获得改善。这为未来个性化、定制化图像生成开辟了广阔的想象空间。





尽管SRPO已展现出惊人的实力,研究团队仍谦虚地指出了其局限性,例如对某些冷门风格的控制力仍有待加强,以及内部工作机制的可解释性尚需进一步深入研究。SRPO方法的出现,凭借其极致的效率和卓越的质量,将AI从单纯的“模仿者”转变为能够理解并执行人类复杂审美需求的“艺术家”。