InfinityHuman

InfinityHuman – 字节联合浙大推出的AI数字人视频生成模型

InfinityHuman：字节跳动与浙江大学携手打造的商用级长时序音频驱动人物视频生成新标杆，为AI数字人实用化开启全新可能。

InfinityHuman 是一款由字节跳动与浙江大合研发的尖端技术模型，专为生成高质量、长时序的音频驱动人物视频而设计，标志着AI数字人技术迈向了商业化应用的新纪元。该模型巧妙运用 coarse-to-fine 架构，首先生成低分辨率的动作表达，随后通过姿态引导细化器逐步精炼，最终输出高分辨率的逼真视频。为解决现有技术在手部动作上的痛点，InfinityHuman 特别引入了手部专属奖励机制，显著提升了手部动作的自然度和与语音的同步性，有效克服了身份漂移、画面不稳及手部动作僵硬等常见难题。在 EMTD 和 HDTF 数据集的评测中，InfinityHuman 均展现出卓越的性能，为虚拟主播、在线教育、客户服务等众多领域带来了前所未有的应用潜力。

InfinityHuman 的核心优势

时长与分辨率的突破：能够生成细节丰富、时长稳定的高分辨率人体动画视频，确保视觉连贯性。
灵动自然的手部演绎：通过精细的手部动作优化，实现逼真、精准且与语音完美契合的手部姿态。
坚若磐石的身份稳定性：借助姿态引导细化器和首帧视觉锚点，有效抑制累积误差，确保人物身份在长时间的视频中始终如一。
唇齿间的精准同步：实现人物口型与音频的毫秒级同步，极大地增强了视频的真实感。
百变风格的个性化呈现：支持生成多样化的角色风格，满足不同应用场景的个性化需求。

InfinityHuman 的技术内核

音频驱动的动作基石：模型首先解析音频信号，生成与语音节奏高度匹配的低分辨率动作序列（pose），为后续的高精度渲染奠定基础，确保整体的韵律感和口型准确性。
姿态引导的精细雕琢：在此基础上，姿态引导细化器发挥关键作用，将低分辨率的动作“蓝图”转化为细腻逼真的高分辨率视频。
- 稳定的姿态序列支撑：姿态序列作为中间桥梁，有效抵抗时间维度上的信息衰减，维持画面的视觉统一性。
- 首帧的视觉导航：将视频的首帧作为视觉基准，通过持续的参照与校正，确保人物身份和画面细节的长期准确性，最大程度地减少误差累积。
- 手部动作的专属优化：依托海量高质量手部动作数据训练，深度融合手部专属奖励机制，显著提升了手部动作的生动性与语音的同步精度。
多模态信息的融合之道：模型能够整合参考图像、文本描述以及音频等多维度信息，实现视觉听觉的双重协调与自然流畅。