智源社区 10月23日 23:32
rCM:高效蒸馏大规模生成模型的新范式
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

清华大学与NVIDIA研究组联合提出了一种名为rCM(分数正则化连续时间一致性模型)的新型大规模扩散模型蒸馏范式。该方法成功将连续时间蒸馏扩展至百亿参数级别的文生图和文生视频模型,解决了现有方法在工程实现和生成质量上的瓶颈。通过引入前向-反向散度联合优化框架,rCM在大幅提升推理速度(高达50倍)的同时,有效兼顾了生成结果的高质量和高多样性,尤其在细节渲染和时序稳定性方面表现出色,为大规模AI生成模型的应用落地提供了新思路。

💡 **rCM提出了一种创新的大规模扩散模型蒸馏范式:** 该范式名为分数正则化连续时间一致性模型(rCM),由清华大学朱军教授团队与NVIDIA Deep Imagination研究组联合提出。它首次将连续时间一致性蒸馏成功应用于百亿参数级别的文生图和文生视频模型,突破了现有方法的工程瓶颈。

🚀 **显著提升推理速度与生成质量:** rCM通过引入前向-反向散度联合优化框架,在保持高质量和高多样性的前提下,将推理速度提升高达50倍。实验表明,rCM在T2I和T2V任务中,仅需1-4步采样即可达到或超越需要数百步采样的教师模型的性能,尤其在细节文字渲染和视频时序稳定性方面表现优异。

⚖️ **前向-反向散度联合优化实现“双赢”:** rCM结合了前向散度(保证多样性)和反向散度(通过分数蒸馏聚焦高质量区域)的优势。前向散度确保模型覆盖真实数据的全部模式,而反向散度则引导模型生成高密度、高质量的样本,从而有效解决了单纯前向散度方法在精细纹理和时序稳定性上的不足,实现了质量与多样性的兼顾。

让视频生成提速50倍,不穿模还不糊字。

新蒸馏范式让Wan2.1 14B仅需4步就生成吃火锅视频:

这是清华大学朱军教授团队, NVIDIA Deep Imagination研究组联合提出的一种全新的大规模扩散模型蒸馏范式——

分数正则化连续时间一致性模型 (Score-Regularized Continuous-Time Consistency Model, rCM)。

该方法首次将连续时间一致性蒸馏成功扩展至百亿参数级别的文生图和文生视频模型,解决了现有方法在真实应用场景中的瓶颈。

通过引入前向-反向散度联合优化框架,rCM在大幅提升推理速度(高达50倍)的同时,兼顾了生成结果的高质量与高多样性。

下面具体来看。

连续时间一致性蒸馏:从学术“刷点”到应用落地

近年来,以扩散模型为代表的生成模型取得了巨大成功,但其迭代采样的慢推理速度始终是阻碍其广泛应用的核心障碍。

为解决此问题,模型蒸馏技术应运而生,其中,OpenAI近期提出的连续时间一致性模型 (sCM),因其理论的优雅性和在学术数据集上的良好表现而备受关注。

今年5月份,何恺明加持的MeanFlow,作为sCM的热门变体,在学术界掀起了研究热潮。

然而,尽管相关研究层出不穷,但它们大多局限于在ImageNet等学术数据集上进行“小打小闹”式的验证,距离真实世界中动辄数十亿、上百亿参数的大规模文生图、文生视频应用场景相去甚远。

究其原因,sCM/MeanFlow依赖的雅可比-向量积 (Jacobian-Vector Product, JVP) 计算在现有深度学习框架下存在巨大的工程挑战,尤其是在与FlashAttention-2、序列并行等大模型训练“标配”技术结合时,这使得sCM迟迟未能在大模型时代兑现其潜力。

同时,学术界关心的FID等指标,往往不能很好的衡量真实应用场景下的细节生成,如文生图时对细小文字的渲染。因此,sCM/MeanFlow在大规模应用中的效果亟待验证

rCM:前向-反向散度联合优化,实现质量与多样性“双赢”

为了打破这一僵局,团队首先从底层“硬骨头”啃起。

通过自研FlashAttention-2 JVP CUDA算子并兼容序列并行等分布式训练策略,首次成功将连续时间一致性蒸馏应用到CosmosWan2.1等业界领先的大模型上。

然而,初步的实验暴露出单纯sCM的深层问题:模型在生成精细纹理(如文字)和保证视频的时序稳定性方面存在明显缺陷。

理论分析指出,这是由于sCM所依赖的前向散度(Forward Divergence)优化目标具有“模式覆盖(mode-covering)”的倾向,会因误差累积导致生成样本质量下降。

受此启发,团队创新性地提出了rCM

rCM 在sCM的基础上,引入了基于分数蒸馏的反向散度(Reverse Divergence)作为正则项,构建了一个前向-反向联合蒸馏框架。

    前向散度(sCM)
    训练数据为真实数据或教师合成的高质量数据,保证模型能覆盖真实数据的全部模式,从而确保生成结果的高多样性
    反向散度(Score Distillation)
    学生模型只在自己生成的样本上被监督,强制模型聚焦于高密度(高质量)数据区域,具有“模式寻求(mode-seeking)”的特性,从而显著提升生成结果的高质量

这种联合优化,使得rCM能够取长补短,在保持sCM高多样性优势的同时,有效修复其质量短板,最终实现“鱼与熊掌兼得”。

实验:2-4步媲美教师模型,多样性超越SOTA

rCM在多个大规模文生图和文生视频任务中展现了卓越的性能,将教师模型上百步的采样过程压缩至惊人的1-4步,实现了15-50倍的推理加速。

    性能媲美甚至超越教师模型
    在T2I任务的GenEval评测和T2V任务的VBench评测中,4步采样的rCM模型在多个指标上追平甚至超越了需要数百步采样的教师模型。

同时,rCM在细节文字渲染等方面表现良好。

    多样性显著优势
    相较于先前的SOTA蒸馏方法DMD2,rCM生成的视频内容(如怪兽的姿态、烛光的位置)展现出明显更高的多样性,有效避免了“模式坍缩”问题。这证明了联合利用前向-反向散度的巨大潜力。
Wan2.1 1.3B使用不同算法蒸馏后的4步生成结果
    极致的少步数生成
    即便在1-2步的极限采样设置下,rCM依然能产出高质量、细节丰富的图像和视频。具体地,对于简单的图像提示词只需1步生成,复杂的图像和视频则需2-4步。

rCM不仅提供了一个无需多阶段训练与复杂超参搜索的高效蒸馏方案,还揭示了结合前向与反向散度是提升生成模型性能的统一范式

rCM未来将被更广泛地应用在NVIDIA的Cosmos系列世界模型中。

感兴趣的朋友可到原文查看更多细节~

论文地址:https://arxiv.org/abs/2510.08431
代码地址:https://github.com/NVlabs/rcm

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

我们正在招聘一名眼疾手快、关注AI的学术编辑实习生 🎓

感兴趣的小伙伴欢迎关注 👉 了解详情

🌟 点亮星标 🌟

科技前沿进展每日见

内容中包含的图片若涉及版权问题,请及时与我们联系删除

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

rCM 扩散模型 模型蒸馏 生成模型 人工智能 视觉生成 文生视频 文生图 NVIDIA 清华大学 score distillation continuous-time consistency model large-scale generative models AI
相关文章