机器之心 10月28日 19:11
Uni-Instruct:统一单步扩散模型蒸馏的理论框架
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

近期,研究者们提出了Uni-Instruct,一个统一的理论框架,旨在整合多种单步扩散模型蒸馏方法。该框架基于创新的f-散度扩散展开定理,将不同模型间的散度差异统一在一个动态积分过程中。通过引入新的梯度等价定理,Uni-Instruct推导出了一个可计算的损失函数,其梯度是现有Diff-Instruct和Score Implicit Matching梯度的加权组合。这一理论突破不仅统一了超过十种现有的蒸馏方法,还在图像生成等多项任务上取得了当前最优性能,并在ImageNet-64数据集上实现了历史最低的单步生成FID指标,展现出高效生成模型的巨大潜力。

💡 **理论统一与创新框架:** Uni-Instruct提出了一个名为“f-散度扩散展开定理”的统一理论框架,成功将Diff-Instruct、DMD、f-distill、SIM、SiD等十余种现有的单步扩散模型蒸馏方法整合在一个共同的理论体系之下。该框架通过将静态数据空间的f-散度推广到沿扩散过程的动态散度积分,为理解和发展高效扩散模型提供了全新的视角。

🚀 **卓越的性能提升:** Uni-Instruct在多个基准测试中取得了突破性进展。例如,在ImageNet-64数据集上,其单步生图模型实现了历史最低的1.02 FID指标,远超采样步数高达1000步的标准扩散模型。在CIFAR10数据集上,无条件生成FID达到1.46,条件生成FID达到1.38,均显著优于现有的一步生成模型。

🧩 **可计算的损失函数与梯度优化:** 尽管理论展开形式难以直接优化,Uni-Instruct通过引入新的梯度等价定理,推导出了一个等价且可计算的损失函数。该损失函数的梯度恰好是Diff-Instruct(DI)梯度和Score Implicit Matching(SIM)梯度的一个加权组合,使得模型训练更加高效且易于实现。

🌐 **广泛的应用潜力:** Uni-Instruct的威力不仅限于2D图像生成。研究者们已成功将其应用于文本到3D生成任务,作为一种知识迁移方法指导NeRF模型的优化,并在生成3D内容的质量和多样性上取得了优于SDS和VSD等现有方法的效果,展现了其在多模态生成领域的广泛前景。


近年来,单步扩散模型因其出色的生成性能和极高的推理效率,在图像生成、文本到视频、图像编辑等领域大放异彩。目前主流的训练方法是通过知识蒸馏,最小化学生模型与教师扩散模型之间的分布差异。然而,现有的方法主要集中在两条平行的理论技术路线上:


基于 KL 散度最小化的方法(如 Diff-Instruct[1],DMD[2] 等):收敛速度快,但可能存在模式崩溃问题,进而导致生成性能差。

基于分数散度最小化的方法(如 SIM[3],SiD[4] 等):蒸馏性能更好,但训练收敛较慢。


这两条路线似乎在理论上是割裂的。那么,我们能否将它们统一在一个共同的理论框架下?如果可以,这个统一的框架能否带来更强的模型性能? 


来自北京大学、小红书 hi lab 等机构的华人研究者共同提出了名为 Uni-Instruct 的单步生成大一统理论框架,目前已被 NeurIPS 2025 接收。该框架不仅从理论上统一了超过 10 种现有的单步扩散模型蒸馏方法,更是在多项任务上取得了当前最佳(SoTA)性能。



论文标题:Uni-Instruct: One-step Diffusion Model through Unified Diffusion Divergence Instruction

论文地址:https://arxiv.org/abs/2505.20755v4

代码:https://github.com/a-little-hoof/Uni_Instruct

论文单位:北京大学未来技术学院、国家生物医学成像中心、北京大学前沿交叉学科研究院、小红书 hi-lab

论文作者:Yifei Wang, Weimin Bai, Colin Zhang, Debing Zhang, Weijian Luo, He Sun


其中,经过基于展开的 Jeffrey-KL 散度(Expanded Jeffrey-KL divergence)用 Uni-Instruct 蒸馏得到的一步生图模型在 ImageNet-64 数据集上取得了历史历史最低 1.02 的单步生成 FID 指标,远超了 1000 步采样的扩散模型(参见图 2 右表)。


核心贡献:Uni-Instruct 理论框架


研究者们提出了一个名为 Uni-Instruct 的统一理论框架,其核心是创新的 f-散度扩散展开定理(diffusion expansion theory of the f-divergence family)。



简单来说,该定理推广了 De Bruijin 等式,将静态的数据空间教师模型与单步模型之间 f-散度扩展为沿扩散过程的动态散度积分。


虽然原始的展开形式难以直接优化,但团队通过引入新的梯度等价定理,推导出了一个等价且可计算的损失函数。



最令人惊喜的是,这个最终的损失函数梯度,恰好是 Diff-Instruct(DI)梯度和 Score Implicit Matching(SIM)梯度的一个加权组合!



通过选择不同的 f-散度函数(如 KL 散度、卡方散度等),Uni-Instruct 能够恢复出包括 Diff-Instruct[1]、DMD[2]、f-distill[5]、SIM[3]、SiD[4] 在内的十余种现有方法的损失函数。这不仅为理解现有工作提供了全新的高层视角,也标志着单步扩散模型理论大一统。


图注 1: Uni-Instruct 一步生成器在不同基准数据集上的生成效果。左:CIFAR10(无条件);中:CIFAR10(有条件);右:ImageNet 64x64(有条件)。可以看到,生成样本的质量和多样性都非常出色。


图注 2: Uni-Instruct 一步生成模型在不同基准数据集上的评测效果。左:CIFAR10(无条件);右:ImageNet 64x64(有条件)。可以看到,生成样本的质量和多样性都非常出色。Uni-Instruct 模型在两个评测榜单上都取得了巨大性能和效率优势。


实验结果


Uni-Instruct 在多个主流基准测试中取得了破纪录的性能:


CIFAR10:

无条件生成 FID 达到 1.46。

条件生成 FID 达到 1.38。

ImageNet 64x64:

条件生成 FID 达到 1.02,效果显著优于采样步数为 79 步的教师模型(1.02 vs 2.35)!


这些结果全面超越了 Diff-Instruct、Score Implicit Matching、f-distill、SiDA、DMD、Consistency Model 等之前的所有一步生成模型,甚至远超需要 1000 步采样的标准扩散模型。


更广泛的应用:

文本到 3D 生成


Uni-Instruct 的威力不止于 2D 图像。研究者们将其成功应用于文本到 3D 生成任务,作为一种知识迁移方法,用以指导 NeRF 模型的优化。


实验结果表明,相比于 SDS 和 VSD 等现有方法,Uni-Instruct 能够在生成 3D 内容的质量和多样性上取得更优异的效果。


图注 3:左图:ProlificDreamer 右图:Uni-Instruct


总结与展望


Uni-Instruct 提供了一个坚实的理论基础,成功地将十余种看似不同的扩散模型蒸馏方法囊括在一个统一的框架之下。这种理论大一统不仅带来了对高效扩散模型的深刻理解,其卓越的实证性能也为高效生成模型的未来研究开辟了新的道路。这项工作是高效生成模型领域的一次重要理论突破,我们期待它能激发更多关于扩散模型知识迁移和高效生成的前沿探索!


本工作由北京大学计算科学成像实验室本科生王翼飞与博士生柏为民合作完成。本论文的通讯作者罗维俭在北京大学数学院取得博士学位,现供职于小红书 hi lab 任多模态大模型研究员。末位作者为北京大学未来技术学院孙赫助理教授。


[1] Luo, Weijian, et al. "Diff-instruct: A universal approach for transferring knowledge from pre-trained diffusion models." Advances in Neural Information Processing Systems 36 (2023): 76525-76546.

[2] Yin, Tianwei, et al. "One-step diffusion with distribution matching distillation." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2024.

[3] Luo, Weijian, et al. "One-step diffusion distillation through score implicit matching." Advances in Neural Information Processing Systems 37 (2024): 115377-115408.

[4] Zhou, Mingyuan, et al. "Score identity distillation: Exponentially fast distillation of pretrained diffusion models for one-step generation." Forty-first International Conference on Machine Learning. 2024.

[5] Xu, Yilun, Weili Nie, and Arash Vahdat. "One-step Diffusion Models with $f$-Divergence Distribution Matching." arXiv preprint arXiv:2502.15681 (2025).



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


文章原文

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Uni-Instruct 单步扩散模型 知识蒸馏 f-散度 NeurIPS 2025 图像生成 One-step Diffusion Models Knowledge Distillation f-Divergence Image Generation
相关文章