CV君 2025-08-21 14:44 江苏
解决在微调T2V模型时存在的“分布漂移”问题
近年来,以Sora、Latte为代表的文生视频(T2V)大模型,凭借其惊人的生成能力,展示了AI在理解和创造动态世界方面的巨大潜力。一个自然而然的想法是:能否利用这些强大的预训练模型来“修复”那些画质不佳的旧视频或有瑕疵的AIGC视频?
一个直接的思路是使用ControlNet等技术,将低质量视频作为“条件”,引导T2V模型生成一个内容一致但画质更好的新视频。然而,来自阿里巴巴集团的研究者们发现,这条路并不平坦。直接在这种可控生成管线上对T2V模型进行微调,常常会导致“分布漂移”——模型为了适应修复任务,反而丢失了它从海量数据中学来的、宝贵的生成高质量、逼真纹理和时序连贯视频的能力,最终输出的视频质量不升反降。
为了解决这一核心矛盾,研究团队提出了 Vivid-VR,一种基于DiT(Diffusion Transformer)架构的生成式视频修复方法。其核心是一种全新的 概念蒸馏(Concept Distillation) 训练策略,它能巧妙地将T2V大模型本身对“高质量视频”的概念理解蒸馏出来,用于指导微调过程,从而在学会修复的同时,不忘记如何生成“大片”。
标题: Vivid-VR: Distilling Concepts from Text-to-Video Diffusion Transformer for Photorealistic Video Restoration
作者: Haoran Bai, Xiaoxu Chen, Canqian Yang, Zongyao He, Sibin Deng, Ying Chen
机构: 阿里巴巴集团
背景:大模型微调的“诅咒”
将一个在海量数据上预训练好的基础模型(Foundation Model)适配到下游任务,通常需要进行微调(Fine-tuning)。然而,当基础模型非常强大,而下游任务的数据集相对较小时,微调就可能带来一个严重的问题——灾难性遗忘(Catastrophic Forgetting)或分布漂移(Distribution Drift)。
在视频修复任务中,这意味着模型在学习“如何让生成内容与低质量输入保持一致”的过程中,可能会逐渐忘记它原本拥有的“如何生成丰富、逼真、多样的纹理”和“如何保持视频在时间维度上的连贯性”的知识。最终,模型虽然学会了“控制”,但其生成质量却出现了退化。如何让模型在学习新技能(修复)的同时,不丢掉老本领(高质量生成),是Vivid-VR试图解决的核心问题。
Vivid-VR:概念蒸馏与重塑控制
为了解决上述挑战,Vivid-VR从“训练策略”和“模型架构”两方面进行了创新。其整体框架如下图所示:
概念蒸馏:让大模型自己“出题”和“教学”
这是Vivid-VR最核心的创新。传统的视频修复训练,使用的是(低质量视频,高质量视频)的数据对。而Vivid-VR认为,直接使用真实的高质量视频作为目标,可能会与T2V大模型自身对世界的“理解”存在偏差,从而导致分布漂移。
因此,他们提出了一种全新的训练样本合成方法:
获取文本概念: 对于一个源视频(source video),首先用一个视频-语言模型(VLM)为其生成一段文字描述。
合成概念视频: 接着,利用 原始的、未经微调的T2V大模型,根据上一步生成的文字描述,从零开始生成一个全新的视频。这个新生成的视频,完美地蕴含了T2V大模型对于这段文字所描述概念的“理解”,其画质、纹理和动态都处于模型能力的最优分布上。
构建训练对: 最后,将原始的低质量视频作为输入,将这个由T2V模型自己生成的“概念视频”作为监督目标(Ground Truth),来训练修复网络。
通过这种方式,训练过程的目标不再是盲目地拟合真实数据,而是在保持内容一致性的前提下,学习如何将低质量视频恢复到T2V大模型自身所理解的“高质量”状态。这相当于大模型自己出题、自己教学,从而极大地缓解了分布漂移问题,保留了宝贵的生成先验。
重塑控制架构:更精准的内容引导
除了训练策略,Vivid-VR还对ControlNet的控制架构进行了两点关键改进,以实现更强的可控性:
控制特征投影器: 在低质量视频的特征进入ControlNet之前,增加一个“过滤器”(Control Feature Projector),专门用于滤除原始视频中的噪点、模糊等退化伪影。这能防止这些瑕疵“污染”生成过程,让ControlNet更专注于引导内容结构。
双分支连接器: 设计了一个新的ControlNet连接器,它包含一个MLP分支和一个交叉注意力(Cross-Attention)分支。这种设计让模型可以动态地、自适应地检索和调节控制信号,在“保留内容”和“提升画质”之间取得更好的平衡。
实验与结果
Vivid-VR在合成数据、真实世界视频以及AIGC视频等多个基准上都进行了广泛的实验,并取得了SOTA(State-of-the-Art)性能。
定量分析
在涵盖合成、真实、AIGC视频的多个数据集上,Vivid-VR在多项关键指标上均优于现有方法,尤其是在衡量生成质量和真实感的非参考指标(如CLIPIQA, DOVER)上优势明显。
定性分析
视觉效果的对比更加直观。如下图所示,无论是对于真实世界的低质量视频,还是本身就有瑕疵的AIGC视频,Vivid-VR都能生成结构更合理、纹理更逼真生动的修复结果。
消融实验也充分证明了“概念蒸馏”策略的有效性。下图对比了使用(CD)和不使用该策略的修复结果,可以清晰地看到,概念蒸馏显著提升了视频的纹理细节和时序一致性。
论文贡献与价值
CV君认为,Vivid-VR的探索为如何将强大的生成式基础模型应用于下游视频处理任务提供了一份极具价值的“操作指南”。其核心贡献在于:
提出了概念蒸馏策略: 巧妙地解决了在微调可控生成管线时普遍存在的“分布漂移”问题。这种“让大模型自己教自己”的思路,为保留基础模型的生成先验提供了一种全新的、行之有效的范式。
改进了可控生成架构: 通过引入特征投影器和双分支连接器,提升了内容控制的精准度和自适应能力,更好地平衡了内容保真度与生成质量。
实现了SOTA的视频修复效果: 在多个基准上验证了方法的有效性,尤其是在提升视频的纹理真实感、视觉生动性和时间一致性方面,效果显著。
总而言之,Vivid-VR不仅是一个高性能的视频修复工具,更重要的是,它为整个AIGC领域如何“驾驭”和“适配”日益强大的基础模型,提供了一个富有启发性的成功案例。随着代码和模型的开源,有理由期待这一思想将在更多视频生成与处理任务中开花结果。
了解最新 AI 进展,欢迎关注公众号:aicvml投稿寻求报道请发邮件至:amos@52cv.net欢迎点赞、转发、评论。
