2025-10-17 16:18 江苏
本文为粉丝投稿,原文链接:https://zhuanlan.zhihu.com/p/1959430260706744130。
本文距离上一篇文章Real-world Super-Resolution | 真实世界超分辨率正好两年了。这两年的时间,我开始转向video super-resolution(VSR),经历了VSR从传统判别模型(cnn/transformer-based)彻底转向生成模型(diffusion-based)的过程。
而此时此刻,VSR又再次面临了生成范式下,Text-to-Image (T2I) 和Text-to-Video (T2V)基模的抉择(先按下不表train from scratch的SeedVR[1]系列)。为了梳理这些问题,也为了宣传一下我们NIPS2025的工作DLoRAL,谨以此文进行记录。
老规矩,本文的太长不看版:
VSR经历了从判别模型到生成模型的转变,"多帧"的意义也发生了变化。在判别模型时代,transformer/cnn网络并不足以将每一帧画质都恢复得很好,因此每一帧的恢复都需要借助上下文多帧的信息来补充更多细节,提高恢复质量。而在生成时代,diffusion足以将每一帧画质都恢复好,上下文多帧更多起到协调consistency、压制随机性的作用。
生成时代,VSR正在经历着从T2I基模主导到T2V基模崛起的转变。以SD和Flux为首的T2I基模,在后续finetune到VSR任务时提供了强大的生图能力,但却没能兼顾consistency;而后起之秀的CogVideo和Wan等T2V基模,则提供了更强的consistency先验,但画质却不如前者。但无论选择什么基模,选择finetune还是train from scratch,本质上, 仍然是per-frame image quality和帧间consistency之间的博弈。
目前来看,T2V-based、T2I-based、train from scratch的模型都没有提供VSR的标准答案,也难以定性孰优孰劣。
本文参考的paper顺序来自于https://github.com/yjsunnn/Awesome-video-super-resolution-diffusion.
以下是详细正文
T2I-based VSR
自从Stable Diffusion、Flux等T2I模型出现后,单帧超分(Single Image Super-Resolution, SISR)便立刻跟上,推出了诸如StableSR[2]、OSEDiff[3]、PiSA-SR[4]等一系列视觉效果很好的模型。视频超分 (Video Super-Resolution, VSR) 也顺势搭乘东风,推出了Upscale-A-Video[5]、MGLD[6]等开山之作。然而,此时大家便已发现,直接将image generation的基模应用到VSR是存在严重的帧间不连续的问题的,如下图所示。
这种现象也十分合乎情理,毕竟图像生成的过程是不稳定的,很难保证前后两帧中相似的LR细节能够在经过T2I模型之后得到相似的生成结果。一种非常直观的缓解这种不连续问题的方式是,在每一帧生成的过程中,都将相邻帧的内容参考过来(插入3D layer、用光流引导都属于这类思路)。在理想的情况下,模型会因为帧间交互而获得有着更多细节、也更加连续的输出。这样就可以既利用T2I模型的画质先验,又轻松利用多帧的交互得到了细节丰富、连续的video,听上去马上就可以快哉快哉江湖悠悠了!
但实际的效果却并非如此,而这就要牵扯到VSR在CNN/Transformer上古时代就面临的三个历史遗留问题了。
帧间交互是不是真的能够生成更多合理的细节?---> 答案是可以。帧间交互是不是能让输出帧更加连续?---> 答案是可以。帧间交互有什么缺点吗?---> 有的有的,会让画面变平滑,甚至导致画质一路狂跌。之所以将这些问题称之为历史遗留问题,是因为在早期采用判别模型时,就已经出现了单帧比多帧更容易保持预测结果的锐利这一反常现象。例如下图这个case,显然单帧超分的结果要远远好于burst和video两类多帧方法。
之所以会出现这种情况,简单来说是帧间交互时很常见的跨帧加权融合导致的。毕竟加权在combine了信息的同时也会引入一些不那么正确的选项。如果更深入地分析这个问题,我们可以将一个维度是[T,1,H,W]的输入video看成是很多个[T,1,1,1]的小tube。一条tube代表的就是,在相同的[x,y]坐标下,当前video中在该坐标下的所有信息。当这个video中运动比较小时,就代表着大部分的tube内信息几乎时不怎么变化的(也就下图中的"consistent tube",每一帧提供的信息基本一致);当然也会有帧间的运动比较大的区域,我们可以起名叫ambiguous(混淆的)tube。这类tube中,在相同的坐标处,每一帧都提供了不同的信息(由不同的形状表示)。
显然,如果是consistent tube的情况,帧间交互不会带来什么信息收益,和单帧超分某种程度上很接近了。但ambiguous tube却让模型感到头大:这么多不同的信息混在一起,到底要听谁的呢?如果铁了心以reference frame中的信息为主,那么不会带来额外信息收益的同时基本也跟单帧超分差不太多了;如果多偏袒一些其他帧的信息,虽然会有信息增益,但会面临大方差信息的加权(无论是deformable/3D conv/cross attention/etc., 最后的落点都是在学习加权的权重)。而大方差信息的加权就很容易变糊。
而除了帧间交互的架构设计之外,采用T2I基模的模型为了更加对consistency力挽狂澜,经常也会搭配一些consistency loss(例如对第i帧结果进行光流warp,并将warp后的结果和第i+1帧进行约束)。但对于模型来说,面对这类损失,"变糊"/平均解是降低一致性损失的最容易的方法。
也就是说,当你开局拥有一个T2I模型,你会自动在后续的VSR任务中获得不错的画质和稀烂的帧间一致性;当你试图用帧间交互模块和loss拉回一致性时,你的画质会一去不复返地下滑。
T2V-based VSR面对大家日益增长的video一致性需求和当前T2I基模难以满足的现状,T2V基模开始在VSR任务上大展拳脚。从一开始建立在CogVideoX系列的STAR[10]、DOVE[11]、Vivid-VR[12],到最新的基于Wan系列的RealisVSR[13]、OASIS[14]、FlashVSR[15]等工作,T2V基模中的consistency prior让后续的VSR finetune过程不需要花太多力气建模一致性,只需要维持不崩就好。
但同样,继承了良好一致性的代价就是牺牲了每一帧的画面细节。这种牺牲从T2V基模的预训练阶段就有迹可循:
数据方面:相比于高质量的图像数据,同等画面质量的video数据要更稀少网络结构方面:相比较于T2I模型所配备的Image VAE,T2V模型的Video VAE压缩率更大(多了一个temporal维度的压缩),后续生成细节也变得更加困难从更加high-level的层面看,text到video的mapping中,既要从0开始学习帧间的运动建模,又要兼顾每一帧的画面细节。这两个任务无论哪一个都很困难,难以真正完全学好。因此当模型在运动建模上做得比较好时,自然就会牺牲掉一部分生成画面细节的能力,无可厚非从T2V基模继承而来的VSR模型也不可避免地在画质上逊T2I-based VSR一筹。尽管在finetune时,也采用了各种方式增强画质(例如,视频数据里混入一定比例的高质量图像),但画质和consistency始终就像跷跷板的两头,压下一端就浮起另一端。
NIPS25 我们的新工作 | One-Step Diffusion for Detail-Rich and Temporally Consistent Video Super-Resolution为了解决画质和consistency之间的这种冲突,我们提出了一种新的训练范式Dual-LoRA Learning (DLoRAL)。一句话来概括,我们采用两阶段训练,分别在不同的阶段优化画质与帧间一致性。与传统的多目标优化方法不同的是,我们的核心原则在于利用LR视频中已有的一致性。当输入的视频变得一致时,生成的内容自然也会更一致。因此,我们的方法可以直观地理解为:首先让退化严重的LR视频变得一致 --> 在一致的LR视频上进行细节增强 --> 对画质变好的LR视频继续增强一致性 --> 对一致性更好的LR视频继续增强细节。就这样左脚踩右脚,一步一步往上走。而这种训练范式,不只局限于我们目前采用的T2I框架,同样也可以无痛推广到T2V框架上。只要为不同的训练阶段准备不同偏好的数据(例如,一致性阶段准备连续的video,细节增强阶段准备高画质图像),就可以实现最终的共同优化。
同时,我们准备了一个2分钟无痛理解DLoRAL全部细节的讲(dong)解(hua),希望可以帮助大家更快速地上手。
以及我们项目的主页:https://yjsunnn.github.io/DLoRAL-project/
和不需要本地部署就可以直接上传视频并查看效果的colab(但由于Colab显存的问题,高于320*240的视频都会先被压缩再运行,因此效果和实际版本有差距):https://colab.research.google.com/drive/1QAEn4uFe4GNqlJbogxxhdGFhzMr3rfGm?usp=sharing
欢迎大家多多来卷DLoRAL的效果。如果愿意star+引用,那就先给大家比心了!
写在最后这半年以来,见证了diffusion-based VSR工作从一个月冒出一篇,到每天都会有新工作。在感慨领域更新迭代速度之快的同时,也越来越意识到一些难以摆脱的桎梏:
数据:与业界动辄几十、几百甚至几千M的数据相比,学术界可用的开源video数据集可谓少之又少,而其中堪称“高质量”的数据更是凤毛麟角。常用的补救措施是将高质量的image数据也一并混入训练,但因此而面临的quality-consistency trade-off又是棘手难题。尽管DLoRAL在此基础上提供了一种行之有效的解决思路,但更多更高质量的video数据仍然是进一步提升性能的关键。基模:日新月异的基模一定程度上也基本决定了VSR模型的大致性能。尤其是近期视频生成模型的统一爆发,也让VSR模型见到了更多的可能。强大的基模意味着更好的连续性、更高的画质,也意味着少走十年弯路(bushiFinetune策略:尽管基模的涌现百花齐放,但毕竟都不是为了VSR任务。因此finetune阶段的训练策略也直接决定了你最终的效果是乘着基模起飞,还是和基模中的prior一起碰撞着沉沦。同样以video generation为例,预训练阶段的目标是从给定的text prompt/first-frame image出发生成运动合理的、连续的、多样的、尽可能长的视频,与VSR目前最关注的per-frame quality和效率问题都有着一定距离。如何在保证这些预训练阶段已经注入的prior不受损失,同时一定程度上为VSR服务,也决定了模型最终的上限。最后再宣传一下一个每天都在更新的Diffusion-based VSR仓库:https://github.com/yjsunnn/Awesome-video-super-resolution-diffusion. 期待VSR会出现更多神奇的工作!
[1] Wang, Jianyi, et al. "Seedvr: Seeding infinity in diffusion transformer towards generic video restoration."Proceedings of the Computer Vision and Pattern Recognition Conference. 2025.
[2] Wang, Jianyi, et al. "Exploiting diffusion prior for real-world image super-resolution."International Journal of Computer Vision132.12 (2024): 5929-5949.
[3] Wu, Rongyuan, et al. "One-step effective diffusion network for real-world image super-resolution."Advances in Neural Information Processing Systems37 (2024): 92529-92553.
[4] Sun, Lingchen, et al. "Pixel-level and semantic-level adjustable super-resolution: A dual-lora approach."Proceedings of the Computer Vision and Pattern Recognition Conference. 2025.
[5] Zhou, Shangchen, et al. "Upscale-a-video: Temporal-consistent diffusion model for real-world video super-resolution."Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.
[6] Yang, Xi, et al. "Motion-guided latent diffusion for temporally consistent real-world video super-resolution."European conference on computer vision. Cham: Springer Nature Switzerland, 2024.
[7] Wei, Pengxu, et al. "Component divide-and-conquer for real-world image super-resolution."European conference on computer vision. Cham: Springer International Publishing, 2020.
[8] Bhat, Goutam, et al. "Deep burst super-resolution."Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021.
[9] Bhat, Goutam, et al. "Deep burst super-resolution."Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021.
[10] Xie, Rui, et al. "Star: Spatial-temporal augmentation with text-to-video models for real-world video super-resolution."arXiv preprint arXiv:2501.02976(2025).
[11] Chen, Zheng, et al. "DOVE: Efficient One-Step Diffusion Model for Real-World Video Super-Resolution."arXiv preprint arXiv:2505.16239(2025).
[12] Bai, Haoran, et al. "Vivid-VR: Distilling Concepts from Text-to-Video Diffusion Transformer for Photorealistic Video Restoration."arXiv preprint arXiv:2508.14483(2025).
[13] Zhao, Weisong, et al. "RealisVSR: Detail-enhanced Diffusion for Real-World 4K Video Super-Resolution."arXiv preprint arXiv:2507.19138(2025).
[14] Guo, Jinpei, et al. "Towards Redundancy Reduction in Diffusion Models for Efficient Video Super-Resolution."arXiv preprint arXiv:2509.23980(2025).
[15] Zhuang, Junhao et al. “FlashVSR: Towards Real-Time Diffusion-Based Streaming Video Super-Resolution.” (2025).
