CV君 2025-08-22 14:07 江苏

本文介绍一篇由南洋理工大学S-Lab和Netflix Eyeline Studios的研究者们共同完成的重磅新作，论文标题为《CineScale: Free Lunch in High-Resolution Cinematic Visual Generation》。

该研究提出了一个名为 CineScale 的全新推理范式，旨在解决当前视觉扩散模型在生成高分辨率图像和视频时面临的核心挑战。CineScale一词巧妙结合了“Cinematic”（电影般的）与“Scale”（规模、分辨率），寓意其能够将普通扩散模型的能力“扩展”到电影级别的高分辨率。

由于训练数据和计算资源的限制，大多数开源的扩散模型都在较低分辨率（如512x512或1024x1024）下训练。当直接让它们生成更高分辨率的内容时，往往会出现重复纹理、结构错乱等问题。CineScale通过一系列无需或仅需极少量微调的推理技巧，成功释放了这些预训练模型的潜力，实现了惊人的 无需微调生成8K图像 和 仅需极少量LoRA微调生成4K视频 的效果。更重要的是，它将高分辨率生成的能力从常见的文生图（T2I）和文生视频（T2V）扩展到了更具挑战性的图生视频（I2V）和视频生视频（V2V）任务，极大地拓宽了其应用场景。

论文标题： CineScale: Free Lunch in High-Resolution Cinematic Visual Generation

作者团队： Haonan Qiu, Ning Yu, Ziqi Huang, Paul Debevec, Ziwei Liu

机构： 南洋理工大学、Netflix Eyeline Studios

论文地址： https://arxiv.org/abs/2508.15774

项目地址： https://eyeline-labs.github.io/CineScale/

代码仓库： https://github.com/Eyeline-Labs/CineScale

研究背景与挑战

扩散模型在视觉内容生成领域取得了革命性进展，但“分辨率”始终是其迈向更专业应用（如电影制作、高清广告）的一大障碍。其根本原因在于：

数据稀缺：高质量、高分辨率的图文/视频对数据难以获取。

计算昂贵：训练高分辨率模型需要巨大的计算资源和时间成本。

因此，研究社区开始探索“免费午餐”式的解决方案：即不重新训练或仅做少量微调，直接在推理阶段提升现有低分辨率模型的高分辨率生成能力。然而，现有方法（如ScaleCrafter, DemoFusion, FouriScale等）虽然取得了一定进展，但仍普遍存在生成内容质量不高、出现重复性伪影（repetitive patterns）等问题。

本文作者指出，问题的核心在于，当模型生成的分辨率超过其训练分辨率时，图像或视频中的高频信息会不可避免地增加，而模型并未学会如何处理这种高频信息的剧增，导致累积误差，最终表现为不自然的重复模式。

此外，不同的模型架构也带来了不同的挑战。如下图所示，基于UNet的扩散模型在超分生成时容易出现重复（Repetition）问题，而基于DiT (Diffusion Transformer)的模型则更容易出现模糊（Blur）问题。

CineScale正是为了同时应对这两大类架构的挑战而设计的统一范式。

CineScale：一个巧妙的推理范式

CineScale并非一个全新的模型，而是一套在推理时应用的“技巧”集合。它继承并扩展了其前身工作FreeScale的思想，其总体框架如下图所示。

其核心可以分为三个部分：通用的上采样策略，以及分别针对UNet和DiT架构的专门优化。

1. 定制的自级联上采样 (Tailored Self-Cascade Upscaling)

这是CineScale的基础。它不直接一次性生成高分辨率图像，而是采用一种渐进式的“上采样-加噪-去噪”策略。首先，模型在训练分辨率下生成一个低分辨率的清晰图像/视频；然后，将其上采样到更高分辨率（此时图像会变模糊）；接着，对模糊的高分辨率潜在表示（latent）添加适量的噪声；最后，让模型对这个加噪后的高分辨率latent进行去噪。在这个过程中，还会将一部分原始的清晰latent重新引入，以稳定生成过程并控制细节。这个级联的过程可以逐步提升分辨率，同时保持内容的整体结构。

2. 针对UNet架构的优化：Scale Fusion

为解决UNet架构的重复问题，CineScale设计了尺度融合（Scale Fusion）机制。

融合全局与局部注意力：在自注意力层，模型同时计算全局注意力（关注整体结构）和局部注意力（关注局部细节）。

融合高频与低频信息：通过高斯模糊等操作分离出全局注意力中的低频语义信息和局部注意力中的高频细节信息，然后将它们融合，确保最终输出既有合理的全局结构，又有丰富的局部细节。

受限的扩张卷积（Restrained Dilated Convolution）：借鉴ScaleCrafter，使用扩张卷积来扩大感受野，但将其应用限制在模型的下采样和中间模块，避免了在生成最终细节的上采样阶段引入不必要的纹理噪声。

3. 针对DiT架构的扩展：DiT Extension

为解决DiT架构的模糊和位置编码失效问题，CineScale引入了来自大语言模型（LLM）领域的成熟技术。

NTK-RoPE：当输入序列（token数量）远超训练长度时，传统的旋转位置编码（RoPE）会失效。CineScale采用NTK-RoPE技术来动态调整位置编码的基底，使其能适应更高分辨率带来的超长序列输入。

注意力缩放（Attentional Scaling）：同样是为了应对超长序列，通过对注意力分数进行一个温度系数缩放，防止注意力权重被过度稀释，保持模型的专注度。

最简LoRA微调：尽管上述方法无需微调，但为了追求极致的4K视频生成质量，研究者们发现，仅需在一个很小（约2000个）的高清视频数据集上，对应用了NTK-RoPE的模型进行极轻量的LoRA微调，就能让模型更好地适应新的位置编码范围，从而生成质量极高的4K视频。

实验结果与视觉效果

CineScale在各种任务上都展现了卓越的性能，远超现有基线方法。

图像生成：

在图像生成任务上，CineScale能够生成细节丰富、内容连贯的2K和4K图像，而其他方法则有明显的重复或伪影。

与超分方法（如Real-ESRGAN）相比，CineScale不仅视觉质量不落下风，还能根据模型的先验知识“脑补”出低分辨率输入中缺失的细节，实现内容上的再创作。

视频生成：

在视频生成任务上，CineScale的优势更加明显。对于UNet架构，其他方法几乎完全失效，而CineScale能生成高保真的高分辨率视频。

对于DiT架构，在提升到数倍于训练分辨率时，其他方法会彻底失效或产生严重模糊，而CineScale依然能生成清晰、细节丰富的视频。

最令人惊艳的是，通过极少量的LoRA微调，CineScale成功实现了 4K分辨率的文生视频（T2V）和图生视频（I2V）。在如此高的分辨率下，即使是画面中占比较小的人脸也能被清晰地生成，且时间一致性保持得很好。

4K文生视频效果

4K图生视频效果

论文贡献价值

CineScale的贡献是多方面的，它为高分辨率视觉生成领域提供了宝贵的“免费午餐”：

提出CineScale范式：一个新颖且强大的推理范式，能够有效提升预训练扩散模型的高分辨率生成能力，且无需或仅需极少量微调。

架构通用性：首次系统性地为UNet和DiT两种主流架构提供了针对性的高分辨率解决方案，解决了各自的痛点（重复与模糊）。

任务扩展性：将高分辨率生成能力从T2I/T2V成功扩展到更复杂的I2V和V2V任务，大大增强了扩散模型的实用性。

SOTA性能：实现了无需微调生成8K图像和微量微调生成4K视频的里程碑式成果，在视觉质量和量化指标上均超越了现有方法。

开源贡献：项目代码和网页均已开放，为社区提供了强大的工具和进一步研究的基础。

CV君认为，CineScale的出现，标志着AI视频生成技术向专业化、实用化迈出了坚实的一步。它巧妙地“站在巨人的肩膀上”，通过一系列精妙的推理时调整，榨干了现有模型的潜力，为影视制作、创意设计等行业带来了触手可及的高质量、高效率内容生产力。

了解最新 AI 进展，欢迎关注公众号:aicvml投稿寻求报道请发邮件至：amos@52cv.net欢迎点赞、转发、评论。

阅读原文

跳转微信打开

研究背景与挑战

CineScale：一个巧妙的推理范式

1. 定制的自级联上采样 (Tailored Self-Cascade Upscaling)

2. 针对UNet架构的优化：Scale Fusion

3. 针对DiT架构的扩展：DiT Extension

实验结果与视觉效果

论文贡献价值

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签