我爱计算机视觉 08月27日
FoCa:基于ODE的特征缓存技术实现扩散模型高效推理
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文提出FoCa(Forecast-then-Calibrate)新方法,将扩散Transformer(DiT)的特征缓存问题转化为常微分方程(ODE)求解问题。通过结合二阶后向微分公式(BDF2)预测器和Heun校正器,FoCa能在大跳跃间隔下稳定准确地预测隐藏状态。该方法无需额外训练,即可在多个主流模型上实现显著加速,例如在FLUX模型上达到5.50×加速,在HunyuanVideo上达到6.45×加速,同时保持了生成质量的近乎无损,为高效生成模型推理提供了新思路。

💡 FoCa将扩散Transformer(DiT)的特征缓存问题创新性地建模为求解常微分方程(ODE),从数学原理层面解决了高加速比下的稳定性与准确性问题。它借鉴了数值分析中成熟的ODE求解器,将特征缓存转化为一个更稳定的预测问题。

🚀 FoCa框架采用“预测-校准”两阶段设计:首先使用BDF2(二阶后向微分公式)预测未来隐藏状态,该方法利用最近两个时间步的特征,比依赖单点外插的泰勒级数方法更稳定;随后,利用Heun校正器对预测结果进行加权平均校准,以最近的完整计算特征为锚点,抑制误差累积和振荡,确保特征轨迹的准确性。

📈 FoCa作为一种无需训练、即插即用的技术,在多个SOTA模型上实现了显著的推理加速,且在极高加速比下仍能保持近乎无损的生成质量。例如,在FLUX模型上实现了5.50×加速,生成质量与原始模型几乎一致;在HunyuanVideo上实现了6.45×加速,视觉效果优异;甚至在Inf-DiT超分任务上,FoCa的PSNR指标略高于原始模型,展现了其强大的通用性和有效性。

CV君 2025-08-27 12:13 江苏

扩散变换器(Diffusion Transformers, DiT)在图像和视频生成方面取得了卓越的成就,但其巨大的计算成本限制了其在实际应用中的部署。为了解决这一问题,研究者们提出了特征缓存(feature caching)技术,通过复用先前时间步的隐藏表示来加速推理。然而,现有方法在高加速比下往往会牺牲生成质量。

来自上海交通大学、华南理工大学、复旦大学、清华大学和香港科技大学的研究者们,从常微分方程(ODE)的视角重新审视了这一问题,并提出了一种名为 FoCa(Forecast-then-Calibrate,预测然后校准)的新方法。FoCa将特征缓存问题转化为一个特征ODE求解问题,极大地提升了在高加速比下的稳定性和准确性。实验表明,在无需额外训练的情况下,FoCa在多个主流模型上实现了近乎无损的显著加速,例如在 FLUX 模型上达到 5.50× 加速,在 HunyuanVideo 上达到 6.45×加速,为高效的生成模型推理提供了新的解决思路。

    论文标题: Forecast then Calibrate: Feature Caching as ODE for Efficient Diffusion Transformers

    作者团队: Shikang Zheng (上海交通大学, 华南理工大学);Liang Feng (上海交通大学, 复旦大学);Xinyu Wang (上海交通大学);Qinming Zhou (上海交通大学, 清华大学);Peiliang Cai (上海交通大学);Chang Zou (上海交通大学);Jiacheng Liu (上海交通大学);Yuqi Lin (上海交通大学);Junjie Chen (上海交通大学);Yue Ma (香港科技大学);Linfeng Zhang (上海交通大学)

    论文地址: https://arxiv.org/abs/2508.16211

研究背景与意义

近年来,基于扩散的模型,特别是采用Transformer架构的DiT,已成为高质量视觉内容生成的主流。然而,其迭代式的去噪过程计算量巨大,每一步都需要完整的网络前向传播,这使得推理过程非常耗时。

为了加速推理,研究社区探索了两种主要途径:

    减少采样步数: 通过改进采样算法(如DPM-Solver)来减少生成图像所需的总步数。这类方法通常需要重新设计采样器或重新训练模型。

    优化去噪网络: 通过模型压缩(如剪枝、量化)或特征缓存来降低每一步的计算成本。

特征缓存是一种无需训练的通用加速方法,它利用了扩散模型在相邻时间步中中间特征表示的相似性。早期的缓存方法(如DeepCache)主要用于U-Net架构。随着DiT成为主流,新的方法如FORA、ToCa和TaylorSeer等被提出。这些方法通过复用或外插(extrapolate)历史特征来跳过一些计算。

然而,现有方法存在一个普遍的痛点:当为了追求高加速比而大幅增加跳过步长(skip interval)时,误差会迅速累积,导致生成质量急剧下降。例如,简单的特征复用会导致特征与当前状态不匹配;而基于泰勒级数展开的预测方法(如TaylorSeer)在高阶导数估计中对噪声非常敏感,稳定性差。

随着计算加速比的增加,TaylorSeer和TeaCache等方法的生成图像质量下降,而FoCa保持了更好的性能。

本文的研究正是为了解决这一核心挑战,即如何在大的跳跃间隔下依然能鲁棒地利用历史信息,从而在实现高倍率加速的同时,保持高质量的生成结果。

FoCa:基于ODE求解的特征缓存方法

论文创新地提出,可以将DiT模型中隐藏特征随时间步的演变过程建模为一个常微分方程(ODE),即 特征ODE(feature-ODE)。在这个视角下,特征缓存问题就转变成了一个数值求解ODE的问题。这使得研究者可以借鉴数值分析领域成熟的多步求解器来设计更稳定、更精确的预测方法。

基于此,论文提出了 FoCa (Forecast-then-Calibrate) 框架,一个结合了预测器(predictor)和校正器(corrector)的方案。

FoCa的计算流程示意图。对于每个跳过的步骤,FoCa首先使用最近的两个时间步的特征来预测未来的隐藏状态,然后应用一个Heun校正器来融合预测结果和最近的完整计算特征,从而实现稳定精确的预测。

FoCa的核心流程包括两个阶段:

1. 预测(Forecast):多步预测器

FoCa采用二阶后向微分公式(Backward Differentiation Formula, BDF2)作为其预测器。与只依赖于单个先前时间点进行外插的泰勒级数方法不同,BDF2利用 最近的两个 时间步的特征来进行预测。这种多步(multi-step)策略能更准确地捕捉特征随时间变化的动态趋势,从而在进行长距离预测时更加稳定和精确。

2. 校准(Calibrate):Heun风格的校正器

仅有预测是不够的,长步预测仍然可能导致误差累积和振荡。为此,FoCa引入了一个轻量级的校正步骤,其灵感来源于经典的Heun方法(也称为显式梯形法则)。

具体来说,在得到BDF2的初步预测结果后,校正器会将其与最近一个经过 完整计算 的特征进行加权平均。这个过程相当于对预测进行一次“校准”,利用了最可靠的“锚点”信息来抑制预测的过冲(overshoot)和不稳定,确保特征轨迹不会偏离真实路径太远。

左图(a)展示了特征轨迹的PCA可视化,FoCa的路径与原始模型高度吻合。右图(b)显示了预测误差对比,FoCa的误差远低于TaylorSeer,后者的高阶预测会导致误差急剧增长。

通过这种“预测-校准”机制,FoCa能够稳健地处理较大的跳跃间隔,在实现高加速比的同时,将预测误差控制在很低的水平。

实验设计与结果分析

论文在文本到图像生成、文本到视频生成、类条件图像生成和图像超分辨率等多个任务上对FoCa进行了广泛的评估。

文本到图像生成(FLUX & DiT)

在当前最先进的文生图模型 FLUX.1-dev 上,FoCa表现出色。如下表所示,在 5.54× 的FLOPs加速下,FoCa的ImageReward得分(0.9891)几乎与原始模型(0.9898)持平,显著优于其他所有基线方法。在更高的 6.24× 加速下,FoCa依然能保持很高的图像质量。

在FLUX模型上进行5.5倍加速的视觉效果对比,FoCa生成图像的质量明显更高。

在经典的 DiT-XL/2 模型上,FoCa同样取得了SOTA的性能。在 4.53× 加速下,FoCa的FID指标为 2.60,优于TaylorSeer的2.74,也远好于其他缓存方法。

文本到视频生成(HunyuanVideo)

在腾讯的混元视频大模型上,FoCa实现了 6.45× 的推理加速,同时VBench得分达到 79.68%,非常接近原始模型的80.66%,是所有方法中权衡速度与质量最好的。

视觉对比也显示,在其他方法出现细节丢失、空间关系错乱等问题时,FoCa依然能生成高质量、高保真度的视频。

图像超分辨率(Inf-DiT)

在超分任务上,FoCa在Inf-DiT模型上实现了 3.17× 的加速,并且PSNR指标甚至 超过了 原始模型(31.03dB vs 30.85dB),这表明FoCa在某些情况下甚至能起到提升生成质量的作用。

消融实验与分析

论文还通过消融实验验证了Heun校正器的重要性。实验表明,移除校正步骤后,模型的性能在所有加速比下都有一致的下降,证明了校正器对于稳定预测和提升性能的关键作用。

此外,论文还从数值分析的“刚性”(stiffness)问题角度分析了FoCa的优势。扩散过程的后期阶段在数值上是“刚性”的,这使得标准求解器容易不稳定。FoCa的预测-校准设计能更好地处理这种刚性区域,保持误差收敛,而像TaylorSeer这样的方法则会出现误差发散。

论文贡献价值

本文的主要贡献可以总结为以下几点:

    新颖的理论视角: 首次将DiT中的特征缓存问题形式化为求解常微分方程(ODE)的问题,为设计高效推理算法开辟了新的理论路径。

    高效的FoCa框架: 提出了一个无需训练的、即插即用的“预测-校准”框架(FoCa),它结合了BDF2预测器和Heun校正器,能够在大跳跃间隔下实现稳定而精确的特征预测。

    SOTA的加速性能: 在多个SOTA的图像和视频生成模型上,FoCa实现了当前最先进的训练无关加速效果,在极高的加速比下依然保持了近乎无损的生成质量。

CV君认为,FoCa方法的设计非常巧妙,它没有停留在“如何复用特征”的表层问题上,而是深入到底层数学原理,将特征演变视为一个连续的动态过程,并用成熟的数值方法来求解。这种思想不仅解决了现有缓存方法在高加速比下的不稳定性问题,也为未来更高效的生成模型推理算法提供了坚实的理论基础和极具潜力的探索方向。对于工业界而言,这种无需训练、即插即用的高效加速方案具有极高的实用价值。

了解最新 AI 进展,欢迎关注公众号:aicvml投稿寻求报道请发邮件至:amos@52cv.net欢迎点赞、转发、评论。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

扩散Transformer DiT 特征缓存 FoCa 常微分方程 ODE 模型推理 加速 生成模型 Diffusion Transformers Feature Caching Ordinary Differential Equation Model Inference Acceleration Generative Models
相关文章