我爱计算机视觉 09月16日
LayerLock:解决自监督学习中的表征崩溃问题
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍Google DeepMind和牛津大学提出的LayerLock方法,旨在解决自监督学习中潜在预测任务的表征崩溃问题。LayerLock通过“渐进式层冻结”策略,引导模型从像素重建平滑过渡到预测深层特征,有效避免了模型陷入平凡解。该方法已被ICCV 2025接收,并成功应用于40亿参数的大模型,显著提升了训练效率和下游任务性能。LayerLock的核心贡献在于利用ViT层序贯收敛的规律,设计出更稳定的学习框架。

💡 **LayerLock的核心思想是渐进式层冻结与目标切换。** 该方法基于一个关键观察:在训练ViT模型时,浅层网络比深层网络收敛得更快。LayerLock利用这一规律,在训练初期让模型进行像素重建,然后根据预设的时间表逐步冻结已收敛的浅层网络,并将预测目标从原始像素切换为被冻结层的输出特征,从而引导模型从学习低级视觉规律平滑过渡到学习高级语义特征,有效解决了潜在预测中的表征崩溃问题。

🚀 **LayerLock显著提升了模型性能并优化了训练效率。** 在动作识别和深度估计等任务上,LayerLock相比基线方法带来了显著的性能提升。同时,通过逐渐冻结网络层,减少了反向传播所需的梯度计算,从而节省了约9%的总计算量(FLOPs)和16%的峰值内存占用,对于训练大型模型而言具有重要的实际意义。

🔬 **消融实验证明了渐进式冻结是防止表征崩溃的关键。** 研究者通过对比实验发现,若不采用LayerLock的渐进式冻结策略而直接引入潜在损失,模型性能会急剧下降,出现明显的表征崩溃现象。这有力地证明了LayerLock中“渐进式冻结”和“目标切换”机制对于维持模型学习的有效性和防止崩溃至关重要。

✅ **LayerLock方法具有通用性和可扩展性。** 该方法不仅适用于MAE模型,也能与V-JEPA等其他模型架构结合,并在高达40亿参数的大规模模型上验证了其有效性。其简单、通用的框架为自监督视觉表征学习提供了一个实用的新范式,证明了有时通过优化训练策略而非复杂的模型设计,也能有效解决复杂的学习难题。

CV君 2025-09-15 14:56 江苏

在自监督学习领域,如何让模型在没有标签的情况下学到有用的视觉表征,一直是核心挑战。其中,掩码自编码(MAE)是一个明星方法,但它依赖于繁重的像素重建任务。另一条路是预测网络自身的“潜在特征”,这更高效,却极易陷入“表征崩溃”的陷阱——即模型学会了一个无用的、平凡的解。

本文介绍一篇来自 Google DeepMind 和 牛津大学 的最新研究,该研究已被 ICCV 2025 接收。论文提出了一种名为 LayerLock 的方法,它通过一个简单而巧妙的“渐进式层冻结”策略,成功解决了潜在预测中的表征崩溃问题,同时提升了训练效率。简而言之,LayerLock就像一个聪明的课程表,引导模型从“学习像素”平滑过渡到“学习特征”,最终培养出更强大的视觉能力。该方法已成功扩展至 40亿参数 的大模型。

    论文标题: LayerLock: Non-collapsing Representation Learning with Progressive Freezing

    作者: Goker Erdogan, Nikhil Parthasarathy, Catalin Ionescu, Drew Hudson, Alexander Lerchner, Andrew Zisserman, Mehdi Sajjadi, Joao Carreira

    机构: Google DeepMind, 牛津大学

    论文地址: https://arxiv.org/abs/2509.10156

    录用信息: ICCV 2025

研究背景与动机

自监督学习旨在让模型从无标签数据中“自我教育”。其中,掩码自编码(Masked Auto-Encoding, MAE) 是一种主流范式,它随机遮挡输入(如视频帧)的一部分,然后让模型去重建被遮挡的内容。这种“完形填空”式的任务迫使模型学习到底层视觉规律。然而,直接重建像素计算成本高,且可能过于关注低级纹理细节。

一个更高效的替代方案是 潜在预测(Latent Prediction),即不预测原始像素,而是预测网络自身在某个中间层产生的特征(潜在表征)。这种方法的挑战在于极易发生 “表征崩溃”(Representation Collapse)。想象一下,如果模型的“学生”部分(解码器)要预测“老师”部分(编码器)的输出,最简单的“作弊”方法就是让老师输出一个常数,学生也跟着输出一个常数,损失函数瞬间降为零,但模型什么有用的东西都没学到。

为了防止这种“躺平”现象,现有方法通常需要引入复杂的机制,如非对称架构、停止梯度、目标编码器等。而LayerLock则提出,或许只需要一个更聪明的训练流程。

LayerLock:从一个惊人发现到优雅解决方案

LayerLock的灵感来源是一个简单而关键的观察:在训练基于ViT的视频MAE模型时,网络层的收敛存在明确的先后顺序——浅层网络总是比深层网络更早收敛。

上图清晰地展示了这一点:横轴是冻结操作开始的训练步数,纵轴是最终的损失。可以看到,浅层(如Layer 3)即使在训练早期(如2000步)就被冻结,最终的性能也几乎不受影响。而深层(如Layer 12)如果过早冻结,性能就会大打折扣。这说明浅层特征学习得非常快。

基于这一观察,研究者提出了 LayerLock 策略,其核心思想是设计一个课程学习(Curriculum Learning)方案:

    初始阶段:预测像素。 训练开始时,模型执行标准的MAE任务,即重建被遮挡的像素。这为模型提供了一个稳定且有意义的初始学习信号,使其学到基础的视觉特征。

    渐进冻结与目标切换。 根据一个预设的时间表(schedule),在训练的特定阶段,逐步冻结已经收敛的浅层网络。关键操作是:每当冻结网络的某一层(比如第k层)时,就将预测目标从原始像素切换为该层(第k层)的输出特征。

    持续推进。 随着训练的进行,冻结的层数越来越多,预测的目标也越来越“深入”网络内部,从低级特征平滑过渡到高级、抽象的语义特征。

上图直观地展示了这个过程:

    左图:初始状态,无冻结层,模型预测像素 x

    中图:冻结第一层后,模型转而预测第一层的输出 h1

    右图:继续冻结前两层,模型的目标变为预测第二层的输出 h2

这个过程不断持续,直到大部分编码器层都被冻结。CV君认为,LayerLock的巧妙之处在于,它将“层收敛的先后顺序”这一经验观察,转化为了一个动态的、从易到难的学习课程。通过先让模型稳定地学会预测浅层特征,再逐步增加难度去预测深层特征,自然而然地避免了“表征崩溃”的发生,因为模型在任何阶段都有一个非平凡(non-trivial)的学习目标。

LayerLock前向传播伪代码

实验结果与分析

研究者在高达10亿视频片段的数据集上,对最大 40亿参数 的4DS模型家族应用了LayerLock,并在动作识别(SSv2, Kinetics-700)和深度估计(ScanNet)等任务上进行了评估。

1. LayerLock显著提升性能

实验结果(下表)表明,无论是在基于像素预测的MAE模型(4DS-G, 4DS-e)上,还是在基于潜在预测的V-JEPA模型上,应用LayerLock都带来了显著的性能提升,尤其是在需要高级语义理解的动作识别任务上。

2. 渐进式冻结是防止崩溃的关键

为了证明“渐进式冻结”的必要性,研究者进行了一项关键的消融实验:在标准的MAE模型上,不使用冻结策略,而是直接添加潜在损失(即同时预测像素和中间层特征)。结果如下表所示,模型的性能急剧下降,出现了明显的“表征崩溃”现象。这有力地证明了LayerLock中的渐进式冻结和目标切换机制是防止崩溃的核心所在。

3. 提升训练效率,节省计算和内存

除了提升性能,LayerLock还带来了实实在在的效率增益。由于网络层被逐渐冻结,反向传播需要计算的梯度越来越少。实验表明,简单的逐层冻结策略可以在性能几乎无损的情况下,节省9%的总计算量(FLOPs)和16%的峰值内存占用。对于动辄需要数百上千卡时训练的大模型而言,这是非常可观的优化。

4. 其他消融研究

研究者还进行了详尽的消融实验,探讨了冻结时间表、目标选择、损失函数加温等超参数的影响,为方法的有效性提供了坚实支撑。例如,实验发现:

    3D RoPE位置编码:新颖的3D旋转位置编码能独立地提升基线和LayerLock的性能。

    单一预测目标足够:在每个阶段只预测最新冻结层的输出,就足以达到良好性能,无需同时预测多个历史目标。

    冻结时间表:更平滑、渐进的冻结计划通常比激进的计划效果更好。

总结与贡献

LayerLock 提出了一种简单、通用且高效的自监督视觉表征学习方法。其核心贡献在于:

    揭示了ViT层序贯收敛的现象:首次明确指出并利用了视频MAE训练中“浅层先收敛,深层后收敛”的规律。

    提出了渐进式冻结的学习框架:通过动态地将预测目标从像素平滑过渡到不同深度的潜在特征,有效解决了潜在预测中的“表征崩溃”问题,增强了训练的稳定性。

    提升了训练效率:通过冻结部分网络,减少了反向传播的计算量和内存占用,为训练更大、更深的视频模型开辟了道路。

    验证了其通用性和可扩展性:该方法不仅适用于多种模型(MAE, V-JEPA),还在高达40亿参数的大模型上取得了成功,并在多个下游任务上超越了基线性能。

总而言之,LayerLock为自监督学习社区提供了一个优雅而实用的新“配方”,有时候解决棘手的“表征崩溃”问题,并不需要复杂的模型设计,而可能只需要一个更懂模型学习动态的训练策略。

了解最新 AI 进展,欢迎关注公众号:我爱计算机视觉感谢点赞支持。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

LayerLock 自监督学习 表征学习 表征崩溃 渐进式冻结 潜在预测 MAE ViT Google DeepMind 牛津大学 ICCV 2025 Self-Supervised Learning Representation Learning Representation Collapse Progressive Freezing Latent Prediction
相关文章