CV君 2025-09-15 14:56 江苏

在自监督学习领域，如何让模型在没有标签的情况下学到有用的视觉表征，一直是核心挑战。其中，掩码自编码（MAE）是一个明星方法，但它依赖于繁重的像素重建任务。另一条路是预测网络自身的“潜在特征”，这更高效，却极易陷入“表征崩溃”的陷阱——即模型学会了一个无用的、平凡的解。

本文介绍一篇来自 Google DeepMind 和 牛津大学 的最新研究，该研究已被 ICCV 2025 接收。论文提出了一种名为 LayerLock 的方法，它通过一个简单而巧妙的“渐进式层冻结”策略，成功解决了潜在预测中的表征崩溃问题，同时提升了训练效率。简而言之，LayerLock就像一个聪明的课程表，引导模型从“学习像素”平滑过渡到“学习特征”，最终培养出更强大的视觉能力。该方法已成功扩展至 40亿参数 的大模型。

论文标题: LayerLock: Non-collapsing Representation Learning with Progressive Freezing

作者: Goker Erdogan, Nikhil Parthasarathy, Catalin Ionescu, Drew Hudson, Alexander Lerchner, Andrew Zisserman, Mehdi Sajjadi, Joao Carreira

机构: Google DeepMind, 牛津大学

论文地址: https://arxiv.org/abs/2509.10156

录用信息: ICCV 2025

研究背景与动机

自监督学习旨在让模型从无标签数据中“自我教育”。其中，掩码自编码（Masked Auto-Encoding, MAE） 是一种主流范式，它随机遮挡输入（如视频帧）的一部分，然后让模型去重建被遮挡的内容。这种“完形填空”式的任务迫使模型学习到底层视觉规律。然而，直接重建像素计算成本高，且可能过于关注低级纹理细节。

一个更高效的替代方案是 潜在预测（Latent Prediction），即不预测原始像素，而是预测网络自身在某个中间层产生的特征（潜在表征）。这种方法的挑战在于极易发生 “表征崩溃”（Representation Collapse）。想象一下，如果模型的“学生”部分（解码器）要预测“老师”部分（编码器）的输出，最简单的“作弊”方法就是让老师输出一个常数，学生也跟着输出一个常数，损失函数瞬间降为零，但模型什么有用的东西都没学到。

为了防止这种“躺平”现象，现有方法通常需要引入复杂的机制，如非对称架构、停止梯度、目标编码器等。而LayerLock则提出，或许只需要一个更聪明的训练流程。

LayerLock：从一个惊人发现到优雅解决方案

LayerLock的灵感来源是一个简单而关键的观察：在训练基于ViT的视频MAE模型时，网络层的收敛存在明确的先后顺序——浅层网络总是比深层网络更早收敛。

上图清晰地展示了这一点：横轴是冻结操作开始的训练步数，纵轴是最终的损失。可以看到，浅层（如Layer 3）即使在训练早期（如2000步）就被冻结，最终的性能也几乎不受影响。而深层（如Layer 12）如果过早冻结，性能就会大打折扣。这说明浅层特征学习得非常快。

基于这一观察，研究者提出了 LayerLock 策略，其核心思想是设计一个课程学习（Curriculum Learning）方案：

初始阶段：预测像素。 训练开始时，模型执行标准的MAE任务，即重建被遮挡的像素。这为模型提供了一个稳定且有意义的初始学习信号，使其学到基础的视觉特征。

渐进冻结与目标切换。 根据一个预设的时间表（schedule），在训练的特定阶段，逐步冻结已经收敛的浅层网络。关键操作是：每当冻结网络的某一层（比如第k层）时，就将预测目标从原始像素切换为该层（第k层）的输出特征。

持续推进。 随着训练的进行，冻结的层数越来越多，预测的目标也越来越“深入”网络内部，从低级特征平滑过渡到高级、抽象的语义特征。

上图直观地展示了这个过程：

左图：初始状态，无冻结层，模型预测像素 x。

中图：冻结第一层后，模型转而预测第一层的输出 h1。

右图：继续冻结前两层，模型的目标变为预测第二层的输出 h2。

这个过程不断持续，直到大部分编码器层都被冻结。CV君认为，LayerLock的巧妙之处在于，它将“层收敛的先后顺序”这一经验观察，转化为了一个动态的、从易到难的学习课程。通过先让模型稳定地学会预测浅层特征，再逐步增加难度去预测深层特征，自然而然地避免了“表征崩溃”的发生，因为模型在任何阶段都有一个非平凡（non-trivial）的学习目标。

LayerLock前向传播伪代码

实验结果与分析

研究者在高达10亿视频片段的数据集上，对最大 40亿参数 的4DS模型家族应用了LayerLock，并在动作识别（SSv2, Kinetics-700）和深度估计（ScanNet）等任务上进行了评估。

1. LayerLock显著提升性能

实验结果（下表）表明，无论是在基于像素预测的MAE模型（4DS-G, 4DS-e）上，还是在基于潜在预测的V-JEPA模型上，应用LayerLock都带来了显著的性能提升，尤其是在需要高级语义理解的动作识别任务上。

2. 渐进式冻结是防止崩溃的关键

为了证明“渐进式冻结”的必要性，研究者进行了一项关键的消融实验：在标准的MAE模型上，不使用冻结策略，而是直接添加潜在损失（即同时预测像素和中间层特征）。结果如下表所示，模型的性能急剧下降，出现了明显的“表征崩溃”现象。这有力地证明了LayerLock中的渐进式冻结和目标切换机制是防止崩溃的核心所在。