PaperWeekly 09月19日 09:20
论文解析:保持与补偿模态间隔,提升CLIP持续学习能力
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文深入探讨了在类增量学习(CIL)中,如何利用大规模预训练模型(如CLIP)的强大能力,同时克服灾难性遗忘的问题。研究发现CLIP模型中存在的“模态间隔”并非缺陷,而是预训练知识的体现。论文提出了“MG-CLIP”框架,通过“模态间隔保持”(MGP)策略,在微调过程中提前停止训练以保护预训练知识;并通过“模态间隔补偿”(MGC)策略,引入额外分类器来弥补模态间隔对文本分类器带来的限制。实验证明,MG-CLIP在无重放设定下取得了SOTA表现,并且能有效维持CLIP的零样本能力,为持续学习研究提供了新的视角。

💡 **模态间隔的重新定义**:传统观点认为CLIP模型中的模态间隔(图像与文本特征分布的固有距离)是需要缩小的缺陷。然而,本研究提出,在持续学习场景下,模态间隔实际上是预训练知识的体现。保持这一间隔有助于保护模型的预训练分布,从而减缓灾难性遗忘。

🤝 **双重策略实现“稳定-可塑性”平衡**:论文提出的MG-CLIP框架包含两项核心机制。一是“模态间隔保持”(MGP),通过监测负样本相似度变化,在达到预设阈值时提前停止训练,以维护预训练知识。二是“模态间隔补偿”(MGC),通过引入额外的图像空间分类器,并融合视觉和文本分类器的预测,来增强模型的适应性和泛化能力。

🚀 **无重放设置下的SOTA表现与零样本能力保持**:在多个基准测试中,MG-CLIP在无重放的持续学习设定下,全面优于现有方法,且参数效率极高(仅需0.54M额外参数)。更重要的是,该方法能够有效保持甚至提升CLIP模型的零样本能力,这在以往的持续学习评估中常被忽视。

🧠 **为持续学习研究提供新思路**:本研究不仅在技术上取得了突破,更重要的是,它提供了一个全新的理论视角:通过度量和调控预训练模型的结构性特征(如模态间隔),而非一味地改变它们,可以更好地维护预训练知识。这启示未来的持续学习研究应更多地关注和利用预训练模型的内在特性。

原创 让你更懂AI的 2025-09-18 14:23 北京

持续学习与零样本一把抓

在类增量学习(Class-Incremental Learning, CIL)中,模型需要在不断学习新任务的同时保留旧知识,避免灾难性遗忘。近期,大规模预训练模型(如 CLIP)展现了强大的泛化与零样本能力,因此被广泛用于持续学习。 

《Mind the Gap: Preserving and Compensating for the Modality Gap in CLIP-Based Continual Learning》提出了一个新思路:将模态间隔视为“特性”而非“缺陷”,通过保持与补偿的双策略,实现了在多项基准上的无重放 SOTA,并成功维护了 CLIP 的零样本能力。

论文标题:

Mind the Gap: Preserving and Compensating for the Modality Gap in CLIP-Based Continual Learning

论文作者:

Linlan Huang, Xusheng Cao, Haori Lu, Yifan Meng, Fei Yang, Xialei Liu

作者单位:

南开大学

论文地址:

https://arxiv.org/pdf/2507.09118

代码地址:

https://github.com/linlany/MindtheGap

现象与问题

持续学习的最大挑战——灾难性遗忘——在 CLIP 上依然存在。更重要的是,CLIP 具有独特的模态间隔(Modality Gap):图像和文本特征分布在两个锥形空间中,彼此之间存在固有距离。

这表现在图文的余弦相似度通常分布在 0 到 0.3 之间。而使用交叉熵进行分类的目标是正样本相似度达到 1,负样本相似度达到 -1。两个模态的间隔在下游任务的微调过程中会发生变化,导致以下问题:

实验发现:

方法:MG-CLIP

MG-CLIP 提出了“双机制”框架:

1. 模态间隔保持(Modality Gap Preservation, MGP)

如上图实验观测到微调的动态过程中正负样本间隔变化是非对称的,且负样本相似度的下降是模态间隔扩大的关键。

定义相对偏移量:

当  超过阈值  时,提前停止训练,避免破坏预训练知识。从而保持模态间隔,这一反应了预训练知识的指标。

2. 模态间隔补偿(Modality Gap Compensation, MGC)

模态间隔需要保持,然而文本分类器受限于模态间隔,其权重矩阵  在图像特征空间中的  的秩可能不足,难以达到最优:

解决方法:在图像空间引入额外分类器 

最终预测融合文本与视觉分类器,兼顾稳定性与适应性。

结果

MG-CLIP 在五个 benchmark 上的表现:

无重放设定下,全面优于现有方法:

参数效率极高:仅需 0.54M 额外参数。 

零样本能力保持:以往的基于 CLIP 的持续学习方法评估往往遵循传统的持续学习评估,只注重在微调数据集上的性能。论文提出对于有强大零样本能力的CLIP模型,还需要对零样本能力的保持进行评估。

上图表示在 CIFAR100 上进行持续学习后,模型骨干在不同数据集上的零样本准确率。可以看到论文提出的方法可以良好地保持零样本性能。

启发

模态间隔在传统研究中常被认为是缺陷,需要缩小。本文则表明:在持续学习中,它是模型预训练知识的反映

保持间隔能保护预训练分布,补偿机制则恢复灵活性 → 兼顾“稳定-可塑性”平衡。

提供了新的研究思路:未来的持续学习应更多利用预训练模型的结构性特征,而非一味改变它们。

贡献

本研究首次在持续学习场景中系统性地揭示了模态间隔的重要作用,并提出了结合“保持”与“补偿”的双机制方法,在有效抑制遗忘的同时兼顾模型的适应性。

在无重放条件下,MG-CLIP 不仅刷新了持续学习的 SOTA,还能保持甚至提升 CLIP 的零样本能力。

更重要的是,工作提供了一个全新的理论视角:预训练知识的维护可以通过对模态间隔的度量与调控来实现。

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

持续学习 类增量学习 CLIP 模态间隔 灾难性遗忘 零样本学习 MG-CLIP Continual Learning Class-Incremental Learning Modality Gap Catastrophic Forgetting Zero-Shot Learning
相关文章