CV君 2025-08-25 12:13 江苏
近日,来自 Sony AI 的研究者们发表了一篇题为《Seeing Further on the Shoulders of Giants: Knowledge Inheritance for Vision Foundation Models》的论文,为构建强大的视觉基础模型(Vision Foundation Models, VFMs)提供了一条崭新的、更高效的“捷径”。
论文的核心思想是,与其从零开始、耗费海量数据和计算资源去“卷”一个全新的大模型,不如“站在巨人的肩膀上”,通过一种巧妙的 模型驱动(model-driven) 方法,让新模型直接“继承”现有多个优秀开源模型的知识和能力。研究者们提出了一个名为 知识保留与统一(Knowledge Preservation and Unification, KPU) 的新框架,它能将多个不同领域的“教师”模型(如精通分类的、精通检测的)的知识高效地融合到一个“学生”模型中。最终诞生的VFM不仅天然地支持多种视觉任务,而且在图像分类、目标检测、语义分割和实例分割这四项核心任务上的表现,全面超越了现有的数据驱动模型。
论文标题:Seeing Further on the Shoulders of Giants: Knowledge Inheritance for Vision Foundation Models
论文作者:Jiabo Huang, Chen Chen, Lingjuan Lyu
作者机构:Sony AI
研究背景:数据驱动 vs. 模型驱动
视觉基础模型(VFM)的开发主要有两种范式:
数据驱动(Data-centric):这是目前的主流方法,依赖于在海量的、通常带有高质量标注的数据集上进行训练。这种方法虽然强大,但其高昂的数据成本和算力需求,使得大多数研究机构望而却步,构成了巨大的技术瓶颈。
模型驱动(Model-driven):这种方法另辟蹊径,它不直接依赖原始数据,而是致力于从现有的、已经在特定领域数据上预训练好的开源模型中聚合与提炼知识。这些预训练模型是社区的宝贵财富,但如何高效利用它们来构建一个通用的VFM,一直是一个未被充分探索的课题。
现有模型驱动方法通常是将学生模型的特征与各个教师模型的特征进行对齐。但由于不同教师模型的训练方式、数据域各不相同,其特征分布(比如数值大小范围)差异巨大,直接对齐会导致“不均衡迁移”问题——模型会不自觉地偏向于那些特征数值更大的“强势”教师,而忽略其他教师的知识,无法做到博采众长。
上图清晰地展示了三种VFM训练范式的区别。(a)是传统的数据驱动;(b)是传统的模型驱动,在各自空间进行特征对齐;(c)则是本文提出的KPU方法,它通过知识保留和统一迁移,将多个教师的知识精华聚合到一个“哨兵教师”之上。
方法:知识保留与统一(KPU)
为了解决上述问题,作者们设计了KPU框架,其核心包含两大策略:知识统一和知识保留。
知识统一(Knowledge Unification)
为了解决“不均衡迁移”问题,KPU不再让学生模型去分别适应每个教师的特征空间,而是反其道而行之:将所有教师模型的特征都投影到一个统一的、共享的公共潜空间(common latent space)中,再与学生模型进行对齐。这种设计极大地缩小了不同教师之间的分布差距,使得知识迁移更加均衡、高效。
知识保留(Knowledge Preservation)
这是KPU框架的另一大创新。它并非平等地对待所有教师,而是指定一个通用能力最强的模型(比如DINOv2)作为“哨兵教师”(sentinel teacher),充当知识的“底座”或“知识库”。学生模型的主干网络直接复用这个哨兵教师的预训练权重并将其冻结。
而来自其他“特定任务教师”(purpose-specific teachers,如CLIP、GroundingDINO)的专业知识,则通过一个轻量级的、可训练的 适配器模块(Adapter Module),被巧妙地“注入”到学生模型中。如上图(b)所示,适配器与ViT主干网络通过交叉注意力机制进行双向互动,既保留了哨兵教师强大的通用表征能力,又无缝地融入了其他教师的专业技能。
通过这种“冻结主干 + 训练适配器”的混合策略,KPU成功地将不同架构、不同领域的模型知识高效地聚合在一起,构建出一个集大成者。
实验结果
论文在四大基础视觉任务上进行了广泛的实验,结果表明,KPU模型在只使用了DINOv2等模型约10%训练数据量的情况下,取得了惊人的性能。
与SOTA模型对比:
在与众多数据驱动和模型驱动的SOTA模型对比中,KPU在所有四项任务(图像分类、实例分割、目标检测、语义分割)上均取得了最佳或次佳的成绩,最终的综合性能(Overall)达到了 63.2,显著优于所有对手。
零样本能力:
KPU不仅在标准微调任务上表现出色,还从教师模型那里继承了强大的零样本(zero-shot)能力。
如上图所示,在ImageNet-1K零样本分类任务上,KPU的表现(74.1%)远超其教师之一CLIP;在COCO零样本目标检测任务上,KPU的表现(49.1%)也大幅超越了另一个以该任务见长的SOTA模型Florence-2。这证明KPU真正做到了“青出于蓝而胜于蓝”。
消融实验:
消融研究进一步证实了KPU框架中每个组件的有效性。上表结果显示,同时使用知识保留(Pre)和知识统一(Uni)的完整KPU模型,在所有任务上都取得了最佳性能,证明了这两个核心设计的必要性和优越性。
论文价值与总结
这篇论文为视觉基础模型的未来发展开辟了一条更加经济、高效和可持续的新路径。
提出KPU框架:论文提出了一个简单而有效的模型驱动训练框架KPU,通过知识保留与统一,成功地解决了多教师知识继承中的核心挑战。
降低VFM门槛:该方法极大地降低了对大规模、高质量标注数据的依赖,使得资源有限的机构也能够开发出强大的视觉基础模型,促进了AI技术的普惠。
高效利用开源成果:KPU为如何系统性地整合、利用社区中已有的海量开源模型提供了宝贵的范例,真正实现了“站在巨人的肩膀上看得更远”。
CV君认为,这项工作是对当前大模型“军备竞赛”的一次冷静反思和巧妙破局。它证明了通过智慧的“知识聚合”而非单纯的“数据堆砌”,同样可以、甚至能够更好地构建出强大的基础模型。这对于整个AI社区的健康发展无疑具有重要的指导意义。
了解最新 AI 进展,欢迎关注公众号:aicvml投稿寻求报道请发邮件至:amos@52cv.net欢迎点赞、转发、评论。
