CV君 2025-08-25 12:13 江苏

近日，来自 Sony AI 的研究者们发表了一篇题为《Seeing Further on the Shoulders of Giants: Knowledge Inheritance for Vision Foundation Models》的论文，为构建强大的视觉基础模型（Vision Foundation Models, VFMs）提供了一条崭新的、更高效的“捷径”。

论文的核心思想是，与其从零开始、耗费海量数据和计算资源去“卷”一个全新的大模型，不如“站在巨人的肩膀上”，通过一种巧妙的 模型驱动（model-driven） 方法，让新模型直接“继承”现有多个优秀开源模型的知识和能力。研究者们提出了一个名为 知识保留与统一（Knowledge Preservation and Unification, KPU） 的新框架，它能将多个不同领域的“教师”模型（如精通分类的、精通检测的）的知识高效地融合到一个“学生”模型中。最终诞生的VFM不仅天然地支持多种视觉任务，而且在图像分类、目标检测、语义分割和实例分割这四项核心任务上的表现，全面超越了现有的数据驱动模型。

论文标题：Seeing Further on the Shoulders of Giants: Knowledge Inheritance for Vision Foundation Models

论文作者：Jiabo Huang, Chen Chen, Lingjuan Lyu

作者机构：Sony AI

论文地址：https://arxiv.org/abs/2508.14707

研究背景：数据驱动 vs. 模型驱动

视觉基础模型（VFM）的开发主要有两种范式：

数据驱动（Data-centric）：这是目前的主流方法，依赖于在海量的、通常带有高质量标注的数据集上进行训练。这种方法虽然强大，但其高昂的数据成本和算力需求，使得大多数研究机构望而却步，构成了巨大的技术瓶颈。

模型驱动（Model-driven）：这种方法另辟蹊径，它不直接依赖原始数据，而是致力于从现有的、已经在特定领域数据上预训练好的开源模型中聚合与提炼知识。这些预训练模型是社区的宝贵财富，但如何高效利用它们来构建一个通用的VFM，一直是一个未被充分探索的课题。

现有模型驱动方法通常是将学生模型的特征与各个教师模型的特征进行对齐。但由于不同教师模型的训练方式、数据域各不相同，其特征分布（比如数值大小范围）差异巨大，直接对齐会导致“不均衡迁移”问题——模型会不自觉地偏向于那些特征数值更大的“强势”教师，而忽略其他教师的知识，无法做到博采众长。

上图清晰地展示了三种VFM训练范式的区别。(a)是传统的数据驱动；(b)是传统的模型驱动，在各自空间进行特征对齐；(c)则是本文提出的KPU方法，它通过知识保留和统一迁移，将多个教师的知识精华聚合到一个“哨兵教师”之上。

方法：知识保留与统一（KPU）

为了解决上述问题，作者们设计了KPU框架，其核心包含两大策略：知识统一和知识保留。

知识统一（Knowledge Unification）

为了解决“不均衡迁移”问题，KPU不再让学生模型去分别适应每个教师的特征空间，而是反其道而行之：将所有教师模型的特征都投影到一个统一的、共享的公共潜空间（common latent space）中，再与学生模型进行对齐。这种设计极大地缩小了不同教师之间的分布差距，使得知识迁移更加均衡、高效。

知识保留（Knowledge Preservation）

这是KPU框架的另一大创新。它并非平等地对待所有教师，而是指定一个通用能力最强的模型（比如DINOv2）作为“哨兵教师”（sentinel teacher），充当知识的“底座”或“知识库”。学生模型的主干网络直接复用这个哨兵教师的预训练权重并将其冻结。

而来自其他“特定任务教师”（purpose-specific teachers，如CLIP、GroundingDINO）的专业知识，则通过一个轻量级的、可训练的 适配器模块（Adapter Module），被巧妙地“注入”到学生模型中。如上图(b)所示，适配器与ViT主干网络通过交叉注意力机制进行双向互动，既保留了哨兵教师强大的通用表征能力，又无缝地融入了其他教师的专业技能。

通过这种“冻结主干 + 训练适配器”的混合策略，KPU成功地将不同架构、不同领域的模型知识高效地聚合在一起，构建出一个集大成者。