一行代码盘活多模态检索：通用对比学习新范式

CV君 2025-10-06 12:48 江苏

一行代码盘活多模态检索，轻松应对图文混合新挑战。

大家好，我是CV君。今天想和大家聊一篇非常实用的论文，它来自高通AI研究院，并已被NeurIPS 2025接收。这篇工作聚焦于一个很现实的问题：我们如何让机器在面对图、文、甚至图文混合的内容时，都能“一视同仁”地进行高效检索？

我们熟悉的CLIP等模型，在图文匹配上做得不错，但如果你让它去检索一个本身就包含图片和文字的网页（比如维基百科词条），效果就常常不尽人意。为了解决这个“通用多模态检索”的难题，高通的研究者们提出了一个名为 通用对比学习（Generalized Contrastive Learning, GCL） 的新方法。

GCL最吸引人的地方在于，它 无需任何额外的数据集构建和标注 ，仅利用现有的图文配对数据，就能显著提升模型在各种复杂模态组合下的检索能力。

论文标题: Generalized Contrastive Learning for Universal Multimodal Retrieval

作者: Jungsoo Lee, Janghoon Cho, Hyojin Park, Munawar Hayat, Kyuwoong Hwang, Fatih Porikli, Sungha Choi

机构: 高通AI研究院 (Qualcomm AI Research)

论文地址: https://arxiv.org/abs/2509.25638

录用会议: NeurIPS 2025

研究背景：多模态检索的“偏科”难题

在信息爆炸的时代，我们需要从海量数据中快速找到目标，而这些数据往往是多模态的。传统的跨模态检索，比如“以文搜图”，已经比较成熟。但现实世界要复杂得多，我们可能需要“以文搜图文并茂的文章”，或者“以图搜包含相似图片和描述的商品页面”。

现有的检索模型，如CLIP，虽然强大，但存在一个“模态鸿沟（modality gap）”问题。简单说，就是模型对纯图片、纯文本很在行，但一旦遇到“图片+文本”的混合体，就有点“蒙圈”，不知道该如何是好。

为了解决这个问题，之前的一些工作（如VISTA）尝试“缺啥补啥”。它们针对特定的检索场景（比如“文搜图文对”），手动构建了新的“三元组”数据集来进行微调。这种方法不仅费时费力，需要精细的数据管理，而且训练出的模型容易“偏科”，对于没见过的新检索场景，泛化能力很差。上图就清晰地展示了这一点，传统方法只能学到特定的几个检索组合（黑色方块），而对其他未见过的组合（白色方块）无能为力。

GCL：一种更通用的对比学习范式

面对上述挑战，GCL提出了一种更优雅、更通用的解决方案。它的核心思想是： 与其为每个场景定制数据，不如教会模型一个通用的对齐法则 。

GCL的做法非常巧妙。它不依赖任何新的数据集，而是完全基于现有的“图片-标题”配对数据。

具体来说，对于每一个“图片-标题”对，GCL会提取三种不同的嵌入表示：

图片嵌入 (e_i)

文本嵌入 (e_t)

图文融合嵌入 (e_it) ：将图片和文本信息融合后得到的表示。

然后，GCL将一个小批量（mini-batch）中所有样本的这三种嵌入全部“扔”进一个统一的表示空间里，进行对比学习。如上图所示，其目标是：

拉近正样本：对于同一个源数据，其图片、文本、图文融合这三种嵌入应该在空间中相互靠近。

推远负样本：来自不同源数据的任何嵌入，都应该相互远离。

通过这种方式，GCL迫使模型去学习一个 统一的、跨越了单一模态界限的表示空间 。在这个空间里，无论是图片、文本还是它们的混合体，只要语义相关，它们的距离就应该很近。这就从根本上解决了“模态鸿沟”的问题，使得模型能够自然地处理任意模态组合的检索任务。

实验效果：简单、通用且高效

论文在M-BEIR、MMEB和CoVR等多个主流的多模态检索基准上，对GCL进行了验证。结果显示，无论是应用在VISTA、CLIP还是轻量级的TinyCLIP模型上，GCL都带来了一致且显著的性能提升。

上表展示了在M-BEIR数据集上的部分结果。最值得关注的一点是，使用GCL和简单图文对（GCL (Ours) + Pairwise）训练的VISTA模型，在平均性能上（34.06）远超使用复杂三元组数据集训练的基线模型（CL + Triplet，25.28）。这充分证明了GCL的优越性： 用更简单的数据，达到了更好的效果 。

在MMEB数据集上的结果也同样印证了GCL的有效性，在多个任务上都取得了领先的性能。

赋能轻量级模型

GCL的价值不仅在于提升SOTA模型的性能，更在于它能赋能轻量级模型。

如上表所示，参数量仅为120M的TinyCLIP在经过GCL微调后，其在M-BEIR上的检索性能（22.71）甚至超过了参数量更大的预训练VISTA（21.18）和CLIP-SF（14.92）。这意味着，通过GCL，我们可以在移动端或边缘设备等资源受限的场景下，部署更强大、更通用的检索模型。

更紧密的表示空间

为了更直观地理解GCL的作用，研究者们还对嵌入空间的分布进行了可视化。

上图(a)清晰地显示，在应用GCL后（蓝色条），查询和其对应的正确答案（Ground Truth）之间的余弦相似度普遍得到了提升。这表明GCL有效地拉近了不同模态间正样本对的距离，构建了一个更紧密、更对齐的表示空间。

CV君认为，GCL的设计哲学非常值得借鉴。它没有陷入“头痛医头、脚痛医脚”的数据驱动模式，而是回归到对比学习的本质，通过构建一个更泛化的学习目标，让模型自己学会处理多样化的数据。这种“授人以渔”的思路，在当前大模型时代显得尤为重要。

你觉得这个技术未来会用在哪些场景？一起来聊聊吧！

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签