我爱计算机视觉 10月06日 16:37
一行代码盘活多模态检索:通用对比学习新范式
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

高通AI研究院提出了一种名为通用对比学习(GCL)的新方法,旨在解决多模态检索中的“模态鸿沟”问题。GCL无需额外数据集,仅利用现有图文配对数据,通过统一对比学习范式,使模型能够高效处理图、文及图文混合内容的检索任务。实验证明,GCL显著提升了多种检索基准上的性能,并能赋能轻量级模型,使其在资源受限场景下表现更优。该方法通过拉近不同模态正样本的距离,构建了更紧密的表示空间。

🎯 **通用多模态检索的挑战与GCL的解决方案**:传统多模态检索模型在处理图、文混合内容时存在“模态鸿沟”,表现不佳。GCL方法通过一个统一的对比学习范式,仅利用现有图文配对数据,无需额外数据集,就能显著提升模型在各种复杂模态组合下的检索能力,解决了这一难题。

💡 **GCL的核心机制:统一表示空间与对比学习**:GCL的核心思想是教会模型一个通用的对齐法则。它提取图片的嵌入、文本的嵌入以及图文融合的嵌入,并将它们置于统一的表示空间中进行对比学习。目标是拉近同一源数据的不同模态嵌入,同时推远不同源数据的嵌入,从而学习一个跨越单一模态界限的表示空间。

🚀 **显著的性能提升与赋能轻量级模型**:在M-BEIR、MMEB等多个基准测试中,GCL在不同模型上均带来了显著的性能提升,并且用更简单的数据达到了比复杂三元组数据集更好的效果。特别地,GCL能够赋能TinyCLIP等轻量级模型,使其在资源受限场景下的检索性能超越参数量更大的模型,展现了其高效性和通用性。

📊 **可视化证据:更紧密的表示空间**:通过对嵌入空间的分析,研究者发现应用GCL后,查询与其对应正确答案之间的余弦相似度普遍得到提升。这直观地表明GCL有效地拉近了不同模态间正样本对的距离,构建了一个更紧密、更对齐的表示空间,从而提升了检索的准确性。

CV君 2025-10-06 12:48 江苏

一行代码盘活多模态检索,轻松应对图文混合新挑战。

大家好,我是CV君。今天想和大家聊一篇非常实用的论文,它来自高通AI研究院,并已被NeurIPS 2025接收。这篇工作聚焦于一个很现实的问题:我们如何让机器在面对图、文、甚至图文混合的内容时,都能“一视同仁”地进行高效检索?

我们熟悉的CLIP等模型,在图文匹配上做得不错,但如果你让它去检索一个本身就包含图片和文字的网页(比如维基百科词条),效果就常常不尽人意。为了解决这个“通用多模态检索”的难题,高通的研究者们提出了一个名为 通用对比学习(Generalized Contrastive Learning, GCL) 的新方法。

GCL最吸引人的地方在于,它 无需任何额外的数据集构建和标注 ,仅利用现有的图文配对数据,就能显著提升模型在各种复杂模态组合下的检索能力。

论文标题: Generalized Contrastive Learning for Universal Multimodal Retrieval

作者: Jungsoo Lee, Janghoon Cho, Hyojin Park, Munawar Hayat, Kyuwoong Hwang, Fatih Porikli, Sungha Choi

机构: 高通AI研究院 (Qualcomm AI Research)

论文地址: https://arxiv.org/abs/2509.25638

录用会议: NeurIPS 2025

研究背景:多模态检索的“偏科”难题

在信息爆炸的时代,我们需要从海量数据中快速找到目标,而这些数据往往是多模态的。传统的跨模态检索,比如“以文搜图”,已经比较成熟。但现实世界要复杂得多,我们可能需要“以文搜图文并茂的文章”,或者“以图搜包含相似图片和描述的商品页面”。

现有的检索模型,如CLIP,虽然强大,但存在一个“模态鸿沟(modality gap)”问题。简单说,就是模型对纯图片、纯文本很在行,但一旦遇到“图片+文本”的混合体,就有点“蒙圈”,不知道该如何是好。

为了解决这个问题,之前的一些工作(如VISTA)尝试“缺啥补啥”。它们针对特定的检索场景(比如“文搜图文对”),手动构建了新的“三元组”数据集来进行微调。这种方法不仅费时费力,需要精细的数据管理,而且训练出的模型容易“偏科”,对于没见过的新检索场景,泛化能力很差。上图就清晰地展示了这一点,传统方法只能学到特定的几个检索组合(黑色方块),而对其他未见过的组合(白色方块)无能为力。

GCL:一种更通用的对比学习范式

面对上述挑战,GCL提出了一种更优雅、更通用的解决方案。它的核心思想是: 与其为每个场景定制数据,不如教会模型一个通用的对齐法则 。

GCL的做法非常巧妙。它不依赖任何新的数据集,而是完全基于现有的“图片-标题”配对数据。

具体来说,对于每一个“图片-标题”对,GCL会提取三种不同的嵌入表示:

图片嵌入 (e_i)

文本嵌入 (e_t)

图文融合嵌入 (e_it) :将图片和文本信息融合后得到的表示。

然后,GCL将一个小批量(mini-batch)中所有样本的这三种嵌入全部“扔”进一个统一的表示空间里,进行对比学习。如上图所示,其目标是:

拉近正样本:对于同一个源数据,其图片、文本、图文融合这三种嵌入应该在空间中相互靠近。

推远负样本:来自不同源数据的任何嵌入,都应该相互远离。

通过这种方式,GCL迫使模型去学习一个 统一的、跨越了单一模态界限的表示空间 。在这个空间里,无论是图片、文本还是它们的混合体,只要语义相关,它们的距离就应该很近。这就从根本上解决了“模态鸿沟”的问题,使得模型能够自然地处理任意模态组合的检索任务。

实验效果:简单、通用且高效

论文在M-BEIR、MMEB和CoVR等多个主流的多模态检索基准上,对GCL进行了验证。结果显示,无论是应用在VISTA、CLIP还是轻量级的TinyCLIP模型上,GCL都带来了一致且显著的性能提升。

上表展示了在M-BEIR数据集上的部分结果。最值得关注的一点是,使用GCL和简单图文对(GCL (Ours) + Pairwise)训练的VISTA模型,在平均性能上(34.06)远超使用复杂三元组数据集训练的基线模型(CL + Triplet,25.28)。这充分证明了GCL的优越性: 用更简单的数据,达到了更好的效果 。

在MMEB数据集上的结果也同样印证了GCL的有效性,在多个任务上都取得了领先的性能。

赋能轻量级模型

GCL的价值不仅在于提升SOTA模型的性能,更在于它能赋能轻量级模型。

如上表所示,参数量仅为120M的TinyCLIP在经过GCL微调后,其在M-BEIR上的检索性能(22.71)甚至超过了参数量更大的预训练VISTA(21.18)和CLIP-SF(14.92)。这意味着,通过GCL,我们可以在移动端或边缘设备等资源受限的场景下,部署更强大、更通用的检索模型。

更紧密的表示空间

为了更直观地理解GCL的作用,研究者们还对嵌入空间的分布进行了可视化。

上图(a)清晰地显示,在应用GCL后(蓝色条),查询和其对应的正确答案(Ground Truth)之间的余弦相似度普遍得到了提升。这表明GCL有效地拉近了不同模态间正样本对的距离,构建了一个更紧密、更对齐的表示空间。

CV君认为,GCL的设计哲学非常值得借鉴。它没有陷入“头痛医头、脚痛医脚”的数据驱动模式,而是回归到对比学习的本质,通过构建一个更泛化的学习目标,让模型自己学会处理多样化的数据。这种“授人以渔”的思路,在当前大模型时代显得尤为重要。

你觉得这个技术未来会用在哪些场景?一起来聊聊吧!

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

多模态检索 通用对比学习 GCL 高通AI研究院 NeurIPS 2025 CV君 Multimodal Retrieval Generalized Contrastive Learning GCL Qualcomm AI Research NeurIPS 2025 CV Jun
相关文章