视觉抽象：提升跨模态检索效果的即插即用方法

原创让你更懂AI的 2025-09-02 14:17 北京

不改底座、不再训练

本文第一作者为丁国峰，四川大学计算机学院 2024 级硕士研究生。研究方向为多模态检索、多模态理解，指导老师为彭玺教授。

论文标题：

Visual Abstraction: A Plug-and-Play Approach for Text-Visual Retrieval

论文地址：

https://pengxi.me/wp-content/uploads/2025/05/2025ICML.pdf

代码地址：

https://github.com/XLearning-SCU/2025-ICML-VISA

huggingface数据集：

https://github.com/XLearning-SCU/2025-ICML-VISA

研究背景

跨模态检索在 CLIP 等对比学习范式加持下整体进步显著，但在真实检索里始终被两类根本性矛盾卡住：

语义冗余：联合空间的全局对齐会把与语义无关的底层视觉因素一并拉近，淹没真正有用的语义线索。例如雪地纹理、树枝线条、水面反光、舞台灯光等，检索时易出现“背景相似但语义不对”的假阳性；在视频场景中，也会出现时序冗余。

粒度错配：图像/视频天然具有“无限粒度”，而弱标注文本往往短、粗、信息稀疏，难以覆盖用户查询所需的细粒度与多约束组合。当需要区分颜色/材质/部件、小目标相对位置（空间关系）时，导致粗排召回相关但不精确，精排也难以给出明确、可解释的依据。

方法

该论文从语言空间对齐的角度重新审视视觉语义的建模方式，提出了一种全新的跨模态检索范式。该论文的核心观察在于：相比原始稀疏且冗余的视觉信号，自然语言具有更强的语义承载能力和表达浓度。

基于这一点，该论文设计了一个即插即用的测试时增强方案——视觉抽象（VISual Abstraction, VISA），通过调用多模态大模型，将图像或视频内容转换为高度概括的语言描述，从而过滤冗余信息、强化语义聚焦。

同时引入基于用户查询的问答机制，将复杂查询解析为一系列细粒度语义子目标，并据此对候选视觉内容进行响应，实现跨粒度语义对齐。

最终，VISA 将原本的跨模态检索过程转化为统一文本空间内的语义匹配任务，在无需额外训练的前提下，显著提升了现有模型在图像与视频检索中的检索精度。

1）视觉抽象：为每个候选生成"语义密集"的长描述

先用原始 Vision language model (VLM) 在跨模态联合空间里检索，得到 Top-k 候选。对 Top-k 候选逐个调用现成 LMM，生成覆盖对象、属性、关系与场景的通用长描述（General Description）。长文本相较原始视觉信号能天然过滤低层冗余（如背景纹理、噪声），便于后续在文本空间稳健匹配。

2）查询感知的 QA 精修：补足所需粒度细节

通用长描述覆盖面广，但可能缺少用户当前查询所需的细粒度证据。为此，本文采用 CoT 思路先由 LLM 从查询中抽取关键短语（对象、属性、动作、位置、交互等），据此生成可明确判定的问题；再由 LMM 逐候选作答：若图像/视频无法支撑判断则明确输出“Uncertain”，此类回答会被丢弃以避免幻觉。最终将 QA 的有效回答与通用长描述拼接，得到面向该查询、更细粒度的文本表示。

3）与现有 VLM 的无缝集成：无需训练，分数融合

文本检索器在第二步得到的文本表示上打分，并与 VLM 分数进行两路相加完成重排。这一流程完全发生在测试时，不改动底座模型训练。

实验

本论文在图像检索、视频检索与长文本检索等任务上完成验证，部分实验结果如下。

1）图像检索

把 VISA 接到 SigLIP 与 EVA-CLIP 等主流底座上，在不训练的前提下即可稳步提升召回率，说明“测试时视觉转写 + 轻量重排”对不同规模都有效。

以 COCO 与 Flickr30K 数据集为例，SigLIP 叠加 VISA：R@1 54.2→57.2、83.0→85.1；EVA-CLIP 叠加 VISA：R@1 55.6→59.5、83.1→86.1。

值得一提的是，即便直接“堆大”合并多模型（表中 SigLIP * + EVA-CLIP *），效果也不及本论文提出的测试时的路线，更大≠一定更好，关键在于表示的方式与对齐的粒度。

2）视频检索

以 DiDeMo 为代表，R@1 +2.5。在 MSR-VTT 同样呈现+2.4 的增益。VISA在基座 InternVideo-C 和 -G 上的提升说明对双流与混合架构的视频底座都即插即用就涨分。

3）长文本检索

真实搜索往往是“长描述 + 多约束”。把候选转成语义密集文本后，排序更贴近用户意图，且配套 QA 片段可作为可解释的重排证据。以 DCI 为代表，R@1 +12.1；在 Urban1K 也观察到约 +8.7 的提升，说明转写后的密集文本更贴近用户意图，体现了在多概念、强约束场景下的优势。

4）分析实验

（a）关于通用长描述（GD）质量：即便不启用 QA，仅依靠“长描述”也能带来可观提升；而且随着描述模型能力增强，表述更到位、重排更稳。

（b）在问题数量（QA 个数）上：总体呈现“适当多问更好”的趋势，但存在甜点区；通常 3–5 个问题在效果与开销之间最均衡，继续增加容易出现重复、回报递减（短查询上尤为明显）。

（c）就回答器选择而言：更强回答器更可靠；同时，像中等规模的模型在“答得准”与对无关问题果断拒答（Uncertain）之间取得良好平衡，能够有效抑制幻觉噪声。

（d）面向文本检索器的兼容性：单流方案常因句级融合略占优势，不过双流与轻量检索器同样能稳定增益。换句话说，VISA 对检索器选型不敏感，迁移与落地成本低。

可视化

下图展示了本论文在“蓝色衬衫+围裙+做饭”这一查询下的混淆候选与真实匹配。上半部分中，通用描述将上衣误写为 black shirt，QA 将其矫正为 black jacket。且 QA 对“是否系围裙”给出 Uncertain，因此该候选在重排中被降权。

下半部分中，General Description 和 QA 明确识别出 blue shirt 与 apron，并确认人物正在 preparing food；这些被红框标注为“证据句”的回答与查询要点一一对应，使该样本在 VISA 重排中上升为更高名次。整体说明：查询感知的 QA 能补足细粒度细节，并以可解释的证据提升最终排序。