PaperWeekly 09月02日
视觉抽象:提升跨模态检索效果的即插即用方法
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文提出了一种名为视觉抽象(VISual Abstraction, VISA)的新范式,旨在解决跨模态检索中的语义冗余和粒度错配问题。该方法在测试时利用多模态大模型将图像或视频转换为概括性的语言描述,过滤掉无关的视觉信息,聚焦核心语义。同时,通过用户查询驱动的问答机制,解析复杂查询为细粒度语义子目标,并对候选内容进行响应,实现跨粒度对齐。VISA无需训练底座模型,通过简单的分数融合即可显著提升图像、视频及长文本检索的精度,且易于集成到现有检索系统中,并提供可解释的重排依据。

🌟 **解决核心挑战:** 本研究聚焦跨模态检索中的两大难题:语义冗余(如背景纹理干扰,导致“背景相似但语义不对”)和粒度错配(文本描述稀疏,难以匹配用户细粒度查询)。VISA通过将视觉内容转化为高度概括的语言描述,有效过滤低层冗余信息,强化语义聚焦,同时利用问答机制弥补细粒度信息,实现更精准的匹配。

🎯 **核心方法论:** VISA的核心在于“视觉抽象”。首先,利用现有VLM检索Top-k候选,然后调用现成LMM为候选生成“语义密集”的长描述,过滤视觉冗余。接着,采用CoT思路,解析用户查询,生成问题,由LMM对候选进行问答,明确“Uncertain”的回答会被丢弃。最终,将QA的有效回答与长描述拼接,形成更精细的文本表示,用于最终重排。

🚀 **即插即用与效果显著:** VISA的最大优势在于其“即插即用”特性,无需对现有Vision-Language Model(VLM)进行任何训练或修改。实验证明,将其应用于SigLIP、EVA-CLIP等主流模型后,在图像、视频和长文本检索任务上均实现了显著的精度提升。例如,在图像检索中,SigLIP叠加VISA后R@1从54.2提升至57.2。

💡 **可解释性与兼容性:** VISA不仅提升了检索精度,还提供了可解释性。QA环节的有效回答可以作为重排的证据,清晰展示为何某个候选被选中或排除。此外,VISA对文本检索器的选型并不敏感,无论是单流、双流还是轻量级检索器,都能稳定获得收益,这大大降低了其工程落地成本。

📈 **实验验证与展望:** 论文在COCO、Flickr30K、DiDeMo、MSR-VTT、DCI、Urban1K等多个数据集上进行了广泛验证,证实了VISA在不同场景下的有效性。作者期待与业界合作,将其应用于电商搜索、内容检索、广告匹配等高价值场景,共同推动“视觉摘要索引”的生产级落地。

原创 让你更懂AI的 2025-09-02 14:17 北京

不改底座、不再训练

本文第一作者为丁国峰,四川大学计算机学院 2024 级硕士研究生。研究方向为多模态检索、多模态理解,指导老师为彭玺教授。

论文标题:

Visual Abstraction: A Plug-and-Play Approach for Text-Visual Retrieval

论文地址:

https://pengxi.me/wp-content/uploads/2025/05/2025ICML.pdf

代码地址:

https://github.com/XLearning-SCU/2025-ICML-VISA

huggingface数据集

https://github.com/XLearning-SCU/2025-ICML-VISA

研究背景

跨模态检索在 CLIP 等对比学习范式加持下整体进步显著,但在真实检索里始终被两类根本性矛盾卡住:

语义冗余:联合空间的全局对齐会把与语义无关的底层视觉因素一并拉近,淹没真正有用的语义线索。例如雪地纹理、树枝线条、水面反光、舞台灯光等,检索时易出现“背景相似但语义不对”的假阳性;在视频场景中,也会出现时序冗余。

粒度错配:图像/视频天然具有“无限粒度”,而弱标注文本往往短、粗、信息稀疏,难以覆盖用户查询所需的细粒度与多约束组合。当需要区分颜色/材质/部件、小目标相对位置(空间关系)时,导致粗排召回相关但不精确,精排也难以给出明确、可解释的依据。

方法

该论文从语言空间对齐的角度重新审视视觉语义的建模方式,提出了一种全新的跨模态检索范式。该论文的核心观察在于:相比原始稀疏且冗余的视觉信号,自然语言具有更强的语义承载能力和表达浓度。

基于这一点,该论文设计了一个即插即用的测试时增强方案——视觉抽象(VISual Abstraction, VISA),通过调用多模态大模型,将图像或视频内容转换为高度概括的语言描述,从而过滤冗余信息、强化语义聚焦。

同时引入基于用户查询的问答机制,将复杂查询解析为一系列细粒度语义子目标,并据此对候选视觉内容进行响应,实现跨粒度语义对齐。

最终,VISA 将原本的跨模态检索过程转化为统一文本空间内的语义匹配任务,在无需额外训练的前提下,显著提升了现有模型在图像与视频检索中的检索精度。

1)视觉抽象:为每个候选生成"语义密集"的长描述

先用原始 Vision language model (VLM) 在跨模态联合空间里检索,得到 Top-k 候选。对 Top-k 候选逐个调用现成 LMM,生成覆盖对象、属性、关系与场景的通用长描述(General Description)。长文本相较原始视觉信号能天然过滤低层冗余(如背景纹理、噪声),便于后续在文本空间稳健匹配。 

2)查询感知的 QA 精修:补足所需粒度细节 

通用长描述覆盖面广,但可能缺少用户当前查询所需的细粒度证据。为此,本文采用 CoT 思路先由 LLM 从查询中抽取关键短语(对象、属性、动作、位置、交互等),据此生成可明确判定的问题;再由 LMM 逐候选作答:若图像/视频无法支撑判断则明确输出“Uncertain”,此类回答会被丢弃以避免幻觉。最终将 QA 的有效回答与通用长描述拼接,得到面向该查询、更细粒度的文本表示。 

3)与现有 VLM 的无缝集成:无需训练,分数融合 

文本检索器在第二步得到的文本表示上打分,并与 VLM 分数进行两路相加完成重排。 这一流程完全发生在测试时,不改动底座模型训练。

实验

本论文在图像检索、视频检索与长文本检索等任务上完成验证,部分实验结果如下。 

1)图像检索 

把 VISA 接到 SigLIP 与 EVA-CLIP 等主流底座上,在不训练的前提下即可稳步提升召回率,说明“测试时视觉转写 + 轻量重排”对不同规模都有效。

以 COCO 与 Flickr30K 数据集为例,SigLIP 叠加 VISA:R@1 54.2→57.2、83.0→85.1;EVA-CLIP 叠加 VISA:R@1 55.6→59.5、83.1→86.1。 

值得一提的是,即便直接“堆大”合并多模型(表中 SigLIP * + EVA-CLIP *),效果也不及本论文提出的测试时的路线,更大≠一定更好,关键在于表示的方式与对齐的粒度。

2)视频检索 

以 DiDeMo 为代表,R@1 +2.5。在 MSR-VTT 同样呈现+2.4 的增益。VISA在基座 InternVideo-C 和 -G 上的提升说明对双流与混合架构的视频底座都即插即用就涨分。

3)长文本检索 

真实搜索往往是“长描述 + 多约束”。把候选转成语义密集文本后,排序更贴近用户意图,且配套 QA 片段可作为可解释的重排证据。以 DCI 为代表,R@1 +12.1;在 Urban1K 也观察到约 +8.7 的提升,说明转写后的密集文本更贴近用户意图,体现了在多概念、强约束场景下的优势。

4)分析实验

(a)关于通用长描述(GD)质量:即便不启用 QA,仅依靠“长描述”也能带来可观提升;而且随着描述模型能力增强,表述更到位、重排更稳。

(b)在问题数量(QA 个数)上:总体呈现“适当多问更好”的趋势,但存在甜点区;通常 3–5 个问题在效果与开销之间最均衡,继续增加容易出现重复、回报递减(短查询上尤为明显)。

(c)就回答器选择而言:更强回答器更可靠;同时,像中等规模的模型在“答得准”与对无关问题果断拒答(Uncertain)之间取得良好平衡,能够有效抑制幻觉噪声。

(d)面向文本检索器的兼容性:单流方案常因句级融合略占优势,不过双流与轻量检索器同样能稳定增益。换句话说,VISA 对检索器选型不敏感,迁移与落地成本低。

可视化

下图展示了本论文在“蓝色衬衫+围裙+做饭”这一查询下的混淆候选与真实匹配。上半部分中,通用描述将上衣误写为 black shirt,QA 将其矫正为 black jacket。且 QA 对“是否系围裙”给出 Uncertain,因此该候选在重排中被降权。

下半部分中,General Description 和 QA 明确识别出 blue shirt 与 apron,并确认人物正在 preparing food;这些被红框标注为“证据句”的回答与查询要点一一对应,使该样本在 VISA 重排中上升为更高名次。整体说明:查询感知的 QA 能补足细粒度细节,并以可解释的证据提升最终排序。

总结与展望

本文聚焦跨模态检索中的语义冗余与粒度错配难题,提出在测试时将候选图像/视频进行“视觉抽象”,再以查询感知的 QA 在文本空间完成重排的路线,兼顾即插即用、稳定增益与可解释性。本论文在图像、视频与长文本三类场景验证了这一路线的有效性,也在工程上证明它能够以极低的改动嵌入现有召回—重排链路。 

本论文作者期待与业界在大规模检索业务中开展更紧密的合作,特别是在电商搜索、内容检索、长视频检索与广告匹配(搜广推)等高价值场景,共同推进“视觉摘要索引”的生产级落地。如果您所在的团队正在升级检索、推荐或广告的相关能力,期待与您交流实践经验,一同打磨可落地的方案。

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

跨模态检索 视觉抽象 AI 自然语言处理 计算机视觉 Cross-Modal Retrieval Visual Abstraction AI Natural Language Processing Computer Vision
相关文章