我爱计算机视觉 10小时前
OneRef:单塔统一框架实现视觉定位与分割
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OneRef 是一个创新的框架,旨在解决视觉和语言交叉领域的指代表达式定位与分割问题。它采用单塔 Transformer 结构,同时处理图像和文本,将两种信息融合在同一个特征空间里,避免了传统双塔结构的复杂性和效率问题。OneRef 的核心是多模态掩码指代建模 (MRefM),通过预训练任务引导模型理解文字描述和图像区域之间的精确对应关系。实验结果表明,OneRef 在多个主流指代任务数据集上都取得了当前最佳成绩,并且具有极高的效率。

🔍 OneRef 采用单塔 Transformer 结构,同时处理图像和文本,将两种信息融合在同一个特征空间里,避免了传统双塔结构的复杂性和效率问题。

🎯 OneRef 的核心是多模态掩码指代建模 (MRefM),通过预训练任务引导模型理解文字描述和图像区域之间的精确对应关系,从而实现精确的视觉定位和分割。

⚡ OneRef 在多个主流指代任务数据集上都取得了当前最佳成绩,并且具有极高的效率,参数量和计算量远低于其他知名模型,但推理速度却快了 10 倍以上。

🧠 OneRef 的成功证明了通过精心设计的预训练任务,一个统一的“单塔”模型完全有能力解决复杂的跨模态对齐和定位问题,这对于未来多模态基础模型的研究具有重要的启发意义。

CV君 2025-11-06 17:35 江苏

用一个模型统一了三大指代任务,性能与效率双双领先。

在很多工作中常看到“统一视觉与语言”表示的论文,今天分享一篇语言指代定位与分割领域的工作,来自中国科学院、鹏城实验室和哈尔滨工业大学(深圳)等机构的研究者们,他们提出了一种名为 OneRef 的框架。

简单来说,OneRef 尝试解决一个在视觉和语言交叉领域里非常经典的问题:指代表达式定位与分割。这个任务就是让机器根据一句自然语言描述(比如“那个正在走路的长颈鹿”),在图片中找到并框出或分割出对应的物体。传统的做法通常是为不同的任务(比如画框的REC、做分割的RES)设计不同的模型,不仅复杂,而且效率不高。

OneRef 的核心思想就是“统一”,它用一个共享的“单塔”Transformer结构,同时处理图像和文本,把两种信息融合在同一个特征空间里。这就像给机器装上了一个既能看图又能懂话的“通用大脑”,不再需要为视觉和语言分别设置两个独立的“处理中心”再费力地去融合。

更关键的是,作者们还提出了一种全新的预训练范式,叫做 多模态掩码指代建模(Mask Referring Modeling, MRefM)。这个方法在训练时,不仅仅是简单地让模型恢复被遮住的图像或文字,而是引导它去理解“指代关系”,也就是文字描述和图像区域之间的精确对应。

这篇论文出自 NeurIPS 2024,一起来看看这项工作的基本信息:

    论文标题: OneRef: Unified One-tower Expression Grounding and Segmentation with Mask Referring Modeling

    中文题目:基于掩码指代建模的视觉定位和指代分割单塔统一框架

    作者: Linhui Xiao, Xiaoshan Yang, Fang Peng, Yaowei Wang, Changsheng Xu

    机构: 中国科学院, 鹏城实验室, 中国科学院大学, 哈尔滨工业大学(深圳)

研究背景与动机

在 OneRef 之前,主流的指代表达式理解(REC)和分割(RES)方法大多采用的是“双塔”结构。如下图所示,它们通常会有一个独立的视觉编码器(比如 ViT)和一个语言编码器(比如 BERT),分别提取特征后,再通过一个复杂的“融合模块”(Fusion Transformer)进行交互。

这种设计的弊端很明显:

    结构臃肿:模型参数量大,计算复杂。

    融合困难:视觉和语言在两个独立的空间里编码,如何有效、细粒度地对齐一直是个难题,因此催生了各种复杂的交互设计。

    任务割裂:不同的指代任务(画框、分割)往往需要不同的模型头,难以实现真正的统一。

研究者们正是看到了这些痛点,才提出了 OneRef。他们想探索一个更简洁、更高效的“单塔”共享模型,将视觉和语言从一开始就在一个统一的特征空间里进行建模,从而摆脱对笨重融合模块和复杂交互设计的依赖。

OneRef 的核心方法

OneRef 的成功主要归功于两大创新:一个统一的“单塔”架构和一个新颖的“掩码指代建模”预训练范式。

统一的单塔架构

OneRef 建立在一个模态共享的单塔 Transformer 之上(基于 BEiT-3 的思想),图像块(Patches)和文本词元(Tokens)被送入同一个 Transformer 编码器。这意味着模型从底层就开始学习视觉和语言的联合表示,天然地促进了两种模态的对齐。这种设计使得整个框架异常简洁,不再需要额外的跨模态融合编码器/解码器。

多模态掩码指代建模 (MRefM)

这是 OneRef 的灵魂所在。传统的掩码语言/图像建模(MLM/MIM)任务是让模型预测被遮挡的单词或图像块,这对于学习通用的图文知识很有效,但对于需要精确空间定位的指代任务来说,还不够。

MRefM 对此进行了升级,它包含两个相互关联的子任务:指代感知的掩码图像建模 (Referring-MIM) 和 指代感知的掩码语言建模 (Referring-MLM) 。

    Referring-MIM: 当模型重建被遮挡的图像块时,它不仅要恢复图像内容本身,还要额外预测一个“视觉目标关系分数”。这个分数描述了当前图像块与被指代物体区域之间的空间关系(例如,到目标中心的距离、相对尺寸等)。为了让模型更好地学习这种关系,作者还设计了一种“指代感知的动态图像掩码策略”,它会有侧重地对被指代的物体区域进行高比例的遮挡,迫使模型依赖上下文和文本来理解和重建它。

    Referring-MLM: 类似地,在重建被遮挡的文本词元时,模型也需要预测一个“语义目标关系分数”,这个分数代表了当前词元与被指代图像区域的语义相关性。

通过这种方式,MRefM 预训练让模型的每一个图像和文本特征都隐式地包含了指代信息,为后续直接、高效地完成定位和分割任务打下了坚实的基础。

统一的任务头

得益于 MRefM 学习到的强大且统一的特征表示,OneRef 的下游任务头设计得异常简洁。无论是画框(REC)还是分割(RES),都可以直接在编码器的输出特征上,通过简单的点积操作和轻量级的 MLP(多层感知机)或反卷积层来直接回归出结果,无需任何特殊的 [Region] 标记或复杂的解码器。

惊艳的实验结果

OneRef 的性能表现非常出色,在多个主流的指代任务数据集上都取得了当前最佳(SOTA)的成绩。

指代表达式理解/定位 (REC/PG) 任务

在单数据集微调设定下,OneRef-L(大模型版本)在 RefCOCO、RefCOCO+ 和 RefCOCOg 等多个测试集上全面超越了之前的 SOTA 模型 HiVG-L。例如,在最具挑战性的 RefCOCOg 数据集上,准确率达到了 89.29%

在混合数据集预训练的设定下,OneRef 的优势更加明显。即便是与参数量远大于自己的多模态大语言模型(如 LION-12B)相比,OneRef-L 依然能在 RefCOCO+ 的 testB 上取得 82.70% 的准确率,性能领先。

指代表达式分割 (RES) 任务

在分割任务上,OneRef 同样表现优异。在 RefCOCO+ 的 testB 上,OneRef-L 的 mIoU 达到了 70.17%,显著高于之前的最佳方法。

效率与消融实验

除了性能强大,OneRef 还非常高效。下面的计算成本对比表显示,OneRef 的参数量和计算量(FLOPs)远低于 Grounding-DINO、MDETR 等知名模型,但推理速度(FPS)却快了 10倍 以上。这充分体现了其简洁架构的巨大优势。

消融实验也证明了 MRefM 范式的有效性。与基线相比,同时使用 Referring-MIM 和 Referring-MLM 带来了巨大的性能提升,在 RefCOCOg 测试集上提升了超过 6.2%

可视化效果

从定性结果来看,OneRef能够准确理解复杂的语言描述,并给出精确的定位框和分割掩码。

总结

CV君认为,OneRef不仅在性能上取得了突破,更重要的是为视觉语言指代任务提供了一个全新的、更加简洁优雅的框架。它证明了通过精心设计的预训练任务,一个统一的“单塔”模型完全有能力解决复杂的跨模态对齐和定位问题,这对于未来多模态基础模型的研究具有重要的启发意义。

大家对这个方法怎么看?欢迎在评论区留下你的看法!

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

视觉定位 指代分割 单塔框架 多模态学习 掩码指代建模
相关文章