我爱计算机视觉 10月20日 22:55
Rex-Omni:用“下一个点预测”革新目标检测
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

IDEA研究院的最新研究成果Rex-Omni,一个3B参数的多模态大语言模型,通过将目标检测重定义为“下一个点预测”任务,巧妙规避了传统方法的复杂坐标回归。这一创新使其在COCO、LVIS等基准上零样本性能媲美甚至超越DINO等模型。Rex-Omni的核心在于任务范式(化回归为预测)、数据引擎(海量高质量数据)和训练流程(SFT+GRPO强化学习),成功解决了MLLM在检测任务中的优化目标不匹配和训练推理鸿沟等难题,展现了在多种视觉感知任务上的强大泛化能力。

🎯 **创新任务范式:化繁为简的“下一个点预测”** Rex-Omni将目标检测从复杂的坐标回归问题转变为更符合语言模型思路的“下一个点预测”任务。通过将图像坐标空间量化为1000个离散值,并用特殊token表示,极大地降低了模型的学习难度,将连续回归转化为有限集合内的分类问题。这种设计不仅简化了模型结构,还显著提高了token效率和推理速度,为统一多模态视觉感知任务提供了新框架。

📊 **海量数据与强化学习:赋能精准与泛化** 为了支撑这种新的任务范式,Rex-Omni构建了自动化数据引擎,生成了包含2200万样本的海量高质量标注数据,涵盖了多种视觉定位任务。随后,模型经历了监督微调(SFT)和基于GRPO的强化学习后训练。GRPO通过精心设计的几何感知奖励函数,有效弥合了离散token与连续坐标间的鸿沟,提升了边界框的精度,并显著抑制了重复检测等不良行为,使其在密集小目标检测等难题上表现突出。

🚀 **卓越的零样本性能与多任务能力** Rex-Omni在COCO和LVIS等权威目标检测基准上,在零样本设置下展现了惊人的性能,其结果媲美甚至超越了DINO等传统模型。尤其在长尾物体检测和密集小目标检测等更具挑战性的场景下,Rex-Omni均取得了显著优势。此外,得益于其强大的语言理解能力,该模型在指代性物体检测、视觉提示、GUI定位、OCR等多种视觉感知任务上均表现出全面的强大实力,预示着通用视觉感知系统的未来方向。

CV君 2025-10-15 15:44 江苏

一个模型,通吃各类检测,性能还如此能打!

今天和大家分享一篇来自IDEA 研究院的最新研究成果。这篇名为《Detect Anything via Next Point Prediction》的论文,介绍了一个名为 Rex-Omni 的3B参数多模态大语言模型(MLLM)。它巧妙地绕开了传统目标检测方法(如YOLO、DETR)中复杂的坐标回归问题,而是将目标检测重新定义为一个更符合语言模型思路的“下一个点预测”任务。

这一转变不仅让模型的设计更加简洁,更带来了惊人的性能提升。在COCO和LVIS等权威的目标检测基准上,Rex-Omni在零样本(zero-shot)设置下,其性能媲美甚至超越了像DINO和Grounding DINO这样强大的传统模型。

一起来看看这项工作的基本信息:

研究背景:当MLLM遇到目标检测的“老大难”

目标检测是计算机视觉领域的基石,从YOLO到DETR,再到DINO,我们见证了基于坐标回归的检测器不断刷新性能上限。然而,这些模型在理解复杂的自然语言指令方面相对受限。

近年来,研究者们尝试利用多模态大语言模型(MLLM)强大的语言理解能力来解决检测问题,但效果总是不尽如人意。这些MLLM在做检测时,常常面临召回率低、重复预测、坐标不准等一系列挑战。

究其原因,主要是两个核心困难:

    优化目标不匹配:传统检测器使用L1或GIoU等几何感知损失函数,对坐标的微小偏差不敏感。而MLLM将坐标预测视为分类问题,即使像素上只差一点点,在模型看来也是完全错误的分类,导致损失巨大,优化困难。

    训练与推理的鸿沟:MLLM在训练时普遍采用“教师强制”(teacher-forcing)策略,即总是基于标准答案(ground-truth)来预测下一个token。但在推理时,模型需要基于自己生成的内容进行预测,一旦出错就可能“一错再错”,导致重复检测或漏检等行为问题。

为了解决这些问题,Rex-Omni应运而生。

Rex-Omni的核心设计:三驾马车

Rex-Omni的成功主要归功于三大核心设计:任务范式、数据引擎和训练流程。

任务范式:化“回归”为“预测”

这是Rex-Omni最核心的创新。研究者们没有沿用传统的坐标回归思路,而是将所有视觉感知任务统一为坐标预测框架。

具体来说,他们将图像的坐标空间量化为1000个离散值(0到999),并为每个值分配一个专属的“特殊token”。这样一来,一个边界框(bounding box)只需要4个token(x0, y0, x1, y1)就能表示。

这种做法有两大好处:

    降低学习难度:将连续的坐标回归问题,简化为在一个有限集合(1000个token)中进行选择的分类问题。

    提升token效率:相比于将坐标值拆成单个数字(如“192”拆成“1”、“9”、“2”三个token)的方法,用一个特殊token表示一个坐标值,极大地缩短了输出序列的长度,提升了推理速度。

模型架构上,Rex-Omni基于Qwen2.5-VL-3B构建,巧妙地复用了词汇表最后1000个token作为坐标专用token,无需对模型结构做大的改动。

数据引擎:海量高质量数据的“兵工厂”

为了让模型学会这种新的坐标语言,并能理解复杂的指令,高质量、大规模的训练数据必不可-少。为此,团队构建了多个自动化的数据引擎,用于生成海量的标注数据,涵盖了定位(grounding)、指代(referring)、指向(pointing)等多种任务。

最终,他们整合了公共数据集和自产数据,构建了一个包含 2200万 样本的庞大训练集。

训练流程:SFT预训练 + GRPO强化学习

为了驯服这个3B参数的大家伙,研究者设计了一个两阶段训练流程。

    第一阶段:监督微调(SFT):在2200万的庞大数据集上进行预训练,让模型掌握基本的坐标预测能力。

    第二阶段:基于GRPO的强化学习后训练:SFT阶段虽然打下了基础,但“教师强制”带来的行为缺陷依然存在。为此,团队引入了一种名为 GRPO (Group-based Reward Policy Optimization) 的强化学习方法。该方法通过精心设计的几何感知奖励函数,让模型在“自由发挥”中学习,从而弥合离散token与连续坐标之间的鸿沟,提升框体精度,并有效抑制重复预测等不良行为。

实验结果:零样本“掀翻”一众高手

Rex-Omni的性能表现令人印象深刻。

在最经典的目标检测基准COCO上,Rex-Omni在零样本设置下(即完全不用COCO数据集训练),在常用的比较设置IoU阈值为0.5时,不仅超越了之前最强的MLLM(SEED1.5-VL),甚至还超过了为COCO特训的传统检测器DINO-R50。

下面的可视化结果直观地展示了Rex-Omni在COCO(常见物体)和LVIS(长尾物体)上的出色表现,其检测结果非常接近真实标注(GT)。

在更具挑战性的长尾检测任务LVIS上,Rex-Omni同样表现出色,mIoU指标达到了 46.9,再次证明了其强大的泛化能力。

对于密集小目标检测这一公认的难题,大多数MLLM都表现不佳。然而,Rex-Omni在Dense200数据集上取得了 78.4 的F1@0.5分数,效果惊人,远超其他MLLM。这得益于GRPO后训练有效抑制了SFT阶段产生的重复预测和“大框”错误。

除了传统的检测任务,得益于其语言模型的底子,Rex-Omni在指代性物体检测、视觉提示、GUI定位、OCR、关键点检测等多种视觉感知任务上也展现了全面的强大实力。

总结

CV君认为,Rex-Omni的探索非常具有启发性。它证明了,通过巧妙的任务重构和训练策略,MLLM不仅能“看懂”,更能“看准”。将目标检测统一到语言模型的生成框架下,不仅简化了问题,还释放了模型在多任务、零样本场景下的巨大潜力。这项工作为开发更通用、更智能的视觉感知系统开辟了一条令人兴奋的新道路。

作者已经开源了代码,感兴趣的朋友可以去项目主页一探究竟。

你觉得将检测任务语言模型化的思路,未来会成为主流吗?欢迎在评论区留下你的看法!

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Rex-Omni 目标检测 多模态大语言模型 下一个点预测 计算机视觉 Object Detection Multimodal Large Language Model Next Point Prediction Computer Vision
相关文章