我爱计算机视觉 09月29日
UniPixel:统一像素级感知与通用视觉推理
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

香港理工大学等机构的研究者提出了UniPixel,一个能统一对象指代和分割能力的大型多模态模型,实现了像素级别的细粒度理解。该模型通过“统一”核心思想,将指代和分割能力整合,为对象指代/推理/交互式分割、基于运动的视频推理、指代性视频描述与问答等多种细粒度图文理解任务提供基础。UniPixel通过编码万物、按需分割与记忆、注入记忆再推理三步流程,有效引导后续的推理过程,并在10个基准上取得SOTA性能,还提出了PixelQA新任务以验证其综合能力。

💡 **统一的像素级感知与推理框架**:UniPixel是首个端到端整合了对象指代与分割能力的大型多模态模型,打破了以往模型在细粒度理解上的局限,实现了从宏观场景理解到像素级精细化推理的跨越。它通过将指代和分割统一在一个模型中,为更复杂的视觉推理任务奠定了基础。

🧠 **创新的“对象记忆库”与“记忆注入”机制**:UniPixel引入了一个新颖的对象记忆库,能够动态存储和更新视觉提示(如点、框)所对应的“对象-掩码”对。在推理阶段,这些精确到像素的细粒度对象信息会被“注入”到语言模型中,极大地增强了模型在进行问答和理解时的精准度。

🚀 **多任务通用性与SOTA表现**:该模型在包括图像/视频指代、分割和以对象为中心的理解等9大类任务的10个公开基准上进行了广泛验证,并取得了多项SOTA(State-of-the-Art)性能。这证明了UniPixel在处理多种细粒度视觉语言任务时的强大能力和泛化性。

🌟 **PixelQA新任务的提出**:为了更全面地评估模型的像素级理解能力,研究团队提出了全新的PixelQA任务。该任务要求模型同时处理对象指代、分割和问答,能够准确识别、跟踪对象,并围绕特定对象回答复杂问题,为评估LMM的细粒度理解设立了新的标杆。

CV君 2025-09-29 12:12 江苏

近年来,大型多模态模型(LMM)在作为通用多模态助手方面取得了巨大成功,尤其是在宏观的图像和视频语言理解上。然而,这些模型往往“观其大略”,对于深入到像素级别的细粒度理解能力却关注较少。为了弥补这一差距,来自香港理工大学、腾讯、中国科学院和vivo等机构的研究者们提出了 UniPixel,一个能够无缝集成像素级感知与通用视觉推理能力的大型多模态模型,相关成果已被NeurIPS 2025接收。

UniPixel,意为“Unified Pixel”,其核心思想在于“统一”,即在一个模型内统一对象指代(Referring)和分割(Segmentation)两大能力,并将其作为后续复杂推理的基础。如下图所示,UniPixel能够灵活支持包括指代/推理/交互式分割、基于运动的视频推理、指代性视频描述与问答等多种细粒度图文理解任务。

论文标题: UniPixel: Unified Object Referring and Segmentation for Pixel-Level Visual Reasoning

作者团队: Ye Liu, Zongyang Ma, Junfu Pu, Zhongang Qi, Yang Wu, Ying Shan, Chang Wen Chen

所属机构: 香港理工大学,腾讯ARC Lab,中国科学院,vivo,腾讯AI Lab

论文地址: https://arxiv.org/abs/2509.18094

项目主页: https://polyu-chenlab.github.io/unipixel/

代码仓库: https://github.com/polyu-chenlab/unipixel

录用会议: NeurIPS 2025

研究背景与动机

当前的LMM在处理视觉语言任务时,通常存在两个基本限制:

交互方式单一:主要依赖文本进行交互,缺乏更直观的视觉提示方式,如通过点、框来指定感兴趣的区域。

推理粒度粗糙:模型倾向于对整个图像进行宏观理解,难以对特定对象或区域进行深入的、细粒度的推理。

虽然已有工作尝试将LMM应用于区域级描述或指代性分割,但它们往往是“偏科生”,要么只能执行指代任务,要么只能执行分割任务,无法将这两种细粒度的感知能力有机地融入到视觉推理流程中。

上图清晰地展示了UniPixel与以往工作的区别。传统的指代模型(a)或分割模型(b)是分离的,而 UniPixel(c)首次将对象指代和分割统一在一个模型中,并能基于分割出的对象进行进一步的推理问答,实现了“感知”到“认知”的无缝衔接。

UniPixel:统一模型,三步走实现像素级推理

UniPixel的核心创新在于其独特的架构设计,它能够按需处理视觉提示(点、框等),生成相应的掩码(mask),并将这些掩码作为“中间指针”来引导后续的推理过程。

上图展示了UniPixel的整体架构,其工作流程可以概括为三步:

编码万物(Prompt Encoding):模型接收视频、文本问题和视觉提示(如点、框)作为输入。视觉编码器、文本分词器和专门的 提示编码器(Prompt Encoder) 将这些多模态信息统一编码为token。

按需分割与记忆(Mask Generation & Memory Bank)掩码解码器(Mask Decoder) 会为每一个视觉提示预测一个时空维度的掩码。这些新生成的“对象-掩码”对会被存入一个新颖的 对象记忆库(Object Memory Bank) 中。这个记忆库就像一个哈希表,动态地存储和更新着场景中我们感兴趣的对象信息。

注入记忆再推理(Memory Injection & Reasoning):在生成最终答案前,模型会将对象记忆库中存储的对象特征 注入(inject) 回语言模型的输入中。这样,LMM在进行推理时,就不仅拥有了对整个场景的宏观理解,还获得了关于特定对象的、精确到像素的细粒度信息,从而能够生成基于掩码的、内容更精准的回答。

实验效果:10项基准SOTA与创新的PixelQA任务

UniPixel的有效性在涵盖图像/视频指代、分割和以对象为中心的理解等9大类任务的 10个公开基准 上得到了广泛验证,并在多个任务上取得了SOTA(State-of-the-Art)性能。

以下是部分任务的性能对比,展示了UniPixel在多个指代性分割任务上的优越表现:

创新的PixelQA任务

为了更好地验证UniPixel的灵活性和综合能力,作者还提出了一个全新的 PixelQA(Pixel-Level Video Question Answering) 任务。该任务要求模型同时完成 对象指代、分割和问答 三项挑战,这是现有方法无法处理的。

下图则直观展示了UniPixel在PixelQA任务上的出色能力:即使用户只在视频的某一帧上通过点或框给出模糊的提示,模型也能准确地识别、跟踪该对象,并围绕该对象回答复杂问题。

总结与贡献

CV君认为,UniPixel的提出是LMM向更精细化、更实用的多模态智能助手迈出的重要一步。

提出了首个统一框架:UniPixel首次提出了一个统一对象指代和分割的端到端模型,实现了从粗粒度场景理解到细粒度像素推理的跨越。

引入了新的推理机制:通过创新的“对象记忆库”和“记忆注入”机制,UniPixel为LMM如何利用中间感知结果进行深度推理提供了一种全新的、有效的范式。

创建了新的评测维度:新颖的PixelQA任务为评估模型的综合像素级理解能力设立了新标准。

代码开源:模型和代码均已开源,将极大地推动社区在像素级视觉推理领域的研究。

总而言之,UniPixel通过其统一的设计,证明了对象指代和分割能力的融合能够相互促进,并能显著增强LMM的细粒度推理能力。这项工作无疑将启发更多关于像素级视觉理解的未来研究。

了解最新 AI 进展,欢迎关注公众号:我爱计算机视觉
感谢点赞支持。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

UniPixel 大型多模态模型 像素级理解 对象指代 对象分割 视觉推理 NeurIPS 2025 Large Multimodal Models Pixel-Level Understanding Object Referring Object Segmentation Visual Reasoning
相关文章