我爱计算机视觉 10月01日
“视觉拼图”让多模态模型看懂图像、视频和3D
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

多模态大语言模型(MLLM)在处理视觉信息时存在局限。南洋理工大学等机构的研究者提出了“Visual Jigsaw”后训练框架,通过模拟拼图游戏,让模型重建被打乱的视觉信息,从而增强对图像、视频和3D数据的内在理解。该框架采用自监督学习,无需人工标注,能够有效提升模型在细粒度感知、时序理解和空间几何感知等方面的能力。实验表明,Visual Jigsaw在多模态理解基准测试上取得了显著效果,且不损害模型原有的推理能力,为提升MLLM视觉能力提供了新思路。

🧩 **“视觉拼图”框架提升多模态模型视觉理解力**:该研究提出了一种名为“Visual Jigsaw”的自监督后训练框架,旨在解决多模态大语言模型(MLLM)在处理图像、视频和3D数据时对视觉细节理解不足的问题。通过模拟拼图游戏,模型需要根据打乱的视觉信息(如图像块、视频片段或3D点)预测其原始顺序,从而增强其对视觉信号的内在理解。

🖼️ **多模态拼图任务增强细粒度与空间感知**:框架包含三种具体的拼图任务:图像拼图(Image Jigsaw)要求模型重排被分割的图像块以恢复原图;视频拼图(Video Jigsaw)让模型预测被打乱的视频片段的正确时间顺序;3D拼图(3D Jigsaw)则训练模型根据深度信息对3D点进行排序。这些任务分别针对性地提升了模型在图像细粒度感知、空间关系理解、视频时序理解以及3D几何感知能力。

🚀 **自监督学习与RLVR结合,效果显著**:Visual Jigsaw框架的核心优势在于其完全自监督的性质,无需人工标注,能够通过预测与真实顺序的匹配度获取奖励信号,并与“来自可验证奖励的强化学习”(RLVR)技术契合。实验结果显示,经过Visual Jigsaw后训练的模型在多个视觉模态的基准测试上均有显著提升,包括图像理解、视频理解和3D感知,且不影响原有的推理能力。

CV君 2025-10-01 14:13 江苏

新方法让多模态模型看图、看视频、看3D都更准了!

最近,多模态大语言模型(MLLM)的发展日新月异,但大家有没有发现,很多模型似乎更偏爱处理文字,而在“看图说话”的“看”这个环节,总感觉还差那么点意思。它们或许能识别出图像里的物体,但对于更精细的视觉细节、动态的时间顺序或是三维空间关系,理解起来就有些吃力了。

为了解决这个问题,来自南洋理工大学、林雪平大学和商汤科技的研究者们提出了一个非常有创意的方案。他们的新论文 《Visual Jigsaw Post-Training Improves MLLMs》 介绍了一种名为 Visual Jigsaw 的后训练框架。

“Visual Jigsaw”直译过来就是“视觉拼图”。它的核心思想,就是让模型像玩拼图游戏一样,通过重建被打乱的视觉信息,来增强对视觉信号的内在理解。

论文标题:Visual Jigsaw Post-Training Improves MLLMs

作者:Penghao Wu, Yushan Zhang, Haiwen Diao, Bo Li, Lewei Lu, Ziwei Liu

机构:南洋理工大学、林雪平大学、商汤科技

论文地址https://arxiv.org/abs/2509.25190

项目主页https://penghao-wu.github.io/visual_jigsaw/

代码仓库https://github.com/penghao-wu/visual_jigsaw

让模型玩一场“视觉拼图”游戏

目前,提升MLLM能力的主流方法是基于强化学习的后训练,但这主要集中在文本层面。视觉输入通常只是被用来提取一些稀疏的线索,服务于基于文本的推理,这限制了模型视觉能力的深度发展。

为了让模型真正“懂”视觉,研究者们设计了 Visual Jigsaw。这是一个通用的自监督后训练框架,其核心是一个排序任务:将视觉输入(如图片、视频或3D数据)分割成块并打乱顺序,然后要求模型用自然语言输出正确的排列。

这个过程最巧妙的地方在于,它完全是 自监督 的,不需要任何人工标注。正确的顺序是天然存在的,模型可以根据预测与真实顺序的匹配度获得奖励信号,这与一种称为“来自可验证奖励的强化学习”(Reinforcement Learning from Verifiable Rewards, RLVR)的技术天然契合,也无需引入额外的视觉生成组件。

具体来说,研究者们设计了三种拼图任务:

图像拼图 (Image Jigsaw)

将一张图片分割成若干不重叠的图块,打乱顺序后,模型需要预测出它们在光栅扫描顺序(从左到右,从上到下)下的正确索引。这能锻炼模型对图像内容的细粒度感知和空间关系理解。

视频拼图 (Video Jigsaw)

将一段视频切分成多个片段,打乱后,模型需要预测它们原始的时间顺序。这个任务旨在增强模型对动态过程和时序关系的理解。

3D拼图 (3D Jigsaw)

从一张RGB-D图像中,根据深度值采样一些点,在RGB视图中标注出来并打乱。模型需要根据这些点在图像中的样子,恢复它们从近到远的正确深度顺序。这直接提升了模型对三维几何和空间布局的感知能力。

实验效果:拼图“玩”得好,能力提升大

那么,让模型玩拼图的效果究竟如何呢?实验结果相当惊人。研究者们在多种视觉模态的基准测试上验证了Visual Jigsaw的有效性。

从上面的雷达图可以直观地看到,经过Visual Jigsaw后训练的模型,在图像的细粒度感知、空间感知、组合理解,视频的时序理解,以及3D的几何感知等多个维度上,都取得了显著的进步。

图像理解能力提升

在多个图像理解基准测试上,经过Image Jigsaw训练的模型表现出了全面的性能提升,尤其是在细粒度感知、空间理解和组合式理解方面。

例如,在下面的例子中,原始模型错误地判断了图中的小熊,而经过拼图训练后的模型则能正确理解图像内容。

视频和3D理解同样出色

不仅是静态图像,在视频和3D数据上,Visual Jigsaw同样威力不减。

Video Jigsaw任务显著增强了模型在多个视频理解基准上的表现。

而3D Jigsaw则让模型在深度比较任务和更广泛的3D感知任务上都获得了稳定的性能增益。

研究者们还发现,这个方法甚至能提升那些以推理为导向的MLLM的视觉感知能力,同时不损害其原有的推理能力。

总结

Visual Jigsaw 的提出,为我们提供了一个全新的视角来思考如何提升多模态大模型的视觉能力。它通过一个简单而通用的“拼图”任务,巧妙地将自监督学习与强化学习结合起来,在不增加额外标注成本和模型复杂度的前提下,显著增强了模型对图像、视频和3D数据的内在理解。

这项工作不仅证明了以视觉为中心的自监督任务在后训练阶段的巨大潜力,也为未来设计更多样的视觉预训练任务带来了启发。作者已经开源了代码,感兴趣的朋友不妨去亲自尝试一下。

大家对这个“拼图游戏”怎么看?欢迎在评论区留下你的看法!

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

多模态大模型 MLLM Visual Jigsaw 自监督学习 后训练 计算机视觉 AI Multimodal Large Language Models Self-supervised Learning Post-training Computer Vision
相关文章