“视觉拼图”新方法提升多模态模型视觉理解力

我爱计算机视觉 10月01日 17:39

“视觉拼图”新方法提升多模态模型视觉理解力

近期，研究人员提出了一种名为“Visual Jigsaw”的后训练框架，旨在提升多模态大语言模型（MLLM）在视觉信息处理方面的能力。该框架的核心思想是通过模拟拼图游戏，让模型通过重建被打乱的视觉信息来增强对视觉信号的内在理解。它包含图像拼图、视频拼图和3D拼图三种任务，分别针对图像的细粒度感知、视频的时序理解以及3D几何感知进行训练。实验表明，Visual Jigsaw框架能显著提升模型在多模态理解任务上的表现，且不损害其原有推理能力，为提升MLLM的视觉理解能力提供了新的有效途径。

✨ **“视觉拼图”框架革新多模态模型训练**：针对当前多模态大语言模型（MLLM）在视觉理解方面存在的不足，南洋理工大学等机构的研究者们提出了一种名为“Visual Jigsaw”的后训练框架。该框架通过让模型像玩拼图一样，重建被打乱的视觉信息，来深入理解图像、视频和3D数据，从而显著提升模型在“看”这个环节的准确性。

🧩 **多模态拼图任务增强内在视觉理解**：“Visual Jigsaw”框架包含三种自监督的拼图任务：图像拼图（Image Jigsaw）训练模型对图像内容的细粒度感知和空间关系理解；视频拼图（Video Jigsaw）增强模型对动态过程和时序关系的理解；3D拼图（3D Jigsaw）直接提升模型对三维几何和空间布局的感知能力。这些任务无需额外标注，通过自然语言输出正确顺序来训练模型。

🚀 **实验验证效果显著，多维度能力提升**：通过在多项基准测试上的实验，Visual Jigsaw框架被证明能有效提升MLLM在图像细粒度感知、空间理解、组合理解，视频时序理解以及3D几何感知等多个维度的能力。例如，模型在识别图像细节、理解视频片段顺序以及判断3D物体远近方面均有显著进步，且不影响其原有的推理能力。

💡 **通用性与未来启发**：Visual Jigsaw作为一个通用的自监督后训练框架，成功地将自监督学习与强化学习结合，在不增加额外标注成本和模型复杂度的前提下，显著增强了模型对不同视觉模态的内在理解。这项工作展示了以视觉为中心的自监督任务在后训练阶段的巨大潜力，并为设计更多样的视觉预训练任务提供了新的思路。

CV君 2025-10-01 14:13 江苏

新方法让多模态模型看图、看视频、看3D都更准了！

最近，多模态大语言模型（MLLM）的发展日新月异，但大家有没有发现，很多模型似乎更偏爱处理文字，而在“看图说话”的“看”这个环节，总感觉还差那么点意思。它们或许能识别出图像里的物体，但对于更精细的视觉细节、动态的时间顺序或是三维空间关系，理解起来就有些吃力了。

为了解决这个问题，来自南洋理工大学、林雪平大学和商汤科技的研究者们提出了一个非常有创意的方案。他们的新论文 《Visual Jigsaw Post-Training Improves MLLMs》 介绍了一种名为 Visual Jigsaw 的后训练框架。

“Visual Jigsaw”直译过来就是“视觉拼图”。它的核心思想，就是让模型像玩拼图游戏一样，通过重建被打乱的视觉信息，来增强对视觉信号的内在理解。

论文标题：Visual Jigsaw Post-Training Improves MLLMs

作者：Penghao Wu, Yushan Zhang, Haiwen Diao, Bo Li, Lewei Lu, Ziwei Liu

机构：南洋理工大学、林雪平大学、商汤科技

论文地址：https://arxiv.org/abs/2509.25190

项目主页：https://penghao-wu.github.io/visual_jigsaw/

代码仓库：https://github.com/penghao-wu/visual_jigsaw

让模型玩一场“视觉拼图”游戏

目前，提升MLLM能力的主流方法是基于强化学习的后训练，但这主要集中在文本层面。视觉输入通常只是被用来提取一些稀疏的线索，服务于基于文本的推理，这限制了模型视觉能力的深度发展。

为了让模型真正“懂”视觉，研究者们设计了 Visual Jigsaw。这是一个通用的自监督后训练框架，其核心是一个排序任务：将视觉输入（如图片、视频或3D数据）分割成块并打乱顺序，然后要求模型用自然语言输出正确的排列。

这个过程最巧妙的地方在于，它完全是 自监督 的，不需要任何人工标注。正确的顺序是天然存在的，模型可以根据预测与真实顺序的匹配度获得奖励信号，这与一种称为“来自可验证奖励的强化学习”（Reinforcement Learning from Verifiable Rewards, RLVR）的技术天然契合，也无需引入额外的视觉生成组件。

具体来说，研究者们设计了三种拼图任务：

图像拼图 (Image Jigsaw)

将一张图片分割成若干不重叠的图块，打乱顺序后，模型需要预测出它们在光栅扫描顺序（从左到右，从上到下）下的正确索引。这能锻炼模型对图像内容的细粒度感知和空间关系理解。

视频拼图 (Video Jigsaw)

将一段视频切分成多个片段，打乱后，模型需要预测它们原始的时间顺序。这个任务旨在增强模型对动态过程和时序关系的理解。

3D拼图 (3D Jigsaw)

从一张RGB-D图像中，根据深度值采样一些点，在RGB视图中标注出来并打乱。模型需要根据这些点在图像中的样子，恢复它们从近到远的正确深度顺序。这直接提升了模型对三维几何和空间布局的感知能力。

实验效果：拼图“玩”得好，能力提升大

那么，让模型玩拼图的效果究竟如何呢？实验结果相当惊人。研究者们在多种视觉模态的基准测试上验证了Visual Jigsaw的有效性。

从上面的雷达图可以直观地看到，经过Visual Jigsaw后训练的模型，在图像的细粒度感知、空间感知、组合理解，视频的时序理解，以及3D的几何感知等多个维度上，都取得了显著的进步。

图像理解能力提升

在多个图像理解基准测试上，经过Image Jigsaw训练的模型表现出了全面的性能提升，尤其是在细粒度感知、空间理解和组合式理解方面。

例如，在下面的例子中，原始模型错误地判断了图中的小熊，而经过拼图训练后的模型则能正确理解图像内容。

视频和3D理解同样出色

不仅是静态图像，在视频和3D数据上，Visual Jigsaw同样威力不减。

Video Jigsaw任务显著增强了模型在多个视频理解基准上的表现。

而3D Jigsaw则让模型在深度比较任务和更广泛的3D感知任务上都获得了稳定的性能增益。

研究者们还发现，这个方法甚至能提升那些以推理为导向的MLLM的视觉感知能力，同时不损害其原有的推理能力。

总结

Visual Jigsaw 的提出，为我们提供了一个全新的视角来思考如何提升多模态大模型的视觉能力。它通过一个简单而通用的“拼图”任务，巧妙地将自监督学习与强化学习结合起来，在不增加额外标注成本和模型复杂度的前提下，显著增强了模型对图像、视频和3D数据的内在理解。

这项工作不仅证明了以视觉为中心的自监督任务在后训练阶段的巨大潜力，也为未来设计更多样的视觉预训练任务带来了启发。作者已经开源了代码，感兴趣的朋友不妨去亲自尝试一下。

大家对这个“拼图游戏”怎么看？欢迎在评论区留下你的看法！

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

多模态大模型 MLLM 视觉理解 Visual Jigsaw 自监督学习人工智能深度学习计算机视觉 Multimodal Models Visual Understanding Self-supervised Learning Artificial Intelligence Deep Learning Computer Vision

相关文章

人工智能正在摧毁互联网内容生态系统

阿里云：通义千问API日调用量破亿企业用户破9万

【iThome 2024 CIO大調查系列1】AI、資安和永續變革三箭齊發

鈺登跨入AI，推出搭配英特爾四代Xeon SP與Gaudi2的伺服器

蘋果發表M4晶片，更新iPad產品線

Red Hat推出AI平臺，內建IBM開源Granite模型

【iThome 2024 CIO大調查系列 1｜IT投資趨勢】IT投資布局更多角化，雲端比重明顯增加