2025-10-29 15:20 北京
格灵深瞳公司灵感团队视觉基础模型RICE(MVT v1.5)刷榜多项视觉任务。
- 代码地址:https://github.com/deepglint/MVT论文地址:https://arxiv.org/abs/2507.20025模型地址:https://huggingface.co/DeepGlint-AI/rice-vit-large-patch14-560
新一代视觉模型基座 ——RICE本次的 MVT v1.5——RICE 是沿着前作思想,并进一步洞悉图像语义组成方式的又一力作。团队研究发现一张图片的信息往往是多种无 / 弱关联视觉元素拼接而成,直接对图片内的不同视觉元素进行监督可能更加符合人类对于图片信息的处理,也能进一步成为目标检测、分割等下游任务更好的基座视觉模型。除此之外,图片中存在的字符块也被此框架所兼容,其字符本身即为该区域图片的语义信息。为此,团队使用 SAM 对潜在的区域级对象进行了搜索,并对整个数据集中的区域级对象进行特征提取和聚类,最终从 400M 的图像中得到 2B 个图像区域级对象,并聚类为一百万个区域级语义类别标签。针对图像字符块,团队使用 PaddleOCR 从 50M 图片中提取出 400M 的字符级别候选区域,使用字符直接作为类别标签。在训练过程中,每张图片有大约 10 个区域级对象需要进行学习,团队提出一种 Region Attention Layer 模块用于加速模型训练。模型主体部分 ——Encoder 使用经典的 ViT 结构,对于最后一层的视觉特征图则使用 mask 机制对属于同一对象的视觉特征进行提取,完整图片的 class embedding 作为 Q 对区域级别的视觉特征进行 QKV 注意力计算,得到该区域的 Region Class Embedding 作为区域类别语义进行分类损失计算。相比于 MVT v1.1 这类以全图语义信息编码的训练方法,RICE 在训练过程中,图片内部的视觉特征差异性得到了有效的提升。这表明随着训练的进行,视觉编码器对于图片内部元素的语义表征变得更加丰富。完备实验验证RICE 作为新的视觉基座,在多种不同的下游任务上进行了充分的实验验证。检测任务RICE 不仅在经典的 COCO 和 LVIS 任务上验证了检测任务上的 Linear Prob 能力,还在包含了 100 种不同场景检测任务的 Roboflow100 上进行了与其他先进的视觉基座进行了公平比较。针对区域级别语义学习的预训练方法,让 RICE 在这类任务上有着得天独厚的优势,在几乎所有指标上获得了最好的结果。多模态分割任务多模态分割任务作为多模态领域重要的方向之一,RICE 使用经典的 LLaVA 系列多模态框架,使用 LISA 方法进行训练,在 refCOCO 系列的所有子集上均获得了显著的提升。视频追踪任务尽管 RICE 是基于图片进行训练的,但其 ROPE 的位置编码方式以及跨图片的区域级对象聚类方法,使得 RICE 可以接收不同尺寸的视频输入,并对于不同视频帧中的相同目标进行持续追踪。RICE 在 4 个不同的视频追踪相关任务上均获得了领先表现,从特征降采样后的可视化效果来看,模型能够很好的对不同帧中的同一类别物体进行持续追踪。多模态问答任务多模态模型是现在视觉基座模型的兵家必争之地。在 LLaVA 系列的主流训练架构中,使用 RICE 作为视觉编码器在多个基准测试上获得了更好的效果。尤其是得益于其在预训练方法可以无缝兼容光学字符识别,使得基于 RICE 视觉基座的多模态模型在 OCR 相关任务上获得了显著的优势。下表源自 LLaVA- OneVision-1.5 技术报告:最近,RICE 被作为 LLaVA-OneVision-1.5 的视觉编码器,助力其成为和 Qwen2.5-VL 系列可比的全开源的卓越工作。结论RICE 作为格灵深瞳公司 MVT 系列的又一力作,在多个层面上展现了他们对于视觉预训练的深刻理解与洞察。RICE 的成功证明了:视觉语义信息在学习时应当注重差异化,可以保证不同下游任务轻松区分并快速识别不同的语义信息;图片中的视觉元素很多的时候是无 / 弱关联,因此区域内的视觉元素学习能够更好的完整表征图片信息。下一步,MVT 系列即将开启 v2.0—— 视频编码工作,图像是对当前场景的一个静态帧,视频则是对真实世界的直接记录。视频中有大量的信息可以挖掘,是通往 AGI 之路的金矿山。MVT 将继续沿着前作的差异化语义表征的路线,开启视频编码时代的下一个新 SOTA!
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com
