机器之心 10月29日 19:32
格灵深瞳RICE视觉模型基座在多项视觉任务上取得突破
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

格灵深瞳灵感团队研发的视觉模型基座RICE(MVT v1.5)在多项视觉任务上表现出色,并荣获ICCV25 Highlight。RICE延续了前作的预训练理念,聚焦于“margin表征代表语义”的核心观点,从海量图像数据中提取区域级对象和字符信息,进行聚类和标签化。通过Region Attention Layer加速训练,RICE在目标检测、多模态分割、视频追踪及多模态问答等任务上均展现出优越性能,尤其在OCR相关任务上表现突出,并已成为LLaVA-OneVision-1.5的关键组件。

💡 **RICE模型基座的创新之处**:RICE(MVT v1.5)是格灵深瞳灵感团队自研的新一代视觉模型基座,它继承并发展了MVT系列的前作理念,专注于“margin表征代表语义”的核心观点。通过对图像内部视觉元素的差异化监督,RICE能够更有效地捕捉图片信息,为目标检测、分割等下游任务提供更强大的基础。

🗺️ **区域级对象和字符信息提取**:RICE模型在处理图像时,利用SAM搜索潜在区域级对象,并从400M图像中提取2B个图像区域级对象,聚类为一百万个区域级语义类别。同时,它还能从50M图片中提取400M字符级别候选区域,并将字符直接作为类别标签。这种精细化的信息提取方式,使得模型能够更深入地理解图像内容。

🚀 **多任务性能的显著提升**:RICE模型在多项下游任务上均取得了领先表现。在目标检测任务上,它在COCO、LVIS及Roboflow100等数据集上获得了最佳结果。在多模态分割任务上,它显著提升了refCOCO系列数据集的表现。此外,RICE在视频追踪任务和多模态问答任务(尤其擅长OCR相关任务)上也展现出强大的能力,成为LLaVA-OneVision-1.5的重要组成部分。

🧠 **差异化语义表征的重要性**:RICE的成功证明了视觉语义信息在学习时应注重差异化。通过充分做到不同语义之间的差异化表征,可以帮助各种下游任务以及大型语言模型(LLM)轻松识别这些差异化表征与人类认知之间的对应关系。这为构建更强大的视觉智能系统提供了新的思路。


最近,格灵深瞳公司灵感团队自研的视觉模型基座RICE(MVT v1.5)再次惊艳全场,刷榜多项视觉任务。


RICE 作为 MVT 系列的新模型,继续延续前作 Unicom(MVT v1.0)和 MLCD(MVT v1.1)的视觉预训练理念,秉持着 margin 表征代表语义的核心观点,在顶级学术会议 ICCV25 上获得 Highlight 荣誉。



    代码地址:

    https://github.com/deepglint/MVT

    论文地址:

    https://arxiv.org/abs/2507.20025

    模型地址:

    https://huggingface.co/DeepGlint-AI/rice-vit-large-patch14-560


MVT 系列作为灵感团队自研的视觉基座预训练方法,从 1.0 开始,就聚焦于如何让视觉模型利用海量的数据集进行更加准确的视觉语义表征。MVT 系列灵感来自于格灵深瞳公司的顶尖技术 —— 人脸识别算法,得益于在人脸识别领域积累的大量训练经验和视觉表征认知。


团队深刻认识到,视觉知识就像不同的人脸一样,名字只是赋予的人为语义,只要能充分做到不同语义之间的差异化表征,即可做到让各种下游任务以及 LLM 轻松识别这些差异化表征与人类认知之间的对应关系。


基于此思路,MVT v1.0 成功站在巨人的肩膀上,利用当时最先进的 CLIP 预训练模型为海量图文数据进行特征提取。再利用 kmeans 算法,将所有的特征聚类为一百万个不同类别,并为图片进行打标。MVT v1.0 在图片分类、检索等不同领域均获得了 SOTA 级别的表现。



MVT v1.0 方法中的每个样本的学习其实是基于超大规模的数据集总结出来的,超越了 CLIP 这类方法的 batch 类差异化学习的限制。


灵感团队继续研究发现对图像赋予单一的标签,可能会将一些其他正确的标签被当成负样本学习 —— 人类对于事物的认知是多样的。基于此思想,团队推出 MVT v1.1 的工作,给每张图像分配 top-k 个软标签,进一步提高视觉基座对图像编码的语义丰富性。



新一代视觉模型基座 ——RICE


本次的 MVT v1.5——RICE 是沿着前作思想,并进一步洞悉图像语义组成方式的又一力作。


团队研究发现一张图片的信息往往是多种无 / 弱关联视觉元素拼接而成,直接对图片内的不同视觉元素进行监督可能更加符合人类对于图片信息的处理,也能进一步成为目标检测、分割等下游任务更好的基座视觉模型。除此之外,图片中存在的字符块也被此框架所兼容,其字符本身即为该区域图片的语义信息。


为此,团队使用 SAM 对潜在的区域级对象进行了搜索,并对整个数据集中的区域级对象进行特征提取和聚类,最终从 400M 的图像中得到 2B 个图像区域级对象,并聚类为一百万个区域级语义类别标签。针对图像字符块,团队使用 PaddleOCR 从 50M 图片中提取出 400M 的字符级别候选区域,使用字符直接作为类别标签。



在训练过程中,每张图片有大约 10 个区域级对象需要进行学习,团队提出一种 Region Attention Layer 模块用于加速模型训练。模型主体部分 ——Encoder 使用经典的 ViT 结构,对于最后一层的视觉特征图则使用 mask 机制对属于同一对象的视觉特征进行提取,完整图片的 class embedding 作为 Q 对区域级别的视觉特征进行 QKV 注意力计算,得到该区域的 Region Class Embedding 作为区域类别语义进行分类损失计算。



相比于 MVT v1.1 这类以全图语义信息编码的训练方法,RICE 在训练过程中,图片内部的视觉特征差异性得到了有效的提升。这表明随着训练的进行,视觉编码器对于图片内部元素的语义表征变得更加丰富。



完备实验验证


RICE 作为新的视觉基座,在多种不同的下游任务上进行了充分的实验验证。


检测任务


RICE 不仅在经典的 COCO 和 LVIS 任务上验证了检测任务上的 Linear Prob 能力,还在包含了 100 种不同场景检测任务的 Roboflow100 上进行了与其他先进的视觉基座进行了公平比较。针对区域级别语义学习的预训练方法,让 RICE 在这类任务上有着得天独厚的优势,在几乎所有指标上获得了最好的结果。



多模态分割任务


多模态分割任务作为多模态领域重要的方向之一,RICE 使用经典的 LLaVA 系列多模态框架,使用 LISA 方法进行训练,在 refCOCO 系列的所有子集上均获得了显著的提升。



视频追踪任务


尽管 RICE 是基于图片进行训练的,但其 ROPE 的位置编码方式以及跨图片的区域级对象聚类方法,使得 RICE 可以接收不同尺寸的视频输入,并对于不同视频帧中的相同目标进行持续追踪。RICE 在 4 个不同的视频追踪相关任务上均获得了领先表现,从特征降采样后的可视化效果来看,模型能够很好的对不同帧中的同一类别物体进行持续追踪。



多模态问答任务


多模态模型是现在视觉基座模型的兵家必争之地。在 LLaVA 系列的主流训练架构中,使用 RICE 作为视觉编码器在多个基准测试上获得了更好的效果。尤其是得益于其在预训练方法可以无缝兼容光学字符识别,使得基于 RICE 视觉基座的多模态模型在 OCR 相关任务上获得了显著的优势。下表源自 LLaVA- OneVision-1.5 技术报告:



最近,RICE 被作为 LLaVA-OneVision-1.5 的视觉编码器,助力其成为和 Qwen2.5-VL 系列可比的全开源的卓越工作。



结论


RICE 作为格灵深瞳公司 MVT 系列的又一力作,在多个层面上展现了他们对于视觉预训练的深刻理解与洞察。RICE 的成功证明了:视觉语义信息在学习时应当注重差异化,可以保证不同下游任务轻松区分并快速识别不同的语义信息;图片中的视觉元素很多的时候是无 / 弱关联,因此区域内的视觉元素学习能够更好的完整表征图片信息。


下一步,MVT 系列即将开启 v2.0—— 视频编码工作,图像是对当前场景的一个静态帧,视频则是对真实世界的直接记录。视频中有大量的信息可以挖掘,是通往 AGI 之路的金矿山。MVT 将继续沿着前作的差异化语义表征的路线,开启视频编码时代的下一个新 SOTA!



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


文章原文

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

格灵深瞳 RICE MVT v1.5 视觉模型基座 人工智能 深度学习 ICCV25 目标检测 多模态分割 视频追踪 多模态问答 OCR DeepGlint Visual Foundation Model AI Deep Learning Object Detection Multimodal Segmentation Video Tracking Multimodal QA
相关文章