新智元报道
新智元报道
一图看透全球大模型!新智元十周年钜献,2025 ASI前沿趋势报告37页首发
该功能被定义为可提示的概念分割(Promptable Concept Segmentation,PCS)。为了支撑PCS,研究团队还构建了一个可扩展的数据引擎,生成了涵盖图像与视频的高质量数据集,包含约400万个不同的概念标签。
将「概念分割」引入SAM架构SAM架构引入了「可提示分割」任务,可通过交互式提示分割图像与视频中的目标。然而,早期的SAM 1和SAM 2更侧重视觉提示,并且每个提示仅分割单个对象实例。这无法解决更普遍的问题:在任意图像或视频中,自动找到所有属于同一概念的对象。比如,你输入「猫」,不仅是要找出一只猫,而是找出所有的猫。SAM 3正是为解决这一问题而推出的。它相比较前代模型,不仅改进了可提示视觉分割(PVS),还开创了新的标准——可提示概念分割(PCS)。PCS可以完成这样的任务:模型可以根据提示(文字或图像),找出图像或视频中所有符合这个「概念」的对象,并保持每个对象的身份一致。比如输入「红苹果」,模型会在不同帧中追踪每一个红苹果。在实际使用中,用户还能通过交互方式(比如添加更多提示)逐步细化结果,解决模糊或歧义情况。图1对比展示了SAM 3与SAM 2的核心区别,说明了从「可提示视觉分割」(PVS)到「可提示概念分割」(PCS)的进化。图2中展示了SAM 3如何从「理解一个提示」到「交互式细化分割结果」的全过程,它体现了PCS任务的核心特征——可提示、可交互、可概念化。SAM 3系统实现了三大创新:
2. 智能标签生成:使用多模态大模型(MLLM)作为「AI标注员」,生成更多样且有挑战性的概念标签;
3. 标签验证:通过微调MLLM使其成为高效的「AI验证员」,达到接近人类的表现,从而将标注吞吐量翻倍。
研究团队构建了一个包含400万唯一短语与5200万掩码的高质量训练数据集,以及一个包含3800万短语与14亿掩码的合成数据集,还推出了一个新的测试标准SA-Co基准。实验结果显示,SAM 3在可提示分割上建立新SOTA,例如在LVIS数据集上,SAM 3的零样本分割准确度达到47.0(此前最佳为38.5)。在SA-Co基准上表现提升至少2倍,并在PVS基准上优于SAM 2。在一张H200GPU上,SAM 3只需30毫秒就能在单张图中识别上百个对象,视频场景中也能保持接近实时的处理速度。
可提示概念分割(PCS)研究人员将PCS定义为如下任务:给定一张图片或一段不超过30秒的视频,让模型根据一个概念提示(可以是文字、示例图像,或两者结合),去检测、分割并跟踪所有符合该概念的对象。这些「概念」一般是由简单名词短语(noun phrase,NP)组成的,包含一个名词和可选修饰语,比如「红苹果」或「条纹猫」。文字提示会对整张图片或整段视频都生效,而图像示例(例如框选某个目标)则可以用于细化结果,帮助模型更精确地理解「我说的就是这个」。PCS的一个难点在于我们面对的「概念」范围几乎无限,这带来了很多歧义性。这些歧义即使在封闭类别(如LVIS数据集)中也存在。SAM3采取以下措施应对歧义:多专家标注:每个测试样本由三位独立专家标注,确保结果更客观;评估协议优化:评估时允许多种「合理答案」共存;标注规范与数据清洗:在数据收集和指南中尽量减少歧义;模型层面处理:在SAM 3中设计了专门的「歧义模块」,帮助模型理解并容忍这些模糊边界。
让分割模型能够理解「概念」同时还要看得见、记得住SAM 3是对前一代SAM 2的拓展与泛化。它同时支持两类任务:可提示视觉分割(PVS):根据几何或视觉提示(点、框、掩码)圈出指定物体;可提示概念分割(PCS):根据概念提示(简短的文字或示例图像)识别并分割所有符合该概念的目标。换句话说,SAM 3既能理解「我点的这个东西」,也能理解「我说的这个概念」。下图3中展示了SAM 3架构,由一个双编码器-解码器Transformer组成:检测器(Detector):负责在图像级别检测并分割目标;跟踪器(Tracker):跟踪器继承了SAM 2的Transformer架构,负责在视频中跟踪已检测的目标。检测器和跟踪器分开运作,检测器只管发现目标,跟踪器才关注它们的身份,为了避免以上两种任务相互干扰,SAM 3引入了一个新的「存在性Token」,将识别与定位解耦。
人机协同的数据引擎让模型实现「概念分割」能力为了让SAM 3在可提示概念分割(PCS)上实现跨越式提升,它必须在更广泛的概念范围和更多样的视觉数据上进行训练。为此,研究团队构建了一个高效的数据引擎,让人类标注员、AI标注员和SAM 3模型本身组成一个闭环系统,推动模型不断从自己的失败案例中学习。通过这种方式,AI在一些标注环节上已经能达到甚至超过人类的准确度,使得整个数据生成效率提升了约一倍。研究人员将数据引擎的建设分为四个阶段:第1–3阶段仅针对图像,第4阶段扩展至视频。阶段1:人类验证。初期阶段完全依靠人类验证。研究者使用随机图像和简单文本描述器生成概念短语,掩码由SAM2与开放词汇检测器提供。阶段2:人类+AI验证。利用第一阶段积累的人类标签,团队微调Llama 3.2模型,让它学会自动执行MV与EV验证。AI验证员可以直接判断「这个掩码对不对、全不全」,从而把人力解放出来,专注于最棘手的样本。此时,AI已能自动发现对模型具有挑战性的「困难负样本」。阶段3:扩展视觉领域第三阶段把数据覆盖扩展到15个不同视觉域(例如自然场景、工业、艺术等)。通过从alt-text(图像描述文本)和基于Wikidata的本体库(约2240万个概念节点)中提取新短语,系统进一步补充了长尾类与细粒度类别。阶段4:视频标注将数据引擎扩展至视频。使用成熟的SAM 3模型,研究人员在运动、遮挡、跟踪失败等复杂场景中采集高质量标注,最终构建了SA-Co/VIDEO数据集,包含5.25万视频、2.48万唯一短语,总计13.4万视频-短语对。这部分主要聚焦于模型容易出错的拥挤场景,以最大化学习效果。SA-Co数据集数据引擎最终生成了多层级的SA-Co数据集家族:SA-Co/HQ:高质量人工与AI协作图像数据,包含520万张图像、400万个唯一短语;SA-Co/SYN:全自动生成的合成数据;SA-Co/EXT:整合15个外部数据集并补充困难负样本;SA-Co/VIDEO:视频级标注数据集。这些数据构成了目前世界上最大规模的开放词汇分割数据集体系。为衡量模型在真实应用中的表现,研究人员设计了SA-Co基准(Benchmark),涵盖图像与视频共12.6万个样本、21.4万唯一短语,包含超过300万条标注。经过研究人员评估,在图像和视频分割、少样本检测与多模态语言配合任务上,SAM 3全面超越现有系统,它在SA-Co的图像与视频PCS上将性能提升到以往系统的两倍。与前代模型相比,SAM 3不再只是一个只会「按图索骥」的工具,而是逐步演变成一个能理解概念、识别类别、保持语义一致性的智能视觉系统。它将图像分割从「点选式」操作提升到「概念级」理解,为下一代智能视觉和多模态系统奠定了基础。也许,视觉AI的「GPT-3时刻」真的已经不远了。
文章原文
