36氪 - 科技频道 10月13日 13:31
SAM 3:让AI分割模型听懂人话,实现概念提示分割
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

SAM 3,第三代“分割一切”模型,在ICLR 2026上悄然亮相,其核心突破在于能够理解并响应用户的概念提示。无论是“条纹猫”还是更复杂的指令,SAM 3都能在图像或视频中准确分割出所有匹配的实例,且处理速度极快,单张含百余物体的图片仅需30毫秒。该模型引入了Promptable Concept Segmentation (PCS) 新范式,支持开放词汇、全实例分割、多模态提示,并优化了用户交互体验。新的架构设计和大规模数据引擎是其成功的关键,同时SA-Co基准的提出也推动了该领域的研究。SAM 3的出现,标志着AI在理解和执行复杂视觉任务方面迈出了重要一步。

🧩 **概念提示分割 (PCS) 范式革新**:SAM 3引入了Promptable Concept Segmentation (PCS) 这一新任务范式,使其能够基于短语、图像示例或两者的结合来分割图像或视频中所有匹配提示概念的实例。这打破了传统分割模型依赖固定类别和仅处理单个实例的局限,实现了对开放词汇和全实例分割的支持,并能跨帧保持视频中实例的身份一致性。

🚀 **高效能与近实时处理**:SAM 3在性能上实现了显著飞跃,能够以极快的速度处理图像和视频。例如,在H200 GPU上,处理包含100多个实体的单张图像仅需30毫秒。在视频分割任务中,即使面对多目标场景,也能在约5个并发目标的情况下维持接近实时的处理性能,大大提升了大规模视觉内容分析的效率。

🧠 **新架构与数据引擎赋能**:为了实现PCS,SAM 3采用了基于DETR架构的检测器,并引入了Presence Head模块,将物体的识别与定位任务解耦,从而显著提升了检测精度。同时,研究团队构建了一个大规模、可扩展的数据引擎,生成了包含400万独特概念标签和5200万掩码的训练数据集,为模型的训练提供了坚实基础。

💡 **多模态融合与未来潜力**:SAM 3不仅能独立完成概念分割任务,还能与多模态大模型(MLLM)结合,解决更复杂的推理和分割需求。通过将MLLM的推理能力与SAM 3的分割能力相结合,能够无需专门训练即可实现超越专用模型的性能,预示着AI在理解和执行复杂视觉指令方面具有广阔的应用前景。

⚠️ **局限性与未来挑战**:尽管SAM 3取得了巨大进步,但其语言处理能力仍局限于简单的短语提示,尚不支持复杂的语言表达和推理。此外,模型在零样本泛化到医疗图像、热成像等细分领域时存在困难,并且在视频多目标场景下,实时性能会随目标数量增加而下降,需要多GPU并行处理。

传统语义分割好无趣好无聊,技能语义分割加入概念提示,好好玩,要爆了。(doge)

SAM 3——第三代“分割一切”模型刚刚被发现,已经悄然投稿ICLR 2026。

论文还在双盲评审阶段,作者匿名中,但标题暴露一切。

简单来说,就是在这个官方新版中,分割模型终于能听懂人话了:只要说出想要的东西,SAM 3就能在图像/视频中分割出对应实例。

比如,输入“条纹猫”,SAM 3自己就能找出并分割图中所有带条纹的猫猫:

值得一提的是,SAM 3处理一张含100多个物体的图片仅需30ms,对视频也有近实时处理能力。

能听懂人话的SAM

SAM 1引入了基于点、框、掩码等视觉提示的交互式分割任务,开辟了分割模型的新范式;SAM 2则在此基础之上,加入了对视频和记忆的支持。

这一次,SAM 3让这种交互式分割更进一步:支持基于短语、图像示例等概念提示多实例分割任务——对,捎带手突破了前代只能处理单个实例的局限。

论文中,SAM 3的研究团队将这种新任务范式命名为PCS(Promptable Concept Segmentation)。

PCS:可提示概念分割

PCS的定义是,给定图像或视频,模型能够基于短语、图像示例,或者两者结合的方式,分割其中所有匹配提示概念的实例。

相比于传统分割任务,PCS强调:

开放性词汇:不局限于预定义的固定类别,支持用户输入任意名词短语作为分割目标;

全实例分割:找到并分割所有符合提示的实例,在视频中,还能保持不同帧之间的身份一致性;

多模态提示:支持多种提示输入,包括文本提示、视觉提示,以及两者结合的方式;

用户交互:允许用户通过交互进行分割结果的精细优化。

新架构设计

SAM 3为实现PCS设计了新的架构。

主要是在检测与分割模块上,SAM 3的检测器基于DETR(Deformable Transformer)架构,能够根据语言和视觉提示生成实例级的检测结果。

同时,引入了Presence Head模块,解耦物体的识别(是什么)和定位(在哪里)任务——

在传统对象检测框架中,模型往往需要同时判断目标是否存在、位置在哪里,这可能导致冲突,尤其是在多实例分割任务中容易出问题。

Presence Head将两者分开处理,从而进一步提升了模型的检测精度。

大规模数据引擎

为了改进PCS,研究团队还专门构建了一个可扩展的数据引擎,生成覆盖400万独特概念标签、5200万经过验证的掩码的训练数据集。

数据引擎由多阶段构成,能够逐步提升数据的多样性和难度。

整个构建过程中人类和大语言模型会相互检查彼此的工作,保证高质量的同时提升了标注的效率。

SA-Co基准

为了评估模型在开放词汇分割任务中的性能,论文还提出了SA-Co(Segment Anything with Concepts)基准。

SA-Co包含214K独特概念、124K图像和1.7K视频,概念覆盖范围能达到现有基准的50倍以上。

不过需要说明的是,SAM 3对语言的处理还局限于简单的短语提示,不支持复杂的语言表达,并不具备多模态大模型的语言生成、复杂语言理解和推理能力。

实验结果

实验结果表明,SAM 3在可提示分割任务中刷新了SOTA。

在LVIS数据集的零样本分割任务中,SAM 3的准确率达到了47.0,比此前的SOTA 38.5提升不少。

在新的SA-Co基准测试中,SAM 3的表现至少比基线方法强2倍。

另外,在针对视频的PVS(Promptable Visual Segmentation)任务中,SAM 3的性能也优于SAM 2。

研究人员还把SAM 3和多模态大模型(MLLM)相结合,探索解决更复杂的任务需求。

比如分割图片中“坐着但没拿礼物盒的人”。

大模型会先拆解需求,比如先找坐着的人,再排除拿礼物盒的人,然后给SAM 3发指令。

结果显示,SAM 3+MLLM的组合比专门做推理分割的模型效果还要好,并且无需专门的数据做训练。

在H200 GPU上,SAM 3处理含100多个实体的单张图像只需要30ms的时间。在视频任务中,推理延迟随着目标数量线性增加,能在约5个并发目标的情况下维持接近实时的性能。

不过,论文也指出,SAM 3难以通过零样本的方式,将能力泛化到如医疗图像、热成像之类的细分领域。

视频分割任务中,遇到多目标场景,模型的实时性能会下降,需要多GPU并行处理。

论文地址:https://openreview.net/forum?id=r35clVtGzw

本文来自微信公众号“量子位”,作者:鱼羊,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

SAM 3 分割一切 概念提示分割 PCS Promptable Concept Segmentation AI分割 计算机视觉 ICLR 2026 深度学习 多模态
相关文章