夕小瑶科技说 10月13日 22:00
SAM 3:引入概念理解,AI 图像分割迈入新纪元
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

ICLR 2026 开放评审现已上线,其中一篇名为《SAM 3: Segment Anything with Concepts》的论文引发热议。该论文提出的 SAM 3 模型,在前代 SAM 强大的图像视频分割能力基础上,引入了“可提示概念分割”(PCS)新概念,能够直接理解并分割图像中的“概念”,而非仅依赖点、框等视觉提示。这标志着分割模型从“听指令的工具人”转变为“智能分割助手”,实现了从“一”到“多”的认知飞跃。SAM 3 凭借其模块化架构、Presence Token 创新以及高效数据引擎,在处理速度和分割精度上均有显著提升,并展现出与多模态大语言模型(MLLM)结合的强大潜力,预示着“可组合式 AI”的未来。

💡 **概念驱动的智能分割:** SAM 3 引入了“可提示概念分割”(PCS)这一创新概念,使其能够直接理解并分割图像中的抽象概念(如“猫”),而非仅依赖用户的点、框等视觉交互。这标志着分割模型从被动响应指令到主动理解和执行任务的重大转变,极大地提升了模型在理解和处理复杂场景时的智能化水平。

🚀 **高效模块化架构与创新设计:** SAM 3 采用了全新的模块化架构,将检测(Detector)与追踪(Tracker)任务解耦,并共享强大的视觉主干网络。其引入的 Presence Token 创新性地解决了“存在性判断”与“定位分割”之间的难题,有效降低了误报率,并实现了“先判断存在,再执行定位”的流畅工作流程,尤其在处理复杂视频序列时表现出色。

📊 **海量数据驱动与 SOTA 性能:** 为了支撑 PCS 任务,SAM 3 构建了一个高效的、自我增强的迭代反馈闭环数据引擎,标注了包含 400 万独特短语和 5200 万掩码的高质量训练数据,以及海量的合成数据集。在全新的 SA-Co 基准测试中,SAM 3 的表现是现有基线方法的两倍以上,并在 COCO、LVIS 等多个标准分割任务上取得了新的 SOTA 表现。

🧠 **赋能“可组合式 AI”未来:** SAM 3 的真正意义在于其与多模态大语言模型(MLLM)的深度融合。通过定义分割短语、检查掩码等基础工具,SAM 3 Agent 能够与 MLLM 协同处理极其复杂的逻辑查询,实现零样本推理分割。这预示着未来 AI 将是多个专业化基础模型组成的软件栈,SAM 3 作为一流的“视觉 API”,为语言模型的抽象推理提供了多模态视觉世界的锚点。

原创 小鹿 2025-10-13 19:22 北京

常刷论文的家人们可能已经发现,昨天 AI 三大顶会之一的 ICLR 2026 放出来 Open Review 了!

给不太熟悉会议流程的朋友,简单普及一下,Open Review 是一个开放评论平台,在论文提交完之后会开启,允许学术界的研究人员、学者、从业者,对论文进行公开评论、提问、反馈。目的就是增强论文评审的透明度,提升评审质量。

ICLR 2026 Open Review 传送门:
https://openreview.net/group?id=ICLR.cc/2026/Conference#tab-active-submissions

ICLR 作为 AI 领域的最重要会议之一,OpenReview 上神仙打架,各种研究让人看得眼花缭乱,在这一批论文里,其中有一篇直接在圈内引爆了讨论。就是这篇匿名提交的 《SAM 3: Segment Anything with Concepts》

论文标题:SAM 3: Segment Anything with Concepts  
论文地址:https://openreview.net/forum?id=r35clVtGzw

SAM(分割一切),一直追更我公众号的朋友一定都知道这个模型,2023 年 SAM 1 一发布就封神,号称“CV 领域的 GPT-3 时刻”。为啥呢?因为它出现了后,让图像分割这个专业技术,变成了切水果一样,通过简单的点、框交互,从任何图片中分割出任何物体。

一年后,二代SAM 2 发布(2024 年7月)。不光能扣图片, 连视频也能实时扣了。在前代基础上实现了对图像和视频的实时处理,将静态与动态内容的分割融为一体,让“视频抠图”也变得轻而易举。

这两代模型都引发了圈内很大的轰动,已经强大到足够突破传统 CV 模型的能力天花板,但它们始终更像一个“听指令的工具人”,你点哪里,它切哪里。
而刚刚爆出来的 SAM 3,从一个“切割工具”变成了一个“智能分割助手”。

什么意思呢?举个例子,

以前,你想分割出图里所有的猫,可能需要一只一只去点击或框选。现在,你只需要直接告诉 SAM 3 一个“概念”,比如“猫”,它就能在图像或视频中,找出、分割并追踪所有符合这个概念的实例。

为此,SAM 3 定义了一个新概念:可提示概念分割 (Promptable Concept Segmentation, PCS)。

那熟悉 SAM 1 和 SAM2 的家人们可能会好奇,SAM 1 不是也有文本功能吗?

SAM3 的论文也回答了这个问题:

SAM 1 的文本提示功能“没有被完全开发” 。它的核心依旧是围绕视觉提示(点、框)来分割单个物体。而 SAM 3 则实现了从“一”到“多”的认知跨越,真正让分割模型学会了理解语言——一种扎根于视觉的、精准的概念理解。

不止是交互方式的升级,更令人惊叹的是 SAM3 的效率。

根据论文描述,SAM 3 处理一张包含 100 多个物体的复杂图片,仅需 30 毫秒,处理视频也几乎能达到实时效果。

Meta 你已经掉马甲了!虽然,SAM3 这篇论文目前还处于双盲评审阶段,作者信息、机构信息都完全匿名,但网友们都在猜测,这绝对是 Meta 的工作:

证据也不要太明显,

SAM 和 SAM 2 都是由 Meta AI 团队推出的,SAM 3 作为正统续作,由原团队操刀合情合理。

这篇论文的写作风格、图表样式和遣词造句,都和 Meta 以往的论文高度相似,简直是一个模子刻出来的。

发布的时间点对得上:SAM 1 (2023 年 4 月)->SAM 2 (2024 年 7 月)->SAM 3 (2025 年 9 月)

而 SAM3 出现的时间点,刚刚好,时隔一年多,在前代的基础上融入了自然语言理解,让分割模型学会思考,完全符合技术发展的逻辑。

分割一切的视觉模型为了应对提出的【可提示概念分割】任务的复杂性,SAM 3 采用了一套全新的模块化架构:

该架构首先对检测 (Detection) 与追踪 (Tracking) 任务进行了解耦。模型由一个检测器 (Detector) 和一个追踪器 (Tracker) 构成,两者共享一个强大的视觉主干网络,但各司其职。

“侦察员”(Detector):负责在单帧图像中识别出所有符合概念定义的目标,不进行身份区分。

“追踪员”(Tracker):负责在视频序列中持续锁定特定目标,并维持其身份的连续性。

在工作流程上,检测器在每一帧中发现潜在的新目标,而追踪器则利用一个记忆库 (Memory Bank),将已知目标的掩码信息从前一帧高效地传播到当前帧。

此外,为了攻克视频中常见的遮挡、快速运动或拥挤场景等技术挑战,SAM 3 还集成了一系列时序消歧策略,以确保追踪过程的鲁棒性与准确性。

SAM 3 架构中一项“点睛之笔”的创新,是 Presence Token 的引入。

Presence Token 精准地解决了计算机视觉领域的一个长期难题:

让单一模型同时高效判断“某物是否存在”与“它在哪里”,往往会导致性能瓶颈和判断混淆。

只有当 Presence Token 给出肯定的判断信号后,模型的主体功能才会被激活,进而去定位和分割出具体的实例。“先判断存在,再执行定位”极大地降低了模型在无关背景上产生响应的误报率,并且使模型能更优雅、更有效地处理干扰项。

顶尖模型背后真正的护城河是其数据生态。

传统的用于视觉分割的数据标注流程呈线性、劳动密集型,不仅成本高昂,且难以规模化。

为了解决这个问题,SAM 3 构建了一个高效的、自我增强的迭代反馈闭环数据引擎(引擎流程图如下图所示),用于为大规模、多样化的相关训练数据集的标注。

通过应用这个数据引擎,SAM3 的研究团队成功标注了包含 400 万独特短语和 5200 万掩码的高质量训练数据,以及包含 3800 万短语和 14 亿掩码的合成数据集,以及数量超过现有基准测试集 50 倍以上用于 PCS 任务的 Segment Anything with Concepts(SA-Co)基准测试。

实验结果表明,SAM 3 在可提示分割任务中取得了新的 SOTA 表现。

如下表 1 显示,在零样本设定下,SAM 3 在 COCO、COCO-O 和 LVIS 等封闭词汇数据集的边界框检测任务、LVIS 掩码任务上都表现出卓越的性能。

在全新的 SA-Co 基准测试中,SAM 3 的表现至少是现有基线方法的两倍。

如下表 6 所示, 相较于前代 SAM 2,SAM 3 在视频对象分割(VOS)、交互式图像分割以及可提示视觉分割(PVS)等多个任务也取得了显著的性能提升。

最令人惊喜的是,SAM 3 与 MLLM 的组合实现了卓越的零样本推理分割能力,其性能不仅超越了专用模型,且无需任何针对性的数据训练。

SAM 3 的真正意义是远超分割视觉任务本身的。

研究团队将 SAM 3 与多模态大语言模型 (MLLM) 结合,组成了名为 SAM 3 Agent ,定义了以下四种基础工具供 MLLM 调用:

分割短语 (segment phrase)

逐一检查掩码 (examine each mask)

选择并返回掩码 (select masks and return)

报告无掩码 (report no mask)

MLLM 作为大脑,负责高级推理、规划与任务分解。SAM 3 作为眼睛,忠实执行视觉指令。

这种“大脑”与“眼睛”的组合能够处理极其复杂的逻辑查询。例如,面对指令:“分割出那个坐着但没有拿礼物盒的人” :

大脑分解任务:MLLM 将指令分解为两个独立的视觉任务:“找出所有的人”与“找出所有的礼物盒”。

眼睛执行感知:MLLM 调用 SAM 3,先后完成这两个子任务,获取两组精确的掩码。

大脑整合推理:MLLM 分析返回的掩码,通过空间关系与逻辑判断,筛选出符合“坐姿”且周围没有“礼物盒”的“人”,最终输出正确结果。

要知道,SAM 3 Agent 完成这一切都是零样本 (zero-shot) 的。在没有任何针对性训练的情况下,它在多个高难度推理分割基准上的表现,已超越了众多经过专门优化的模型 。

这就是为什么说,SAM3 的意义远超了任务的本身。

这清晰地预示着一个“可组合式 AI”的未来:通用 AI 不再是单一的巨无霸模型,而是一个由多个高度专业化的“基础模型”构成的软件栈。

将强大的感知模型(如 SAM 3)和强大的推理模型(如 MLLM)进行有效组合,在这个生态中,MLLM 是中央协调者,而 SAM 3 则扮演了那个不可或缺的、一流的“视觉 API”,为语言模型的抽象推理提供了一个多模态视觉世界的锚点!

彩蛋 time关注我的家人们肯定知道,我一直很爱从顶会论文里“淘金”。那怎么知道顶会的风向呢 ~

讲完 SAM3,再给大家安利一个我刷到的一个有意思的发现研究热点的方法 ~

我在某小绿书上看到大牛博主 @ 把握生命里每一分钟 贡献了一个方法:

这位博主用了一个叫 Bertopic 的工具,自动把内容相似的文章聚类成一个主题,来看这届投稿中的“热门”主题,聚类结果如下,一共整合成 113 个主题,一目了然。

博主统计出来最热前三的研究方向分别是:强化学习、大模型推理与强化学习、Transformer 架构相关。

这个方法,我个人觉得很受用,关注论文的科研党们快拿去用,也别忘了给原博主点赞呀 ~

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

SAM 3 图像分割 AI 计算机视觉 概念分割 ICLR 2026 可提示概念分割 Promptable Concept Segmentation PCS Meta AI 可组合式AI Composable AI MLLM
相关文章