原创 小鹿 2025-10-13 19:22 北京
ICLR 2026 Open Review 传送门:ICLR 作为 AI 领域的最重要会议之一,OpenReview 上神仙打架,各种研究让人看得眼花缭乱,在这一批论文里,其中有一篇直接在圈内引爆了讨论。就是这篇匿名提交的 《SAM 3: Segment Anything with Concepts》
https://openreview.net/group?id=ICLR.cc/2026/Conference#tab-active-submissions
论文标题:SAM 3: Segment Anything with ConceptsSAM(分割一切),一直追更我公众号的朋友一定都知道这个模型,2023 年 SAM 1 一发布就封神,号称“CV 领域的 GPT-3 时刻”。为啥呢?因为它出现了后,让图像分割这个专业技术,变成了切水果一样,通过简单的点、框交互,从任何图片中分割出任何物体。一年后,二代SAM 2 发布(2024 年7月)。不光能扣图片, 连视频也能实时扣了。在前代基础上实现了对图像和视频的实时处理,将静态与动态内容的分割融为一体,让“视频抠图”也变得轻而易举。这两代模型都引发了圈内很大的轰动,已经强大到足够突破传统 CV 模型的能力天花板,但它们始终更像一个“听指令的工具人”,你点哪里,它切哪里。
论文地址:https://openreview.net/forum?id=r35clVtGzw
而刚刚爆出来的 SAM 3,从一个“切割工具”变成了一个“智能分割助手”。什么意思呢?举个例子,以前,你想分割出图里所有的猫,可能需要一只一只去点击或框选。现在,你只需要直接告诉 SAM 3 一个“概念”,比如“猫”,它就能在图像或视频中,找出、分割并追踪所有符合这个概念的实例。为此,SAM 3 定义了一个新概念:可提示概念分割 (Promptable Concept Segmentation, PCS)。那熟悉 SAM 1 和 SAM2 的家人们可能会好奇,SAM 1 不是也有文本功能吗?SAM3 的论文也回答了这个问题:
SAM 1 的文本提示功能“没有被完全开发” 。它的核心依旧是围绕视觉提示(点、框)来分割单个物体。而 SAM 3 则实现了从“一”到“多”的认知跨越,真正让分割模型学会了理解语言——一种扎根于视觉的、精准的概念理解。不止是交互方式的升级,更令人惊叹的是 SAM3 的效率。根据论文描述,SAM 3 处理一张包含 100 多个物体的复杂图片,仅需 30 毫秒,处理视频也几乎能达到实时效果。Meta 你已经掉马甲了!虽然,SAM3 这篇论文目前还处于双盲评审阶段,作者信息、机构信息都完全匿名,但网友们都在猜测,这绝对是 Meta 的工作:证据也不要太明显,SAM 和 SAM 2 都是由 Meta AI 团队推出的,SAM 3 作为正统续作,由原团队操刀合情合理。这篇论文的写作风格、图表样式和遣词造句,都和 Meta 以往的论文高度相似,简直是一个模子刻出来的。发布的时间点对得上:SAM 1 (2023 年 4 月)->SAM 2 (2024 年 7 月)->SAM 3 (2025 年 9 月)而 SAM3 出现的时间点,刚刚好,时隔一年多,在前代的基础上融入了自然语言理解,让分割模型学会思考,完全符合技术发展的逻辑。分割一切的视觉模型为了应对提出的【可提示概念分割】任务的复杂性,SAM 3 采用了一套全新的模块化架构:该架构首先对检测 (Detection) 与追踪 (Tracking) 任务进行了解耦。模型由一个检测器 (Detector) 和一个追踪器 (Tracker) 构成,两者共享一个强大的视觉主干网络,但各司其职。“侦察员”(Detector):负责在单帧图像中识别出所有符合概念定义的目标,不进行身份区分。“追踪员”(Tracker):负责在视频序列中持续锁定特定目标,并维持其身份的连续性。在工作流程上,检测器在每一帧中发现潜在的新目标,而追踪器则利用一个记忆库 (Memory Bank),将已知目标的掩码信息从前一帧高效地传播到当前帧。此外,为了攻克视频中常见的遮挡、快速运动或拥挤场景等技术挑战,SAM 3 还集成了一系列时序消歧策略,以确保追踪过程的鲁棒性与准确性。SAM 3 架构中一项“点睛之笔”的创新,是 Presence Token 的引入。Presence Token 精准地解决了计算机视觉领域的一个长期难题:让单一模型同时高效判断“某物是否存在”与“它在哪里”,往往会导致性能瓶颈和判断混淆。只有当 Presence Token 给出肯定的判断信号后,模型的主体功能才会被激活,进而去定位和分割出具体的实例。“先判断存在,再执行定位”极大地降低了模型在无关背景上产生响应的误报率,并且使模型能更优雅、更有效地处理干扰项。顶尖模型背后真正的护城河是其数据生态。传统的用于视觉分割的数据标注流程呈线性、劳动密集型,不仅成本高昂,且难以规模化。为了解决这个问题,SAM 3 构建了一个高效的、自我增强的迭代反馈闭环数据引擎(引擎流程图如下图所示),用于为大规模、多样化的相关训练数据集的标注。通过应用这个数据引擎,SAM3 的研究团队成功标注了包含 400 万独特短语和 5200 万掩码的高质量训练数据,以及包含 3800 万短语和 14 亿掩码的合成数据集,以及数量超过现有基准测试集 50 倍以上用于 PCS 任务的 Segment Anything with Concepts(SA-Co)基准测试。实验结果表明,SAM 3 在可提示分割任务中取得了新的 SOTA 表现。如下表 1 显示,在零样本设定下,SAM 3 在 COCO、COCO-O 和 LVIS 等封闭词汇数据集的边界框检测任务、LVIS 掩码任务上都表现出卓越的性能。在全新的 SA-Co 基准测试中,SAM 3 的表现至少是现有基线方法的两倍。如下表 6 所示, 相较于前代 SAM 2,SAM 3 在视频对象分割(VOS)、交互式图像分割以及可提示视觉分割(PVS)等多个任务也取得了显著的性能提升。最令人惊喜的是,SAM 3 与 MLLM 的组合实现了卓越的零样本推理分割能力,其性能不仅超越了专用模型,且无需任何针对性的数据训练。SAM 3 的真正意义是远超分割视觉任务本身的。研究团队将 SAM 3 与多模态大语言模型 (MLLM) 结合,组成了名为 SAM 3 Agent ,定义了以下四种基础工具供 MLLM 调用:分割短语 (segment phrase)逐一检查掩码 (examine each mask)选择并返回掩码 (select masks and return)报告无掩码 (report no mask)MLLM 作为大脑,负责高级推理、规划与任务分解。SAM 3 作为眼睛,忠实执行视觉指令。这种“大脑”与“眼睛”的组合能够处理极其复杂的逻辑查询。例如,面对指令:“分割出那个坐着但没有拿礼物盒的人” :大脑分解任务:MLLM 将指令分解为两个独立的视觉任务:“找出所有的人”与“找出所有的礼物盒”。眼睛执行感知:MLLM 调用 SAM 3,先后完成这两个子任务,获取两组精确的掩码。大脑整合推理:MLLM 分析返回的掩码,通过空间关系与逻辑判断,筛选出符合“坐姿”且周围没有“礼物盒”的“人”,最终输出正确结果。要知道,SAM 3 Agent 完成这一切都是零样本 (zero-shot) 的。在没有任何针对性训练的情况下,它在多个高难度推理分割基准上的表现,已超越了众多经过专门优化的模型 。这就是为什么说,SAM3 的意义远超了任务的本身。这清晰地预示着一个“可组合式 AI”的未来:通用 AI 不再是单一的巨无霸模型,而是一个由多个高度专业化的“基础模型”构成的软件栈。将强大的感知模型(如 SAM 3)和强大的推理模型(如 MLLM)进行有效组合,在这个生态中,MLLM 是中央协调者,而 SAM 3 则扮演了那个不可或缺的、一流的“视觉 API”,为语言模型的抽象推理提供了一个多模态视觉世界的锚点!彩蛋 time关注我的家人们肯定知道,我一直很爱从顶会论文里“淘金”。那怎么知道顶会的风向呢 ~讲完 SAM3,再给大家安利一个我刷到的一个有意思的发现研究热点的方法 ~我在某小绿书上看到大牛博主 @ 把握生命里每一分钟 贡献了一个方法:这位博主用了一个叫 Bertopic 的工具,自动把内容相似的文章聚类成一个主题,来看这届投稿中的“热门”主题,聚类结果如下,一共整合成 113 个主题,一目了然。博主统计出来最热前三的研究方向分别是:强化学习、大模型推理与强化学习、Transformer 架构相关。
