首个少样本通用具身操作模型发布

2025-10-16 12:49 北京

跨越视觉语言与机器人操作的鸿沟。

机器之心发布

机器之心编辑部

国内首个少样本通用具身操作基础模型发布，跨越视觉语言与机器人操作的鸿沟。

具身智能领域终于要突破 “数据桎梏” 了吗？

相较于自然语言、视觉领域，具身智能的数据天然稀缺。真实世界的机器人操作往往涉及复杂的物理交互、实时反馈与环境变化，导致数据采集不仅成本高、效率低，并且还难以规模化。因此，现实中能达到数十万以及百万物理交互的数据集并不多见。

另外，当前的视觉 - 语言 - 动作（VLA）模型虽然已经具备了强大的语义理解能力，但在实际操作层面仍依赖大规模标注数据来弥补泛化能力的不足。

如何让具身机器人在极少样本下也能快速学习、准确执行、灵活迁移，成为决定它们真正走出实验室、进入工业生产与人机协作场景的关键因素。

近日，国内通用具身智能创企中科第五纪（FiveAges）正式发布新一代具身操作基础模型 FiveAges Manipulator-1（FAM-1），其核心架构源于团队入选 NeurIPS 2025 的《BridgeVLA: Bridging the Gap between Large Vision-Language Model and 3D Robotic Manipulation》，首次实现了大规模视觉语言模型（VLM）与三维机器人操作控制之间的高效知识迁移与空间建模融合。

特别地，该模型在少样本学习、跨场景适应及复杂任务理解方面实现重大突破，仅需 3-5 条机器人数据 / 任务即可完成精准具身操作学习，成功率高达 97% 并且全面超越 SOTA。基于该模型，团队斩获 CVPR 2025 具身操作竞赛冠军，击败国内外众多竞争对手。

FAM-1：从 VLA 到 BridgeVLA，

国内首个少样本通用具身操作基础模型

为了缓解缺少高质量操作数据的困境，切实提升跨场景、跨任务下的泛化性，中科第五纪以 BridgeVLA 为核心框架，构建首个少样本通用具身操作基础模型 FAM-1。

与传统的 VLA 架构相比，BridgeVLA 实现了以下两个方面的技术创新：

整合多类型数据，构建多维度的操作知识库，以二次预训练的方式挖掘 VLM 隐含知识，解决操作目标和场景理解不准确、泛化性差的问题；

利用三维热力图对齐 VLM 与 VLA 的输出与输入，通过 3-5 条非常少量的样本微调，解决视觉空间理解力弱、数据利用效率低的问题。

这些技术不仅在数个国际公开评测数据集上取得当前 SOTA 性能，还在仅有少量标注数据的真实开放场景下，稳定实现跨光照、跨场景、跨任务的泛化性。

具体来说，FAM-1 是由知识驱动的预训练（Knowledge-driven Pretraining, KP）和三维少样本微调（3D Few-shot Fine-tuning, FF）两大核心模块组成：

知识驱动的预训练：目前大多数具身操作模型是基于非操作数据预训练的 VLM，仅能在一定程度上缓解操作目标和场景泛化的问题。这种跨域差异性的存在，导致模型无法真正发挥 VLM 在泛化性方面的巨大潜力。因此，中科第五纪利用从网络上收集海量图像视频数据并构建面向操作场景的知识库，然后对预训练的 VLM 进行二次预训练。通过挖掘和引导模型隐含的操作知识，对机械臂关键点位置和轨迹进行预测，进而逐步实现在操作场景下的跨域适应。

三维少样本样本微调：现有 VLM+VLA 架构大多是将三维视觉信息压缩到一维向量，然后再预测三维动作，形式上类似沙漏结构。这种架构中间的 “维度瓶颈” 让模型损失大量三维结构信息，导致需要依赖大规模有标注数据进行暴力拟合。因此，中科第五纪将 VLM 和 VLA 的输出和输入升维到三维热力图。这样在模型微调的过程中，不仅能充分利用三维空间结构信息，更显著降低了模型对于样本数量的依赖。

主要实验效果：

FAM-1 在国际基准中全面超越 SOTA

基于 BridgeVLA 的创新架构，中科第五纪将 FAM-1 在国际公开评测基准 RLBench、Colosseum 等与微软、MIT、斯坦福等顶尖团队工作进行了公开比较，大量实验结果验证了模型的优越性。

例如，在 RLBench 上，FAM-1 可以取得 88.2% 的操作成功率，远远超过 RVT-2、Act3D、3D Diffuser Actor 等 SOTA 模型 6% 以上，特别是在 “Insert Peg”、“Open Drawer”、“Sort Shape”、“Door Close”、“Hammer Strike” 等任务上成功率大幅领先，平均成功率大幅提升了 30% 以上。

真机部署效果：

少样本下基础任务成功率 97%，挑战任务领先对比模型 30%+

中科第五纪还将 FAM-1 在真机上与 RVT-2（英伟达）、PI0（Physical Intelligence）、SpatialVLA（Shanghai AI Lab 等）等先进模型进行了全面对比，特别是在少样本情况下的基础任务（Basic）和挑战任务（Distractor、Lighting、Background、Height、Combination、Category）上的对比。FAM-1 在仅使用 3-5 条样本每个 Basic 任务的情况下，可以达到 97% 成功率，远超其它对比模型。

这些结果充分验证了中科第五纪在少样本实体部署方面的优势，尤其能够在不同干扰物体、不同光照条件、不同背景绝大多数复杂因素且极具产业化价值的能力下显著提升模型的泛化性。

总结与展望：

致力于打造工业级通用具身智能体系

FAM-1 是面向机械臂操作的少样本通用基础模型，通过迁移多模态大模型隐含知识和建模三维空间结构信息，让机器人获得了前所未有的跨场景任务的泛化能力和少样本快速学习能力。

基于此，中科第五纪未来将继续深耕以下三大方向：

进一步面向操作场景，提升通用基础模型的泛化性、可靠性和适应性；

推动基础模型在工业场景下的更多应用；

面向导航场景推出通用基础模型。

此外，团队另一项成果 EC-Flow: Enabling Versatile Robotic Manipulation from Action-Unlabeled Videos via Embodiment-Centric Flow 已被 ICCV 2025 接收，展示了从无标注人类操作视频中自监督学习操控策略的新路径，进一步展现了中科第五纪在具身智能核心技术上的系统性创新能力。这意味着未来机器人或可通过观察人类操作视频，自主学习操控策略，进一步降低应用门槛。

从定义具身大模型新标准，到发布国内首个少样本通用具身操作基础模型，中科第五纪的探索正推动具身智能从 “单点技术突破” 走向 “体系化落地”，为机器人真正走进工业生产、日常生活提供了技术支撑。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签