NovaFlow，机器人无需示教自主学习新技能

2025-10-09 10:21 湖北

NovaFlow 为机器人自主操作提出了一个全新的、无需示教的框架。

本文共同第一作者为李鸿宇（布朗大学博士生）和孙凌峰（Robotics and AI Institute 研究员，博士毕业于加州大学伯克利分校）。通讯作者付佳慧在 Robotics and AI Institute 任研究员，博士毕业于麻省理工学院。George Konidaris 为布朗大学副教授。

构建能够在新环境中、无需任何针对性训练就能执行多样化任务的通用机器人，是机器人学领域一个长期追逐的圣杯。近年来，随着大型语言模型（LLMs）和视觉语言模型（VLMs）的飞速发展，许多研究者将希望寄托于视觉 - 语言 - 动作（VLA）模型，期望它们能复刻 LLM 和 VLM 在泛化性上取得的辉煌。然而，理想很丰满，现实却很骨感。VLA 模型的端到端训练范式，要求海量与特定机器人相关的 “视觉 - 语言 - 动作” 数据。与 LLM 和 VLM 可以轻易获取的网络规模数据不同，机器人数据的采集成本极高、难度极大，这形成了一个巨大的 “数据瓶颈”。有没有可能绕过这个瓶颈，让机器人不依赖于昂贵的 “亲身经历” 数据，也能学会新技能呢？

最近，来自布朗大学（Brown University）和机器人与人工智能研究所（Robotics and AI Institute，前波士顿动力人工智能研究所）的研究团队提出了一个全新的自动操作框架 NovaFlow。该方法另辟蹊径，不再要求通过机器人或者人类演示去收集数据，而是巧妙地利用了大型视频生成模型中蕴含的、源于互联网海量视频的 “常识” 知识。通过让机器人 “观看” 由视频模型生成的任务视频，并从中提炼出一种名为 “可执行 3D 对象流” 的任务表征，NovaFlow 成功实现了在无需任何真实演示或额外训练的情况下，让机器人零样本（Zero-Shot）完成复杂的操控任务。这项工作为通用机器人的实现提供了一条极具潜力的新路径。

论文标题：NovaFlow: Zero-Shot Manipulation via Actionable Flow from Generated Videos

论文地址：https://novaflow.lhy.xyz/

作者信息：Hongyu Li (hli230@cs.brown.edu), Jiahui Fu (jfu@rai-inst.com)

核心思想：从 “观看” 视频到 “理解” 动作

传统的机器人学习范式，要么需要人类提供大量的示教数据（模仿学习），要么需要机器人在环境中进行大量的试错（强化学习），两者都效率不高且泛化能力有限。NovaFlow 的核心洞见在于：将人类指令的 “任务理解” 与机器人的 “底层控制” 彻底解耦。

研究团队假设，在互联网海量视频数据上训练出来的视频生成模型，已经学习到了关于世界如何运作的丰富常识和物理知识。比如，如何 “把杯子挂到架子上”，这个任务中物体间的相对位置关系和轨迹等信息，都已涵盖在视频模型中。因此，我们不再需要从头教机器人这些知识，而是可以通过一个简单的文本指令（例如 “把杯子挂到架子上” 或者 “把抽屉打开”）和一张现场照片，让视频模型生成一段展示该任务如何完成的 “教学视频”。

然而，原始的视频像素无法直接被机器人控制器使用。这里的关键挑战是如何将视频中非结构化的视觉信息，转化为机器人可以理解和执行的结构化指令。为此，NovaFlow 引入了一个核心的中间表征 —— 可执行 3D 对象流（Actionable 3D Object Flow）。

这种 “动作流” 本质上是目标物体在三维空间中运动轨迹的点云集合。它只描述物体本身应该如何移动，而与执行任务的是人手还是机械臂无关。这种以物体为中心的设计，是 NovaFlow 能够跨不同机器人平台（embodiment-agnostic）实现泛化的关键。

图 1：NovaFlow 框架概览。给定任务指令，模型生成一段任务视频，并从中提炼出与机器人观测对齐的 3D 可执行对象流，进而生成机械臂轨迹，完成对刚性、关节体和可变形物体的操作。

NovaFlow 的工作流程：两步走

NovaFlow 的整体框架由两个核心组件构成：动作流生成器（Flow Generator）和动作流执行器（Flow Executor）。

动作流生成器：四步将视频 “翻译” 成 3D 动作指令

这个模块的目标是，根据用户输入的一句自然语言指令和一张初始场景的 RGB-D 图像，生成目标物体的 3D 动作流。整个过程无需任何人工干预，完全由一系列预训练好的视觉模型完成。

图 2：动作流生成器。从初始图像和文本提示生成视频，再通过一系列视觉模块将其提炼为以对象为中心的 3D 可执行流。

1. 视频生成：首先，使用像通义万相或可灵 AI 这样的 SOTA 视频生成模型，根据初始图像和文本指令（如 “打开抽屉”）生成一段几秒钟的视频。

2. 2D 到 3D 提升：由于生成的视频是 2D 的，而我们在 3D 世界中执行任务，我们需要将 2D 信息提升到 3D 空间。NovaFlow 通过单目视频深度估计算法，为视频的每一帧生成对应的深度图。由于单目深度估计模型会产生系统性误差，研究团队额外利用了第一帧真实的深度图来对估计的单目深度视频进行校准。

3. 3D 点追踪：在有了 3D 视频后，使用 3D 点追踪模型，密集地追踪视频中每一个点在三维空间中的运动轨迹。

4. 对象分割与提取：上一步追踪了整个场景的运动。为了得到 “对象” 的动作流，NovaFlow 使用开放词汇的对象检测和分割模型（如 Grounded-SAM2），将视频中的目标物体（如抽屉）从背景中分割出来。最后，只保留属于该物体的运动轨迹，就得到了最终的、纯净的 “可执行 3D 对象流”。

值得一提的是，由于视频生成模型有时会产生不符合物理规律或指令的 “幻觉” 内容，研究团队还引入了一个拒绝采样步骤：并行生成多个候选视频及其动作流，然后利用一个强大的 VLM 模型（如 Gemini）来评估哪个动作流最 “合理”，并选择最优的那个用于后续执行。

动作流执行器：将 3D 动作流转化为机器人动作

这个模块负责将抽象的 3D 对象流 “翻译” 成机器人可以执行的具体动作序列。它针对不同类型的物体，采用了不同的策略：

对于刚性物体（和铰接物体如抽屉）：由于移动物体是刚性的，它的运动可以用一个简单的刚体变换（旋转和平移）来描述。执行器通过分析动作流中关键点的变化，计算出物体在每个时间步的 6D 位姿（位置 + 姿态）。然后，结合抓取位姿生成模型，计算出机械臂末端执行器需要达到的相应位姿序列，最后通过轨迹优化生成平滑且无碰撞的关节指令。

对于可变形物体（如绳子）：可变形物体的动力学更为复杂，无法用简单的刚体变换描述。此时，3D 动作流就成了一个更强大的工具。它被用作一个密集的追踪目标，指导一个基于模型的规划器（如模型预测控制 MPC）进行操作。规划器会利用一个粒子动力学模型来预测绳子的形态变化，并不断优化机器人的动作，使得绳子的实际状态尽可能地去拟合动作流所定义的理想状态。

“真金火炼”：实验效果如何？

研究团队在 Franka 机械臂（桌面操作）和波士顿动力的 Spot 四足机器人（移动操作）上，对 NovaFlow 进行了广泛的实验验证。任务涵盖了刚性物体（挂杯子、插木块）、铰接物体（开抽屉）和可变形物体（拉直绳子）三大类。

图 3：真实世界桌面操作任务的成功率对比。NovaFlow（紫色）在所有零样本方法中表现最佳，甚至优于使用 10 个和 30 个示教数据训练的模仿学习策略（DP）。

实验结果令人印象深刻：

1. 超越同类零样本方法：与 AVDC、VidBot 等同样不需要示教数据的零样本方法相比，NovaFlow 在各项任务上均取得了最高的成功率。这得益于其精确的 3D 动作表示，而其他方法多依赖 2D 光流，缺乏 3D 感知和长期一致性。

2. 超越需要数据的模仿学习方法：更引人注目的是，NovaFlow 的表现甚至超过了使用 10 个乃至 30 个真实示教数据为每个任务单独训练的模仿学习基线（Diffusion Policy）。这充分证明了从生成视频中提取常识知识的巨大潜力，成功绕过了对真实机器人数据的依赖。

挑战与未来展望

尽管 NovaFlow 取得了显著成功，但研究也揭示了当前方法的局限性。失效分析表明，大部分的失败并非发生在 “理解” 阶段，而是发生在物理执行的 “最后一公里”，如抓取失败、或因意外的物理动态导致的执行偏差。这暴露了当前开环（open-loop）规划系统的脆弱性 —— 计划制定后便不再根据实际情况调整。未来的一个重要研究方向是开发闭环反馈系统。通过实时感知环境反馈，动态地调整或重新规划生成的动作流，从而使系统对现实世界中的不确定性和干扰更加鲁棒。

总而言之，NovaFlow 为机器人自主操作提出了一个全新的、无需示教的框架。它通过解耦任务理解与底层控制，并创造性地利用大型视频生成模型作为常识知识的来源，有力地证明了在没有机器人特定数据的情况下实现通用、泛化操作的可能性。这或许将是我们向着能够 “举一反三” 的通用机器人迈出的关键一步。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签