我爱计算机视觉 09月12日
M²Diffuser运动规划框架,让机器人轻松应对复杂场景
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

M²Diffuser 是一种新型运动规划框架,将扩散模型应用于移动操作任务,使机器人仅通过局部3D扫描就能生成完整、协调且物理真实的全身运动轨迹。它通过引导式优化机制,在去噪过程中持续优化轨迹,显著减少物理碰撞和执行错误,在抓取、放置等任务上远超现有方法,并成功实现仿真到真实的无缝迁移。

🤖 M²Diffuser 是一种基于扩散模型的运动规划框架,能够直接从3D扫描生成机器人全身协调的运动轨迹,适用于复杂的3D场景。

🎯 引导式优化机制是 M²Diffuser 的核心创新,它在去噪过程中结合物理约束和任务目标,引导模型生成物理合理且任务成功的轨迹。

🚀 M²Diffuser 在抓取、放置等移动操作任务上表现优异,在已知和未知场景中均显著优于现有方法,并成功实现仿真到真实的无缝迁移。

🔍 M²Diffuser 生成的轨迹精度更高,误差分布更小,物理指标(如碰撞率、轨迹平滑度)也表现最佳。

📈 扩散模型的学习能力是 M²Diffuser 成功的关键,它学习到的轨迹分布先验知识使得模型能够快速适应未知场景。

CV君 2025-09-08 11:52 江苏

本文介绍一篇来自华中科技大学、北京通用人工智能研究院(BIGAI)等机构的研究者们共同发表的论文。该研究提出了一种名为 M²Diffuser 的新型运动规划框架,它创新性地将扩散模型(Diffusion Model)应用于移动操作任务中,使机器人能够在复杂的3D场景中,仅通过局部的3D扫描就能生成完整、协调且物理真实的全身运动轨迹。

M²Diffuser 的核心思想是“从噪声中生成轨迹,并在生成中持续优化”。它不仅学习专家轨迹的分布,更在每一步去噪过程中,通过可微分的物理约束和任务目标进行引导,从而显著减少物理碰撞和执行错误,在抓取、放置等多个任务上远超现有方法,并成功实现了从仿真到真实的无缝迁移。

论文标题: M²Diffuser: Diffusion-based Trajectory Optimization for Mobile Manipulation in 3D Scenes

作者: Sixu Yan, Zeyu Zhang, Muzhi Han, Zaijin Wang, Qi Xie, Zhitian Li, Zhehan Li, Hangxin Liu, Xinggang Wang, Song-Chun Zhu

机构: 华中科技大学,北京通用人工智能研究院(BIGAI),加利福尼亚大学洛杉矶分校;北京航空航天大学;西安电子科技大学;北京大学

论文地址: https://arxiv.org/abs/2410.11402

项目地址: https://m2diffuser.github.io/

录用信息 IEEE TPAMI

研究背景

移动操作(Mobile Manipulation)是具身智能领域的一项核心能力,它要求机器人不仅要像自动驾驶汽车一样在空间中导航,还要像机械臂一样与物体进行物理交互,例如抓取、放置、开门等。这项任务的挑战性在于其极高的自由度——机器人需要同时协调底盘的移动和机械臂的动作,以适应复杂多变的环境。

传统的运动规划方法通常依赖于精确的环境模型和复杂的算法,难以适应真实世界的动态性和不确定性。而近年来兴起的基于学习的方法(如模仿学习和强化学习),虽然在一些任务上取得了成功,但它们通常以自回归(auto-regressive)的方式一步步生成动作,缺乏对轨迹的全局规划,容易在长时程任务中出现累积误差,导致动作抖动、不连贯,甚至任务失败。此外,这些方法很难保证生成的动作严格遵守物理约束,从而在真实世界中造成碰撞或无法执行。

生成式AI,特别是扩散模型,在图像、视频生成等领域展现了强大的能力。研究者们开始探索将其用于机器人技术,但移动操作的复杂性——高维的动作空间、长时程的轨迹以及与环境的紧密交互——使得这一应用充满挑战。

M2Diffuser:基于扩散的轨迹优化方法

为了解决上述挑战,研究者们提出了 M²Diffuser,一个基于扩散模型的场景条件化生成模型。它不将轨迹生成看作一系列孤立的动作决策,而是将其视为一个整体优化的过程。

整体框架

M²Diffuser 的工作流程如下图所示。它以机器人为中心的局部3D扫描作为输入,通过一个迭代的去噪过程,直接生成用于完成特定任务(如抓取、放置)的全身运动轨迹。

其核心创新在于 引导式优化(Guided Optimization) 机制。在每个去噪步骤中,模型不仅会根据学习到的数据分布来预测更清晰的轨迹,还会计算当前轨迹在“任务目标”和“物理约束”上的得分。这些得分会形成一个梯度,引导采样过程向着“任务成功率更高”且“物理上更可行”的方向进行优化。

任务目标(Task-oriented Objectives):通过能量函数(Energy Function)来定义,例如抓取能量、放置能量等,用于衡量任务完成的质量。

物理约束(Physics-based Constraints):通过成本函数(Cost Function)来定义,惩罚那些违反物理规律的行为,如场景碰撞、关节超限、轨迹不平滑等。

扩散与去噪过程

扩散模型包含两个过程:前向的扩散过程和反向的去噪过程。

扩散过程(Forward Diffusion Process):在训练阶段,将一条完美的专家轨迹(如下图右侧)通过逐步添加高斯噪声,直到其完全变成纯噪声(如下图左侧)。

去噪过程(Inverse Denoising Process):在推理阶段,模型从纯噪声出发,利用学习到的知识一步步去除噪声,最终恢复出一条清晰、可执行的运动轨迹。

M²Diffuser 正是在这个去噪过程中引入了引导优化,使得每一步的“恢复”都更加“智能”和“有的放矢”。

数据集构建

高质量的训练数据是成功的关键。由于获取真实世界中大规模、高质量的移动操作数据非常困难,研究团队利用其之前工作中开发的工具,在仿真环境中构建了一个大规模的专家轨迹数据集。

该流程包括:

任务构建器(Task Builder):通过高层配置(如场景、机器人模型、目标物体等)自动生成多样的移动操作任务。

专家求解器(Expert Solver):利用传统的优化算法(VKC)为这些任务计算出最优的全身协调运动轨迹。

数据收集器(Data Collector):记录轨迹数据,并处理机器人视角的3D点云,形成训练样本。

实验与结果

研究团队在抓取、放置和到达目标三个移动操作任务上,对 M²Diffuser 进行了全面的评估,并与两个先进的基线模型(MπNets, MπFormer)进行了比较。

实验设置

为了更真实地评估任务成功率,研究团队放弃了传统上仅通过末端执行器与物体接触来判断抓取是否成功的方式,而是在NVIDIA Isaac Sim物理仿真环境中进行评估。

抓取成功:当机器人手臂抬起后,物体仍然被稳定地夹持在手中。

放置成功:当机器人松开夹爪后,物体能够稳定地停留在目标区域内。

定量分析

实验结果表明,M²Diffuser 在所有任务和场景中均显著优于基线模型。

在 已知场景(Seen Scenes) 中,M²Diffuser 在抓取任务上的成功率达到 30.54%,而基线模型最高不超过4%。在放置和到达任务中也表现出类似的巨大优势。

在 未知场景(Unseen Scenes) 中,M²Diffuser 依然保持了强大的泛化能力,成功率分别达到 14.33%(抓取)、12.25%(放置)和 12.61%(到达),远超基线模型。

进一步的误差分析揭示了为什么基线模型会失败。如下图所示,基线模型虽然能让末端执行器靠近目标,但由于缺乏全局优化,最终的姿态往往不正确,导致无法有效抓取或放置。而 M²Diffuser 的误差分布则小得多,表明其生成的轨迹精度更高。

物理指标分析(如碰撞率、轨迹平滑度)也显示,带优化的 M²Diffuser (Ours w/ opt.) 在各项指标上均表现最佳,尤其是碰撞率显著低于其他方法。

消融实验进一步证明了扩散先验的重要性。如果没有从扩散模型中学习到的轨迹先验知识,直接使用优化算法(即逆朗之万扩散)进行搜索,即使在2000次迭代后成功率也为0。而 M²Diffuser 仅用50步迭代就能达到 51.00% 的成功率,证明了学习轨迹分布的巨大价值。

定性分析

可视化结果直观地展示了 M²Diffuser 的优越性。下图展示了 M²Diffuser 生成的成功的抓取和放置轨迹。

相比之下,基线模型生成的轨迹常常因为碰撞、姿态不当等原因而失败。

下图更清晰地对比了 M²Diffuser 和基线模型 MπNets 在任务完成时的最终状态。可以看到,M²Diffuser 能够精准地完成任务,而 MπNets 则在三个任务中都出现了明显的偏差。

通过对比生成的轨迹与专家轨迹,可以发现 M²Diffuser 生成的轨迹(下图中的绿色曲线)在位置和姿态上都与专家规划的全局最优路径(VKC,蓝色曲线)非常接近,而基线模型则偏差较大。这证明了 M²Diffuser 学习到了轨迹的全局最优性,而非局部短视的决策。

真实世界实验

最令人振奋的是,仅在仿真数据上训练的 M²Diffuser 模型,可以被直接部署到真实的移动操作机器人上,并在真实的家居环境中成功完成一系列具有挑战性的任务,如从柜子中取出瓶子并放到桌上、将薯片递给坐着的人等。

这得益于模型采用机器人为中心的3D扫描作为输入,有效实现了从仿真到真实的无缝迁移(Sim-to-Real Transfer)。

总结

M²Diffuser 是一项在移动操作领域的开创性工作,它首次成功地将扩散模型应用于解决这一复杂任务,并取得了卓越的成果。

论文的主要贡献可以总结为:

提出了首个用于移动操作的扩散模型:设计了 M²Diffuser,一个能够直接从3D扫描生成全身协调运动轨迹的场景条件化运动生成器。

创新的引导式优化机制:在扩散模型的生成过程中无缝集成了物理约束和任务目标,确保了生成轨迹的物理合理性和任务完成度。

验证了扩散模型的优越性:证明了与自回归方法相比,基于扩散的规划器更适合生成高维、时空连贯的移动操作轨迹。

实现了强大的泛化和Sim-to-Real能力:证明了使用机器人为中心的局部3D扫描作为输入,可以有效地将模型从仿真环境迁移到真实世界,并处理未见过的场景和物体。

该研究不仅为移动操作提供了一个强大而有效的新范式,也为生成式AI在更广泛、更复杂的机器人任务中的应用开辟了新的可能性。作者也指出,当前模型在训练和推理速度上较慢,且对目标函数的设计较为敏感,这些将是未来工作的改进方向。

了解最新 AI 进展,欢迎关注公众号:我爱计算机视觉投稿寻求报道请发邮件至:amos@52cv.net欢迎点赞、分享、收藏、评论。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

M²Diffuser 扩散模型 运动规划 机器人 移动操作 3D场景 仿真到真实
相关文章