CV君 2025-09-12 12:24 江苏
让机器人在复杂、陌生的环境中自主导航,是机器人学的核心挑战之一。传统方法通常依赖于预先构建的、全局一致的三维几何地图,或是通过大量数据训练得到的端到端控制器。前者构建和维护成本高昂,难以适应动态变化的环境;后者则泛化能力差,换个新环境就可能“寸步难行”。
为了打破这一困境,来自阿德莱德大学等机构的研究者们提出了一种名为 TANGO 的新型导航管线。TANGO是“Traversability-Aware Navigation with local metric control for Topological Goals”的缩写,意为“面向拓扑目标的、具备可通行性感知的局部度量控制导航”。这个框架极具颠覆性,它使得机器人能够仅凭一个RGB摄像头,无需预先构建3D地图,也无需任何预训练的导航控制器,即可实现零样本(zero-shot)的长距离导航任务。
TANGO的核心思想是巧妙地将“高层级的全局拓扑路径规划”与“低层级的局部度量轨迹控制”相结合,让机器人既能“从大局出发”朝着目标前进,又能“随机应变”地实时躲避障碍。整个系统完全构建在通用的基础模型(如SAM, CLIP, Depth Anything)之上,无需任何针对特定领域的微调,展现了极强的鲁棒性和可部署性。
论文标题: TANGO: Traversability-Aware Navigation with Local Metric Control for Topological Goals
作者团队: Stefan Podgorski, Sourav Garg, Mehdi Hosseinzadeh, Lachlan Mares, Feras Dayoub, Ian Reid
作者机构: 阿德莱德大学 (The University of Adelaide),穆罕默德·本·扎耶德人工智能大学 (Mohamed Bin Zayed University of Artificial Intelligence)
论文地址: https://arxiv.org/abs/2509.08699
项目地址: https://github.com/podgorki/TANGO
会议信息: ICRA 2025
研究背景:视觉导航的“地图”与“控制器”之困
在机器人视觉导航领域,长期以来存在两大主流技术路线:
基于地图的导航 (Map-based Navigation) :这类方法的核心是“先建图,后导航”。机器人首先通过SLAM等技术构建一个环境的几何精确三维地图,然后在该地图上进行定位和路径规划。这种方法的优点是可靠性高,但缺点也同样明显:
计算成本高:构建和维护一个全局一致的3D地图需要大量的计算和存储资源。
泛化性与动态性差:地图是静态的,一旦环境发生变化(如新增了家具),地图就需要更新,否则机器人可能会“撞墙”。
基于学习的导航 (Learning-based Navigation) :这类方法试图跳过显式的建图过程,通过模仿学习或强化学习,训练一个端到端的神经网络控制器,直接从输入的图像生成控制指令(如前进、左转、右转)。这种方法的优点是无需建图,但其“黑盒”特性也带来了问题:
泛化能力弱:在训练环境中表现优异的控制器,一旦被部署到全新的、未见过的环境中,性能往往会急剧下降。
数据依赖性强:需要海量的、多样化的训练数据,收集成本高昂。
人类在陌生环境中导航时,并不会在脑中构建一个厘米级精度的3D地图,而是依赖于对关键地标(“经过前台,然后走向会议室”)的记忆和局部的避障能力。受此启发,“拓扑导航”应运而生,它用一个由关键节点和边组成的“拓扑图”来简化环境表示。然而,如何将这种高层级的拓扑规划与机器人底层的、需要精确几何信息的运动控制有效结合,并同时保证安全避障,一直是该领域的难题。TANGO正是为了解决这一核心问题而设计的。
TANGO:拓扑-度量混合导航新框架
TANGO创造性地提出了一种“拓扑-度量(topometric)”混合导航框架,它将导航任务分解为“去哪里”(全局拓扑规划)和“怎么走”(局部度量控制)两个层面,并利用基础模型的强大能力将两者无缝衔接。
整体导航管线
TANGO的完整工作流程如下图所示,可以分为“感知”和“控制”两大循环部分。
感知部分 (Perception):
场景理解:机器人使用SAM(Segment Anything Model)对当前RGB视角进行分割,得到图像中的各个对象实例。
拓扑定位:通过LightGlue等局部特征匹配方法,将当前视角中分割出的对象与预先构建的稀疏对象级拓扑地图进行匹配,实现自身定位。
子目标选择:根据最终目标(如“去冰箱那里”),全局拓扑规划器会为当前视野内的每个对象计算一个“成本”(即距离目标的拓扑距离),成本最低的对象(如“通往厨房的门”)被选为当前的子目标。
控制部分 (Control):
可通行性感知:这是TANGO的核心创新。系统结合单目深度估计(Depth Anything)和开放集文本查询(CLIP),生成一个局部的鸟瞰图(BEV)可通行性地图。具体来说,它会用“floor”、“ground”等文本去查询分割出的图像块,识别出哪些是地面,再结合深度信息投影到BEV空间。
局部轨迹规划:在生成的可通行性BEV代价地图上(黄色为高成本障碍区,黑色为低成本可通行区),使用Dijkstra等经典算法规划出一条到达子目标的最短、最安全的局部轨迹。
生成控制信号:根据规划出的局部轨迹,生成驱动机器人运动的偏航角(yaw)控制信号。
这个“感知-控制”循环不断重复,机器人一步步地朝向子目标前进,直到最终抵达目标点。
核心技术:可通行性感知与局部度量控制
TANGO最关键的贡献在于解决了从“拓扑目标”到“度量控制”的转换问题。传统拓扑导航只能告诉机器人“朝那张沙发走”,但无法告知路径上是否有一张椅子挡路。TANGO通过实时生成局部BEV可通行性地图,完美地解决了这个问题。它不依赖任何先验地图,仅凭当前单帧图像,就能动态地规划出一条既朝向目标又能够绕开未知障碍物的安全路径,实现了真正意义上的“边看边走边避障”。
自动切换机制
研究者充分考虑了现实世界的复杂性。在某些极端情况下(如机器人离墙太近,视野内无可通行区域),基于度量规划的控制器可能会失效。为此,TANGO设计了一个巧妙的自动切换(Auto-Switch)机制。当局部度量控制器无法找到有效路径时,系统会自动回退到一个更基础的、纯拓扑的“对齐”控制器(即RoboHop),该控制器会简单地驱动机器人朝向子目标中心旋转。一旦机器人通过旋转重新获得了开阔的可通行视野,系统又会自动切换回主控制器。这种“主备结合”的设计极大地增强了系统的鲁棒性。
实验结果
TANGO在Habitat仿真环境和真实机器人上都进行了验证,并与多种基线方法进行了比较。
基准测试比较
在标准的导航任务中,如下表所示,无论是在“简单”、“困难”还是“完整”长度的轨迹上,TANGO的成功率都显著高于之前的SOTA方法RoboHop和学习型方法PixNav。这证明了其结合局部度量控制的优越性。
消融研究
消融实验进一步揭示了TANGO成功的秘诀。
如表II所示,通过与使用理想数据的基线对比,研究者发现,完整的TANGO管线虽然成功率(43.14%)有所下降,但这主要归因于其感知模块(如 FastSam + LGlue)在实际应用中的局限性,而非其创新的度量控制方法。这证明了,目前机器人导航系统的瓶颈更多在于感知层面,而非控制层面。
而表III则显示,引入自动切换机制后,成功率从62.14%提升到了 73.78%,提升了超过11个百分点,凸显了该设计的鲁棒性。
“所见未至”目标的导航能力
为了测试TANGO的泛化能力是否超越了简单的“教与学”范式,研究者设计了“所见未至(Seen-but-Unvisited)”任务。即让机器人导航到一个在构建地图时曾经看到过、但从未实际走过的目标点。结果如表IV所示,TANGO在此任务上的成功率(50.54%)与在标准任务(43.14%)上相当,这有力地证明了TANGO是基于对环境的真正理解进行导航,而非简单地复现路径。
总结与贡献
本文提出的 TANGO 框架,为机器人视觉导航领域提供了一个极具吸引力的替代方案。其主要贡献如下:
提出了一种新颖的拓扑-度量导航管线:首次将对象级的全局拓扑规划与基于可通行性感知的局部度量控制相结合,实现了高效且安全的导航。
实现了真正的零样本、无地图导航:整个系统仅依赖RGB输入和通用的基础模型,无需构建三维地图或进行任何特定领域的训练,即可部署到新环境中。
引入了实时的可通行性估计:通过结合单目深度和语义查询,实现了对局部环境可通行性的实时、精确判断,这是实现安全避障的关键。
设计了鲁棒的自动切换机制:通过在主控制器失效时回退到备用控制器,显著提升了系统在复杂场景下的成功率。
CV君认为,TANGO的成功标志着机器人导航范式的一次重要演进。它证明了通过巧妙地组合现有的强大基础模型,可以在不依赖重地图、不进行大量端到端训练的情况下,实现以往难以企及的复杂导航能力。这种模块化、可解释、易于部署的思路,对于推动机器人在真实世界中的应用落地具有重要意义。
了解最新 AI 进展,欢迎关注公众号:aicvml投稿寻求报道请发邮件至:amos@52cv.net欢迎点赞、转发、评论。
