量子位 11月09日 17:39
NavFoM:多任务、全场景、跨载体的具身导航基座大模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

NavFoM是一个由北京大学等机构合作提出的具身导航基座大模型,旨在实现导航能力的通用化。它能够处理来自四足、轮式、人形机器人、无人机和汽车等多种载体的输入,并支持视觉语言导航、目标搜索、目标跟随和自动驾驶等多种任务,同时覆盖室内外全场景。NavFoM通过统一的导航范式,将视频流和自然语言指令转化为动作轨迹,并利用TVI Tokens和Dual-Branch结构来兼容不同任务和传感器设置。为解决实时部署问题,该模型引入了Budget-Aware Token Sampling Strategy (BATS),能在算力约束下高效运行。该模型在八百万条跨任务跨载体导航数据和四百万条开放世界问答数据上训练,并在多个公开基准测试中取得SOTA或接近SOTA的效果,展现了其在真实场景落地的潜力。

🎯 **统一导航范式,实现多任务、全场景、跨载体通用性:** NavFoM打破了传统导航任务的局限,提出了一种统一的导航范式,将不同机器人的导航任务整合为“机器人采集的流式视频 + 自然语言导航指令 -> 动作轨迹”的模式。该模型能够处理来自多种机器人载体(如四足机器人、轮式机器人、无人机、汽车等),支持视觉语言导航、目标搜索、目标跟随、自动驾驶等多种导航任务,并适应室内外等全场景,实现了具身导航从“专用”到“通用”的技术跨越。

🧠 **创新的模型架构与TVI Tokens,增强对复杂输入的理解:** NavFoM采用了创新的模型结构,特别是引入了Temporal-viewpoint indicator Tokens (TVI Tokens),能够有效地支持单目和多种环视输入,并兼容不同载体的相机设置。TVI Tokens通过学习时间与角度系数,使得模型能够灵活标记图像在不同任务和相机配置下的时间和角度维度,增强了模型对视频流数据的理解能力。此外,Dual-Branch结构使其能够同时处理导航任务和视觉问答任务,并保留对开放世界的理解能力。

🚀 **BATS采样策略,保障7B模型实时部署与长程导航能力:** 针对7B导航基座模型在真实场景中实时部署的挑战,NavFoM团队提出了Budget-Aware Token Sampling Strategy (BATS)。该策略能在有限的算力约束下,自适应地采样关键帧,既保证了导航性能,又实现了高效运行。通过一套遗忘曲线,BATS能够根据视频帧数和Token上限动态调整采样分布,使得模型能够支持长程导航任务,为导航大模型技术在真实机器人上的规模化落地奠定了基础。

📚 **海量跨领域数据训练与SOTA表现,验证模型泛化能力:** NavFoM在八百万条跨任务、跨载体的导航数据以及四百万条开放世界的问答数据上进行训练,训练数据量远超以往工作。在无需针对特定任务或机器人进行微调的情况下,NavFoM在多个公开基准测试中取得了SOTA或接近SOTA的效果,展示了其强大的泛化能力和对不同导航场景的适应性,证明了其作为具身导航基座大模型的潜力。

关注前沿科技 2025-11-09 14:58 北京

多任务、全场景、跨本体的具身导航基座大模型

NavFoM团队 投稿量子位|公众号 QbitAI
导航能力机器人移动操作所需要基础能力之一,是扩展机器人工作范围和应用场景的关键因素。然而目前的导航任务往往是为特定任务和特定机器人而设计的。

这种对导航任务和机器人的划分使得大量研究精力投入到利用任务和机器人设计的先验上,这种做法忽视了跨任务和跨本体导航的能力共性(synergy),极大的限制了导航能力在算法层面上的可扩展性。

为此,北京大学,银河通用,阿德莱德大学,浙江大学等机构合作,探究如何构建具身导航的基座模型(Embodied Navigation Foundation Model)提出了NavFoM,一个跨任务和跨载体的导航大模型。实现具身导航从“专用”到“通用”的技术跃进,真正做到:

多任务:视觉语言导航,目标搜索,目标跟随,自驾等;

全场景:室内、室外等不同场景;

跨本体:四足,轮式,人形,无人机和汽车等。

NaVFoM 项目主页:https://pku-epic.github.io/NavFoM-Web/

论文链接:https://arxiv.org/abs/2509.12129

统一导航范式NavFoM基于一个最根本的想法,在于把不同机器人的导航任务统一到相同的范式:

机器人采集的流式视频 + 自然语言导航指令 -> 动作轨迹

为了实现这种范式,我们可以把不同的导航任务的目标用文本指令描述,并且统一用视频流来表达导航历史,用自然语言描述不同任务的导航目标,并让模型预测未来的运动轨迹。因此,我们可以用一个统一的架构构建NavFoM:

NavFoM的模型结构特点包括:

支持单目,多种环视输入,使用Temproal - viewpoint indicator Tookens(TVI Tokens) 支持不同本体的相机设置(多目环视),可以兼容单目相机,环视无人机,环视车辆等视频流数据。这里TVI Tokens是时间和角度两个系数通过端到端学习得到的,用于标记图像的时间和角度维度。

对于导航任务可以使用时间和角度两个维度,从而同时标记图像所在的时间和相机角度。

对于基于视频的问答任务(Video QA),仅使用时间维度,支持标记不同长度的视频帧。

对于基于图像的问答任务(Image QA),可以不使用时间和角度维度,直接标记视频中的图像帧。

TVI Tokens提供了一套可扩展的方法,使得模型可以更容易理解图像在不同任务不同相机设置下的内容。

通过支持Image QA和Video QA的混合的训练,可以让NavFoM仍然保留对开放世界的理解能力,避免overfit到导航的任务中。

Dual-Branch结构,当进行导航任务时,模型通过planning head输出一条由waypoints组成的轨迹。当进行QA任务时,模型则可以通过LM head做next token prediction,输出文字。Dual-Branch结构可以让一个模型输出两种任务的最优表达,并且兼容训练和测试的整个过程。

7B导航基座模型实时部署尽管NavFoM通过扩展视觉语言大模型实现跨本体和跨任务导航的统一,但一个现实的问题就是如何在真实场景中实时部署7B参数的导航基座模型。特别是在导航过程中,会产生大量的导航历史(视频帧),会极大的影响导航的效率和表现。

为了支持实时部署,团队提出了Budget-Aware Token Sampling Strategy (BATS), 帧采样策略,在有限算力约束(最大Token数量,Token Budget)下,自适应采样关键帧,既保持性能,又能在真实机器人上高效运行。

以下分别为给定Token上限,在不同帧数下的采样分布(左)与给定视频帧数,在不同Token上限下的采样分布(右)。

具体而言,团队定义了一套遗忘曲线,越靠近当前帧采样概率越大,越远离当前帧采样概率越小。

这套遗忘曲线可以根据视频帧数自适应的调整采样分布(上图左),而当tokens上限改变(上图右,更好的显卡或者更差的显卡),这套采样同样可以自适应调整分布,更大的token上限则可以保留更多的关键帧(曲线更缓),更少的token上限则更多的保留最新的关键帧(曲线更陡)。

在团队的测试中,BATS采样策略可以实现非常稳定的运行效率,可以实现非常长程的导航任务,具有落地真实场景的潜力。

在八百万条跨任务跨本体导航数据中训练团队收集了八百万条导航数据,包括视觉语言导航、目标导航、目标跟踪、自动驾驶、网络导航数据,涵盖了轮式机器人、四足机器狗、无人机和汽车,以及四百万条开放世界的问答数据。

训练数据量对比:

数据预处理:

团队的训练量是以往工作的两倍左右,并且为了减少训练的硬件需求,团队对图像数据做了cache,从而支持更大规模的训练。

算法表现NavFoM在多个公开的benchmark (不同任务和不同本体)上实现了SOTA和SOTA-comparable的效果。实验中,团队不需要对特定任务或机器人进行finetuning,而是直接修改指令和相机布局即可。

不同benchmark的可视化效果如下:

同一套模型实现机器狗,轮式机器人,无人机的跟随:

本文的作者团队来自北京大学、银河通用、中科大、阿德莱德大学、浙江大学。

共同第一作者包括北京大学计算机学院博士生张嘉曌,北京大学元培学院本科生李安齐、中科大硕士研究生戚云鹏、银河通用李名涵。本文的通讯作者为北京大学助理教授、银河通用创始人及CTO王鹤,银河通用联合创始人及大模型负责人张直政。

NaVFoM 项目主页:https://pku-epic.github.io/NavFoM-Web/

论文链接:https://arxiv.org/abs/2509.12129

Three More Things团队进一步验证NavFoM作为一个具身导航基座大模型,在各种复杂且不同任务要求下的潜力:

TrackVLA++,实现30min+复杂环境中的稳定长程跟随

项目主页: https://pku-epic.github.io/TrackVLA-plus-plus-Web/

论文地址:https://arxiv.org/pdf/2510.07134

UrbanVLA,第三方地图引导的机器人自主城市出行

UrbanVLA项目主页: https://pku-epic.github.io/UrbanVLA-Web/

论文地址:http://arxiv.org/abs/2510.23576

MM-Nav: 360度纯视觉精确避障

MM-NaV项目主页:https://pku-epic.github.io/MM-Nav-Web/

论文地址:https://arxiv.org/abs/2510.03142

NavFoM提出了一种多任务、全场景、跨本体的具身导航基座大模型,标志着具身智能导航模型研发迈向通用化,导航技术落地迈向规模化。

其意义不仅在于首次构建了一个统一的导航基础模型架构,能够处理来自多种机器人载体(包括四足机器人、无人机、轮式机器人和车辆)、不同任务(如视觉语言导航、目标搜索、目标跟踪和自动驾驶)和不同场景(包括室内、室外)的输入,并在无需任务特定微调的情况下,在多个公开基准测试中达到或接近最优性能,更是导航大模型技术赋能大模型机器人实现跨行业应用的关键点。

团队希望这项工作能够吸引更多对以智能为核心的具身导航研究的关注,并激发新一代技术、数据集和基准测试的出现,并以此为基石,加速具身智能前沿技术创新向新质生产力和智能服务力的转化。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

我们正在招聘一名眼疾手快、关注AI的学术编辑实习生 🎓

感兴趣的小伙伴欢迎关注 👉 了解详情

🌟 点亮星标 🌟

科技前沿进展每日见

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

NavFoM 具身导航 基座模型 多任务导航 跨载体导航 AI 机器人 Embodied Navigation Foundation Model Multi-Task Navigation Multi-Platform Navigation AI Robotics
相关文章