量子位 09月29日
Evo-0:轻量化方法提升机器人“看懂”三维世界能力
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

上海交通大学与剑桥大学合作提出Evo-0,一种轻量化方法,通过隐式注入3D几何先验,显著增强了视觉语言动作(VLA)模型理解三维世界的能力。该方法利用视觉几何基础模型VGGT从多视角RGB图像中提取3D结构信息,并融合到现有VLM中,无需显式深度输入或额外传感器。实验表明,Evo-0在仿真和真实世界任务中均大幅超越基线模型,尤其在需要精细操作的任务上表现出色,展现了其在通用机器人策略上的潜力。

💡 Evo-0创新性地通过隐式方式注入3D几何先验,解决了传统VLA模型在三维空间理解上的不足。它利用VGGT模型从多视角RGB图像中提取深度上下文和跨视图空间对应关系等3D结构信息,并将其有效地融合到2D视觉表征中,从而使机器人能够更精确地感知和理解物体的位置、布局和空间关系,而无需依赖昂贵的额外传感器或复杂的深度估计网络。

🚀 该方法通过引入一个cross-attention融合模块,实现了2D视觉token与VGGT提取的3D token之间的信息交互。2D视觉token作为query,3D token作为key/value,使得模型能够更好地理解空间结构和物体布局。这种融合策略在保持模型轻量化的同时,显著提升了机器人的空间感知能力,并在rlbench仿真和真实世界操作任务中取得了优异的性能表现,平均成功率大幅超越基线模型。

⚙️ Evo-0在训练过程中采用了高效的微调策略,仅对融合模块、LoRA适配层和动作专家进行调整,极大地降低了计算成本和训练时间。实验结果表明,即使是仅用15k步训练的Evo-0也超越了使用20k步训练的基线模型,展现出其卓越的训练效率。此外,Evo-0在面对各种干扰条件(如物体位移、背景变化、相机角度调整等)时,也表现出较强的鲁棒性,为开发通用、灵活的机器人策略提供了可行路径。

关注前沿科技 2025-09-28 19:51 北京

让机器人真正“看懂”三维世界

Evo-0团队 投稿量子位 | 公众号 QbitAI

在机器人学习领域,如何让AI真正“看懂”三维世界一直是个难题。

VLA模型通常建立在预训练视觉语言模型(VLM)之上,仅基于2D图像-文本数据训练,缺乏真实世界操作所需的3D空间理解能力。

当前基于显式深度输入的增强方案虽有效,但依赖额外传感器或深度估计网络,存在部署难度、精度噪声等问题。

为此,上海交通大学和剑桥大学提出一种增强视觉语言动作(VLA)模型空间理解能力的轻量化方法Evo-0,通过隐式注入3D几何先验,无需显式深度输入或额外传感器。

该方法利用视觉几何基础模型VGGT,从多视角RGB图像中提取3D结构信息,并融合到原有视觉语言模型中,实现空间感知能力的显著提升。

在rlbench仿真实验中,Evo-0在5个需要精细操作的任务上,平均成功率超过基线pi0 15%,超过openvla-oft 31%。

Evo-0:实现2D–3D表征的融合

Evo-0提出将VGGT作为空间编码器,引入VGGT训练过程中针对3D结构任务提取的t3^D token。这些token包含深度上下文、跨视图空间对应关系等几何信息。

模型引入一个cross-attention融合模块,将ViT提取的2D视觉token作为query,VGGT输出的3D token作为key/value,实现2D–3D表征的融合,从而提升对空间结构、物体布局的理解能力。

融合后的token与语言指令共同输入冻结主干的VLM,预测动作由flow-matching策略生成。训练中,仅微调融合模块、LoRA适配层与动作专家,降低计算成本。

研究团队通过在5个rlbench模拟任务5个真实世界操作任务上的全面实验,以及在5种不同干扰条件下的鲁棒性评估,证明了空间信息融合方法的有效性。在所有设置中,Evo-0都一致地增强了空间理解,并且优于最先进的VLA模型。

除了上述展示的效果外,在超参数实验中,为了分析超参数如何影响模型性能,团队在5个RLBench任务上进行了额外的实验。他们重点关注两个方面:训练步数和执行步数,并评估它们对任务成功率的影响。

值得注意的是,仅用15k步训练的Evo-0已经超过了用20k步训练的π0,这表明Evo-0具有更高的训练效率。

在真机实验部分,实验设计五个空间感知要求高的真实机器人任务,包括目标居中放置、插孔、密集抓取、置物架放置及透明物体操作等。所有任务均对空间精度容忍度极低。

Evo-0在全部任务中均超越基线模型pi0,平均成功率提升28.88%。尤其在插孔与透明物抓取任务中,表现出对复杂空间关系的理解与精准操控能力。

在鲁棒性实验中,论文设计了5类干扰条件:(1)引入一个未见过的干扰物体,(2)背景颜色的变化,(3)目标位置的位移,(4)目标高度的变化,(5)相机角度的变化。Evo-0均有相对鲁棒的结果,并且强于基准pi0。

综上所述,Evo-0的关键在于通过VGGT提取丰富的空间语义,绕过深度估计误差与传感器需求,以插件形式增强VLA模型的空间建模能力,训练高效、部署灵活,为通用机器人策略提供新的可行路径。

论文链接:https://arxiv.org/abs/2507.00416

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

🎡 量子位智库AI100季度榜单征集中!征集截至10月10日。欢迎提名2025年Q3「AI 100」双榜单产品~ 

🙋‍♀️ 点击链接填写:https://wj.qq.com/s2/23045758/29fb/ 或扫描下方二维码填报

一键关注 👇 点亮星标

科技前沿进展每日见

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

机器人 三维视觉 计算机视觉 人工智能 Evo-0 VLA模型 深度学习 Robotics 3D Vision Computer Vision Artificial Intelligence Deep Learning
相关文章