index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
面对AI机器人在现实世界中频繁犯错的问题,本文提出了一种跳出传统“增加数据和模型”思路的新策略。我们借鉴软件工程思想,为机器人AI构建了一个“监督-回退-重试”的外部框架。当机器人执行任务失败时,该框架能自动回退到安全状态再试一次,无需额外训练成本,即可将机器人长程任务成功率提升数倍,为构建更可靠、更“皮实”的智能机器人系统提供新路径。
🔧 引入“监督-回退-重试”框架:该框架借鉴软件工程思想,当机器人执行任务失败时,能自动回退到安全状态再试一次,无需额外训练成本。
🧠 快慢结合的失败检测机制:采用“快思慢想”架构,结合轻量级模型的快速直觉判断和基于多Agent路由与规则验证的“慢思考”系统,确保检测的准确性。
🗺️ 基于语义相似度和大模型引导的智能回退:通过计算当前环境与历史环境的语义相似度,并结合大模型进行引导,智能地定位最优的回退目标状态,确保回退的精准性。
📈 实验证明效果显著:在Libero虚拟环境和真实机器人实验中,该方法带来的成功率提升在7%到35%之间,并且任务越复杂,效果越显著。
🤝 AI与软件工程深度融合:该研究倡导AI与软件工程深度融合,AI赋予机器“思考”能力,软件工程为这种能力构建坚实的“地基”,确保机器人系统的可靠性与稳定性。
原创 岳尔文 2025-10-23 08:03 上海

面对AI机器人(VLA)在现实世界中依然频频“犯错”的难题,我们跳出了“不断增加数据、训练更大模型”的传统AI思路。本文介绍了一种全新的解决策略:从经典的软件工程思想中汲取智慧,为机器人AI构建了一个“监督-回退-重试”的外部框架。
面对越来越聪明的AI机器人(VLA)在现实世界中依然频频“犯错”的难题,我们跳出了“不断增加数据、训练更大模型”的传统AI思路。本文介绍了一种全新的解决策略:从经典的软件工程思想中汲取智慧。我们为机器人AI构建了一个“监督-回退-重试”的外部框架,当机器人执行任务失败时,该框架能像按下“Ctrl+Z”一样,让机器人自动回退到安全状态再试一次。实验证明,这一巧妙的工程学方法,在零训练成本增加的情况下,能将机器人的长程任务成功率提升数倍,为构建更“皮实”、更可靠的智能机器人系统提供了一条新路径。 图1: 我们提出的“监督-回退-重试”框架概述 左侧展示了传统的VLA模型执行任务的流程。机器人根据环境观察(Eᵢ)通过VLA模型推理出动作(Aᵢ),并作用于环境使其变为新状态(Eᵢ₊₁)。该方法的局限在于,一旦某个环节出错(如Aᵢ执行失败),系统将进入一个异常的环境状态(Eᵢ₊₁),且缺乏有效的恢复机制,最终导致整个任务链失败。 右侧展示了我们方法的框架。核心区别在于引入了一个外部的“监督-回退”模块(黄色区域)。在机器人执行动作后,该模块会首先进行失败检测。若状态正常(OK),则流程继续;若检测到异常(NOT OK),系统则会从历史记录(Memory)中检索合适的安全状态,并生成一个回退动作(A'ᵢ),将机器人恢复到之前的某个正确状态(E'ᵢ₊₁),从而为VLA模型提供一次重试的机会。 右图的右半部分详细展开了我们设计的两大核心技术:
失败检测机制:采用“快思慢想”架构。一个轻量级模型提供快速的直觉判断,而一个更鲁棒的、基于多Agent路由和规则验证的“慢思考”系统在后台进行审慎分析,以确保检测的准确性。回退判断机制:通过计算当前环境与历史环境的语义相似度,并结合大模型进行引导,来智能地定位最优的回退目标状态。
你是否想象过未来家里有一个无所不能的机器人管家?它能帮你端茶倒水、整理房间,甚至还能泡上一杯香浓的咖啡。 如今,随着“视觉语言-动作大模型”(VLA)的出现,这个梦想似乎触手可及。这些模型赋予了机器人一个前所未有的“超级大脑”。 然而,这个大脑虽然聪明,却也有些“娇气”。它在熟悉的场景中表现优异,可一旦遇到点意外,就很容易“犯迷糊”。这时,一个有趣的问题摆在了我们面前:当机器人犯错时,我们该怎么办?是让它“回炉重造”学得更聪明,还是有更巧妙的办法?
当聪明的AI大脑,遇上经典的工程智慧
要理解我们的解决思路,首先要看到人工智能(AI)和软件工程(Software Engineering)在解决“错误”问题上两种不同的哲学。 当一个AI模型犯错时,主流的思路是优化模型本身。我们会想:是不是数据不够多?是不是模型结构不够好?于是,研究者们通过采集更多失败案例的数据、调整算法,来教会模型如何应对它曾经犯过的错误。这是一种“亡羊补牢”式的学习,目标是让AI大脑本身变得越来越强大,从概率上减少犯错的可能。 而软件工程,作为一门与构建复杂、可靠系统打了数十年交道的学科,则提供了另一种智慧。它承认在一个复杂的系统中,错误和意外是不可避免的。因此,它的重点不在于杜绝所有错误,而在于构建一个鲁棒的(Robust)框架,确保系统在遇到意外时,不会崩溃,而是能够优雅地处理,并从中恢复。 我们的研究,正是尝试将软件工程这种“管理错误”的智慧,应用到前沿的机器人AI系统中。我们认为,与其无休止地教AI模型去“认识”每一个可能的错误,不如为它建立一个“安全网”,在它犯错时,能及时地“拉它一把”。
“打补丁”还是“建框架”
现在我们再来看机器人失败的问题。 机器人学习时,看的是人类成功完成任务的“标准答案”。这导致它的“大脑”只对它见过的、数据分布内的状态有较高的成功概率。但现实世界充满了意外,一个微小的误差、一次外界的干扰,都可能让机器人进入一个它从未见过的“超纲”状态(Out-of-Distribution)。 面对这种状态,纯AI的解决方法是“打补丁”:采集更多数据,把这个新状态也纳入到数据集中,让模型学会如何处理。但这就像一个无底洞,你永远无法穷尽现实世界中所有可能的意外。 而我们提出的工程学方法,则是“建框架”。我们不去修改AI模型本身,而是在它的外部构建一个通用的错误处理框架。这个框架不关心机器人具体遇到了哪一种未知的错误,它只关心一件事:当前系统的状态是否偏离了正常的轨道?一旦偏离,就启动预设好的恢复流程。 这种思路的转变,是从“教会模型所有知识”到“为模型提供一个容错系统”的转变。
我们的工程学巧思:为“概率大脑”构建“确定性”护城河
作为机器人智能软件工程的研究者,我们认为,与其无止境地追求一个“永远正确”的AI大脑,不如换个思路:我们承认大脑的“概率性”,并用软件工程的确定性框架去“管理”它。 这个框架的实现,需要攻克两大技术难点:“何时回退”和“如何回退”。
混合式异常检测——在“快”与“准”之间取得平衡 如何及时、准确地判断机器人出错了?这是整个框架的基石。 我们调研了领域内的最新进展,发现主要有两个方向。一是直接利用强大的多模态大模型(MLLM)进行判断,但我们测试发现,即使精心设计提示词,其检测效果也不稳定,且响应延迟较高,难以满足机器人实时决策的需求。另一方向是训练专门的失败检测模型,虽然速度快,但其准确率严重依赖海量的、多样化的失败数据,这违背了我们希望降低数据依赖的初衷。 因此,我们设计了一套折中的、混合式的检测方案,它借鉴了人类的“快思慢想”决策机制,在效率和准确性之间取得了精妙的平衡:
快思考(直觉判断):一个轻量级的端到端神经网络模型作为“直觉”,它实时地对场景进行快速判断,保证机器人的动作流畅。慢思考(审慎分析):在机器人依据“直觉”行动的同时,一个更复杂的“慢思考”系统在后台启动异步验证。这并非单个模块,而是一个结合了
多Agent系统工程思想的模块化框架:
首先,一个规划Agent作为总指挥,协同一个分类Agent精准判断机器人当前处于哪个子任务阶段(例如“正在抓取”、“正在开门”)。接着,规划Agent会将当前状态“路由”到专门负责该阶段的失败检测Agent。这些专职的检测Agent,其内部实现正是我们设计的“感知-验证”核心工作流。它并不依赖另一个黑盒模型,而是:感知模块:使用实例分割模型(Instance Segmentation),从机器人相机返回的图像中提取出所有物体的精确轮廓和语义信息(比如,“这是一个瓶子”、“这是一只手”)。验证模块:将这些结构化的语义信息,输入到一套基于规则的程序(Rule-based Program)中进行确定性验证。
这套“慢思考”机制,通过多Agent的协同和“感知-验证”工作流(Workflow)的分离,巧妙地结合了AI的感知能力与软件工程的结构化、可解释性。它不依赖特定的失败数据,而是依赖于对任务成功的物理逻辑定义,因此更加鲁棒。一旦“慢思考”系统通过严谨的逻辑验证,发现“快思考”的直觉判断有误,便立即触发回退。智能回退——如何精准地按下“Ctrl+Z”? 检测到失败后,下一个问题是:应该回退多少步? 回退少了,可能没能回到错误的根源;回退多了,又会撤销掉已经正确完成的步骤,不仅浪费时间,还可能在回退过程中引入新的错误。 为此,我们设计了一套基于语义搜索和大模型引导的智能回退算法:
环境编码与历史记录:在机器人执行任务时,我们会实时地将每一帧的环境观察(图像)编码成一个嵌入向量(Embedding Vector),并与当时的状态一起存入历史日志。这个向量可以被看作是当前环境的“语义指纹”。语义相似度定位:当错误发生时,我们计算当前错误环境的“语义指纹”,并与历史日志中所有指纹进行余弦相似度比较。大模型引导的二分查找:我们不会简单地选择最相似或最不相似的,而是取相似度排序位于中位数的历史状态作为候选。然后,我们将当前错误状态和这个候选状态同时交给一个大语言模型(LLM),并提问:“从候选状态恢复到错误状态,是否是解决当前问题的合理路径?” LLM会给出一个判断,如果不合适,它还会给出建议:“应该在历史记录中往前找”或“往后找”。这个过程类似一个由大模型引导的二分查找,能高效地在历史日志中定位到最合适的“安全检查点”。
通过这套机制,我们把“回退几步”这个棘手的问题,转化为了一个可计算、可优化的语义定位问题,确保了每一次“Ctrl+Z”都恰到好处。效果怎么样?工程学的“笨办法”真的好用吗?
空有理论还不够,我们必须在“考场”上验证这个“笨办法”是否真的好用。 在Libero虚拟环境中,我们为机器人设计了数十种不同难度的“考题”——从简单的“抓起瓶子”,到复杂的“把指定颜色的杯子放进微波炉并关上门”。结果显示,我们的方法带来的成功率提升在7%到35%之间,并且任务越复杂、步骤越多,我们这套“安全网”的效果就越显著。 为了更直观地展示它的威力,让我们来看一个真实机器人实验。我们给机器人布置了一个相当有挑战性的长任务:从箱子里抓取水瓶,打开柜门,放进去,再关上门。这个任务环环相扣,包含四个关键步骤:1. 从箱子中抓取水瓶并放置在柜子上;2. 打开柜门;3. 将水瓶放置到柜子中;4. 关闭柜门;
夹抓无法夹住瓶盖
无法夹住柜门把手无法抓取水瓶无法夹住柜门把手More 上面展示的四张图分别对于每个子任务的典型失败情况。这就像一个多米诺骨牌,任何一个环节出错,整个任务就会宣告失败。这也是为什么长任务对机器人来说格外困难的原因——失败的概率会随着步骤的增加而被层层放大。 上面这段视频,就完整记录了我们这套“监督-回退-重试”框架力挽狂澜的瞬间。可以看到,当机器人第一次抓取瓶子失败时,“监视器”立刻发现了异常,并触发“回滚”机制,让机械臂退回到若干步前的位置。随后,AI大脑获得了宝贵的“第二次机会”,这一次它成功了!那么,加上这套框架,效果究竟有多大差别呢?数据说明了一切:
Baseline组(纯VLA模型):在第一步抓取瓶子时,成功率尚可,有70%。但到了第二步开柜门时,成功率就骤降到了40%。最终,能够走完所有四步的机器人,成功率不到10%。我们的方法组:在我们的框架加持下,第一步的成功率提升到了80%。更关键的是,通过有效的错误恢复,整个长任务的最终成功率达到了约30%!
从不到10%到30%,这是一个巨大的飞跃。我们付出的唯一代价,仅仅是失败时那几次重试所带来的额外时间开销。这个结果雄辩地证明,我们不必总是陷入追求更大、更复杂AI模型的“军备竞赛”。有时候,用经典的工程学智慧,就能四两拨千斤,为AI系统注入它最稀缺的品质——可靠性。让AI学会思考,让工程确保可靠
我们的研究,不仅仅是提出了一种提升机器人成功率的方法,更是倡导一种全新的理念:构建真正有用的机器人系统,是AI与软件工程深度融合的产物。 AI的使命是赋予机器“思考”的能力,而软件工程的使命,是为这种能力构建一个坚实的“地基”,确保它在任何风雨中都能稳固可靠。 让机器人拥有“撤销键”,只是我们“机器人智能软件工程”实验室探索之路的一小步。我们的目标,是成为AI与软件工程之间的桥梁,让未来的机器人不仅更“智能”,也更“皮实”、更值得信赖。作者|岳尔文 李辉 唐艺宁指导老师|董震 彭鑫
阅读原文
跳转微信打开