CodeWisdom 10月23日 21:14
机器人AI新思路:监督-回退-重试框架
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

面对AI机器人在现实世界中频繁犯错的问题,本文提出了一种跳出传统“增加数据和模型”思路的新策略。我们借鉴软件工程思想,为机器人AI构建了一个“监督-回退-重试”的外部框架。当机器人执行任务失败时,该框架能自动回退到安全状态再试一次,无需额外训练成本,即可将机器人长程任务成功率提升数倍,为构建更可靠、更“皮实”的智能机器人系统提供新路径。

🔧 引入“监督-回退-重试”框架:该框架借鉴软件工程思想,当机器人执行任务失败时,能自动回退到安全状态再试一次,无需额外训练成本。

🧠 快慢结合的失败检测机制:采用“快思慢想”架构,结合轻量级模型的快速直觉判断和基于多Agent路由与规则验证的“慢思考”系统,确保检测的准确性。

🗺️ 基于语义相似度和大模型引导的智能回退:通过计算当前环境与历史环境的语义相似度,并结合大模型进行引导,智能地定位最优的回退目标状态,确保回退的精准性。

📈 实验证明效果显著:在Libero虚拟环境和真实机器人实验中,该方法带来的成功率提升在7%到35%之间,并且任务越复杂,效果越显著。

🤝 AI与软件工程深度融合:该研究倡导AI与软件工程深度融合,AI赋予机器“思考”能力,软件工程为这种能力构建坚实的“地基”,确保机器人系统的可靠性与稳定性。

原创 岳尔文 2025-10-23 08:03 上海

面对AI机器人(VLA)在现实世界中依然频频“犯错”的难题,我们跳出了“不断增加数据、训练更大模型”的传统AI思路。本文介绍了一种全新的解决策略:从经典的软件工程思想中汲取智慧,为机器人AI构建了一个“监督-回退-重试”的外部框架。

    面对越来越聪明的AI机器人(VLA)在现实世界中依然频频“犯错”的难题,我们跳出了“不断增加数据、训练更大模型”的传统AI思路。本文介绍了一种全新的解决策略:从经典的软件工程思想中汲取智慧。我们为机器人AI构建了一个“监督-回退-重试”的外部框架,当机器人执行任务失败时,该框架能像按下“Ctrl+Z”一样,让机器人自动回退到安全状态再试一次。实验证明,这一巧妙的工程学方法,在零训练成本增加的情况下,能将机器人的长程任务成功率提升数倍,为构建更“皮实”、更可靠的智能机器人系统提供了一条新路径。

图1: 我们提出的“监督-回退-重试”框架概述

    左侧展示了传统的VLA模型执行任务的流程。机器人根据环境观察(Eᵢ)通过VLA模型推理出动作(Aᵢ),并作用于环境使其变为新状态(Eᵢ₊₁)。该方法的局限在于,一旦某个环节出错(如Aᵢ执行失败),系统将进入一个异常的环境状态(Eᵢ₊₁),且缺乏有效的恢复机制,最终导致整个任务链失败。

    右侧展示了我们方法的框架。核心区别在于引入了一个外部的“监督-回退”模块(黄色区域)。在机器人执行动作后,该模块会首先进行失败检测。若状态正常(OK),则流程继续;若检测到异常(NOT OK),系统则会从历史记录(Memory)中检索合适的安全状态,并生成一个回退动作(A'ᵢ),将机器人恢复到之前的某个正确状态(E'ᵢ₊₁),从而为VLA模型提供一次重试的机会。

    右图的右半部分详细展开了我们设计的两大核心技术:

失败检测机制:采用“快思慢想”架构。一个轻量级模型提供快速的直觉判断,而一个更鲁棒的、基于多Agent路由和规则验证的“慢思考”系统在后台进行审慎分析,以确保检测的准确性。

回退判断机制:通过计算当前环境与历史环境的语义相似度,并结合大模型进行引导,来智能地定位最优的回退目标状态。

    你是否想象过未来家里有一个无所不能的机器人管家?它能帮你端茶倒水、整理房间,甚至还能泡上一杯香浓的咖啡。

    如今,随着“视觉语言-动作大模型”(VLA)的出现,这个梦想似乎触手可及。这些模型赋予了机器人一个前所未有的“超级大脑”。

    然而,这个大脑虽然聪明,却也有些“娇气”。它在熟悉的场景中表现优异,可一旦遇到点意外,就很容易“犯迷糊”。这时,一个有趣的问题摆在了我们面前:当机器人犯错时,我们该怎么办?是让它“回炉重造”学得更聪明,还是有更巧妙的办法?

当聪明的AI大脑,遇上经典的工程智慧

    要理解我们的解决思路,首先要看到人工智能(AI)和软件工程(Software Engineering)在解决“错误”问题上两种不同的哲学。

    当一个AI模型犯错时,主流的思路是优化模型本身。我们会想:是不是数据不够多?是不是模型结构不够好?于是,研究者们通过采集更多失败案例的数据、调整算法,来教会模型如何应对它曾经犯过的错误。这是一种“亡羊补牢”式的学习,目标是让AI大脑本身变得越来越强大,从概率上减少犯错的可能。

    而软件工程,作为一门与构建复杂、可靠系统打了数十年交道的学科,则提供了另一种智慧。它承认在一个复杂的系统中,错误和意外是不可避免的。因此,它的重点不在于杜绝所有错误,而在于构建一个鲁棒的(Robust)框架,确保系统在遇到意外时,不会崩溃,而是能够优雅地处理,并从中恢复。

    我们的研究,正是尝试将软件工程这种“管理错误”的智慧,应用到前沿的机器人AI系统中。我们认为,与其无休止地教AI模型去“认识”每一个可能的错误,不如为它建立一个“安全网”,在它犯错时,能及时地“拉它一把”。

“打补丁”还是“建框架”

    现在我们再来看机器人失败的问题。

    机器人学习时,看的是人类成功完成任务的“标准答案”。这导致它的“大脑”只对它见过的、数据分布内的状态有较高的成功概率。但现实世界充满了意外,一个微小的误差、一次外界的干扰,都可能让机器人进入一个它从未见过的“超纲”状态(Out-of-Distribution)。

    面对这种状态,纯AI的解决方法是“打补丁”:采集更多数据,把这个新状态也纳入到数据集中,让模型学会如何处理。但这就像一个无底洞,你永远无法穷尽现实世界中所有可能的意外。

    而我们提出的工程学方法,则是“建框架”。我们不去修改AI模型本身,而是在它的外部构建一个通用的错误处理框架。这个框架不关心机器人具体遇到了哪一种未知的错误,它只关心一件事:当前系统的状态是否偏离了正常的轨道?一旦偏离,就启动预设好的恢复流程。

    这种思路的转变,是从“教会模型所有知识”到“为模型提供一个容错系统”的转变。

我们的工程学巧思:

为“概率大脑”构建“确定性”护城河

    作为机器人智能软件工程的研究者,我们认为,与其无止境地追求一个“永远正确”的AI大脑,不如换个思路:我们承认大脑的“概率性”,并用软件工程的确定性框架去“管理”它。

    这个框架的实现,需要攻克两大技术难点:“何时回退”和“如何回退”。

01

混合式异常检测——在“快”与“准”之间取得平衡

    如何及时、准确地判断机器人出错了?这是整个框架的基石。

     我们调研了领域内的最新进展,发现主要有两个方向。一是直接利用强大的多模态大模型(MLLM)进行判断,但我们测试发现,即使精心设计提示词,其检测效果也不稳定,且响应延迟较高,难以满足机器人实时决策的需求。另一方向是训练专门的失败检测模型,虽然速度快,但其准确率严重依赖海量的、多样化的失败数据,这违背了我们希望降低数据依赖的初衷。

    因此,我们设计了一套折中的、混合式的检测方案,它借鉴了人类的“快思慢想”决策机制,在效率和准确性之间取得了精妙的平衡:

快思考(直觉判断):一个轻量级的端到端神经网络模型作为“直觉”,它实时地对场景进行快速判断,保证机器人的动作流畅。

慢思考(审慎分析):在机器人依据“直觉”行动的同时,一个更复杂的“慢思考”系统在后台启动异步验证。这并非单个模块,而是一个结合

多Agent系统工程思想的模块化框架

    首先,一个规划Agent作为总指挥,协同一个分类Agent精准判断机器人当前处于哪个子任务阶段(例如“正在抓取”、“正在开门”)。

    接着,规划Agent会将当前状态“路由”到专门负责该阶段的失败检测Agent

    这些专职的检测Agent,其内部实现正是我们设计的“感知-验证”核心工作流。它并不依赖另一个黑盒模型,而是:

      感知模块:使用实例分割模型(Instance Segmentation),从机器人相机返回的图像中提取出所有物体的精确轮廓和语义信息(比如,“这是一个瓶子”、“这是一只手”)。

      验证模块:将这些结构化的语义信息,输入到一套基于规则的程序(Rule-based Program)中进行确定性验证。

    这套“慢思考”机制,通过多Agent的协同“感知-验证”工作流(Workflow)的分离,巧妙地结合了AI的感知能力与软件工程的结构化、可解释性。它不依赖特定的失败数据,而是依赖于对任务成功的物理逻辑定义,因此更加鲁棒。一旦“慢思考”系统通过严谨的逻辑验证,发现“快思考”的直觉判断有误,便立即触发回退。

02

智能回退——如何精准地按下“Ctrl+Z”?

    检测到失败后,下一个问题是:应该回退多少步?

    回退少了,可能没能回到错误的根源;回退多了,又会撤销掉已经正确完成的步骤,不仅浪费时间,还可能在回退过程中引入新的错误。

    为此,我们设计了一套基于语义搜索和大模型引导的智能回退算法

环境编码与历史记录:在机器人执行任务时,我们会实时地将每一帧的环境观察(图像)编码成一个嵌入向量(Embedding Vector),并与当时的状态一起存入历史日志。这个向量可以被看作是当前环境的“语义指纹”。

语义相似度定位:当错误发生时,我们计算当前错误环境的“语义指纹”,并与历史日志中所有指纹进行余弦相似度比较

大模型引导的二分查找:我们不会简单地选择最相似或最不相似的,而是取相似度排序位于中位数的历史状态作为候选。然后,我们将当前错误状态和这个候选状态同时交给一个大语言模型(LLM),并提问:“从候选状态恢复到错误状态,是否是解决当前问题的合理路径?” LLM会给出一个判断,如果不合适,它还会给出建议:“应该在历史记录中往前找”或“往后找”。这个过程类似一个由大模型引导的二分查找,能高效地在历史日志中定位到最合适的“安全检查点”。

    通过这套机制,我们把“回退几步”这个棘手的问题,转化为了一个可计算、可优化的语义定位问题,确保了每一次“Ctrl+Z”都恰到好处。

效果怎么样?

工程学的“笨办法”真的好用吗?

    空有理论还不够,我们必须在“考场”上验证这个“笨办法”是否真的好用。

    在Libero虚拟环境中,我们为机器人设计了数十种不同难度的“考题”——从简单的“抓起瓶子”,到复杂的“把指定颜色的杯子放进微波炉并关上门”。结果显示,我们的方法带来的成功率提升在7%到35%之间,并且任务越复杂、步骤越多,我们这套“安全网”的效果就越显著。

    为了更直观地展示它的威力,让我们来看一个真实机器人实验。我们给机器人布置了一个相当有挑战性的长任务:从箱子里抓取水瓶,打开柜门,放进去,再关上门。这个任务环环相扣,包含四个关键步骤:

1. 从箱子中抓取水瓶并放置在柜子上;

2. 打开柜门;

3. 将水瓶放置到柜子中;

4. 关闭柜门;

夹抓无法夹住瓶盖

无法夹住柜门把手

无法抓取水瓶

无法夹住柜门把手

More

    上面展示的四张图分别对于每个子任务的典型失败情况。这就像一个多米诺骨牌,任何一个环节出错,整个任务就会宣告失败。这也是为什么长任务对机器人来说格外困难的原因——失败的概率会随着步骤的增加而被层层放大。

    上面这段视频,就完整记录了我们这套“监督-回退-重试”框架力挽狂澜的瞬间。可以看到,当机器人第一次抓取瓶子失败时,“监视器”立刻发现了异常,并触发“回滚”机制,让机械臂退回到若干步前的位置。随后,AI大脑获得了宝贵的“第二次机会”,这一次它成功了!

那么,加上这套框架,效果究竟有多大差别呢?数据说明了一切:

Baseline组(纯VLA模型):在第一步抓取瓶子时,成功率尚可,有70%。但到了第二步开柜门时,成功率就骤降到了40%。最终,能够走完所有四步的机器人,成功率不到10%

我们的方法组:在我们的框架加持下,第一步的成功率提升到了80%。更关键的是,通过有效的错误恢复,整个长任务的最终成功率达到了约30%

    从不到10%到30%,这是一个巨大的飞跃。我们付出的唯一代价,仅仅是失败时那几次重试所带来的额外时间开销。这个结果雄辩地证明,我们不必总是陷入追求更大、更复杂AI模型的“军备竞赛”。有时候,用经典的工程学智慧,就能四两拨千斤,为AI系统注入它最稀缺的品质——可靠性

让AI学会思考,让工程确保可靠

    我们的研究,不仅仅是提出了一种提升机器人成功率的方法,更是倡导一种全新的理念:构建真正有用的机器人系统,是AI与软件工程深度融合的产物

    AI的使命是赋予机器“思考”的能力,而软件工程的使命,是为这种能力构建一个坚实的“地基”,确保它在任何风雨中都能稳固可靠。

    让机器人拥有“撤销键”,只是我们“机器人智能软件工程”实验室探索之路的一小步。我们的目标,是成为AI与软件工程之间的桥梁,让未来的机器人不仅更“智能”,也更“皮实”、更值得信赖。

作者|岳尔文 李辉 唐艺宁

指导老师|董震 彭鑫

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

机器人AI 监督-回退-重试框架 软件工程 失败检测 智能回退 可靠性
相关文章