夕小瑶科技说 10月15日 21:39
RoboChallenge:真实机器人评测平台助力具身智能发展
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

具身智能(Embodied AI)旨在让AI在物理世界中执行任务,但面临成本高昂和缺乏统一评测标准的问题。RoboChallenge平台应运而生,它是一个全球首个大规模、多任务的真实机器人基准测试平台。用户只需编写代码,即可远程操控深圳实验室的真实机器人执行30项标准化任务,并获得自动评分。该平台采用API连接,代码在用户本地运行,避免了模型和系统配置的复杂性,并提供多种主流机器人和传感器支持。其创新的“视觉输入匹配”技术确保了评测的公平性,通过“进度得分”体系更全面地衡量模型表现,旨在为具身智能领域建立行业标准,加速技术迭代。

💡 **具身智能的挑战与RoboChallenge的解决方案**:文章指出,具身智能(Embodied AI)面临两大现实难题:一是双臂机器人成本高昂,阻碍了多数团队的研发;二是缺乏统一、开放、可复现的评测基准,导致不同实验室的成果难以公平比较。RoboChallenge平台正是为解决这些问题而生,它提供了一个全球首个大规模、多任务的真实机器人基准测试平台,让研究者能够以较低成本(免费)在真实物理世界中测试和比较他们的AI算法。

🤖 **“云养机器人”的创新模式与技术细节**:RoboChallenge的核心机制是“远程机器人”,用户只需编写算法代码,通过API连接,便能在自己电脑上运行,而指令则发送到深圳实验室的真实机器人执行。这种设计避免了模型和系统级的提交复杂性,以及远程调试的困难,同时降低了访问门槛。平台支持UR5、Franka Panda等多种主流机器人,并提供多路RGB-D数据流,确保算法能充分理解三维空间。评测的公平性通过“视觉输入匹配”技术实现,确保每次测试的初始状态像素级统一。

📈 **Table30评测集与“进度得分”的引入**:RoboChallenge推出的首个评测集Table30包含30个桌面操作任务,涵盖精准三维定位、处理遮挡、时间依赖、多阶段规划、物体识别、双手协同、处理柔性物体等多个方面。为了克服传统“成功率”指标的局限性,平台引入了“进度得分”体系,将任务分解为多个阶段并按步给分,并对“复读”行为进行扣分,使得评分更能反映模型在任务中的真实进展和效率。

📊 **首轮测试结果与领域短板揭示**:在首轮摸底考中,经过“专业课”模式训练的Pi05模型在成功率和进度得分上全面领先。研究团队通过分析发现,当前VLA模型普遍在“记忆任务进度”、“处理柔性物体”和“精确三维定位”方面存在显著短板,而“双手协同”、“多视角”和“重复操作”等看似复杂的挑战并未带来额外性能下降。这清晰地反映了当前具身智能领域的真实水平和待改进方向。

🚀 **行业标准与未来展望**:RoboChallenge的出现,旨在成为具身智能领域的“ImageNet”,建立行业标准,加速技术迭代,降低创新门槛。通过提供一个统一的测试平台和公平的竞争环境,它有望推动具身智能技术迎来“黄金十年”,从而诞生更多真正能干活的AI。

原创 夕小瑶编辑部 2025-10-15 18:52 北京

你可能云养过猫、云吸过狗,但你想过“云养机器人”吗?

不是看看视频那种云养,是真的能远程操控——你在北京敲代码,机器人在深圳的实验室里帮你擦桌子、叠衣服。做完了还能打分,告诉你算法哪里需要改进。

这不是科幻,是一个中国团队不久前刚推出的真实“服务”。

为什么要做这个?

GPT-4 能写代码、画图、跟你聊哲学,但它能去叠个被子、擦个桌子吗?它先得有个手,有个身体,才能干活儿。这就是具身智能(Embodied AI)和传统大模型的区别——要在真实物理世界里干活。

而那些想做有手有脚的 AI 的团队,面临两个尴尬的现实问题——

第一,太贵了。

一台像样的双臂机器人,动辄 30-50 万人民币,卡住了大部分团队。

第二,没法公平比较。

那些买得起顶尖机器人实验室,虽然能做出炫酷的 demo,一会能精准“穿针引线”缝葡萄,一会是骑单车在野地狂飙,一会儿又是把衣服叠得整整齐齐的家政工。但他们有个问题:

这些天才的成绩单,很多都是在自家实验室环境里 show 出来的,你还相信它在现实世界里也能表现这么好吗?

就像你和别人各自在家考试,一个考小学题说 90 分,一个考高中题也说 90 分,根本没法知道谁更强。

没有一个统一、开放、可复现的评测基准,便是现在具身智能领域最棘手的问题之一。

现在,一个叫 RoboChallenge 的平台,便是解决这个问题而诞生的。

由 Dexmal 原力灵机联合 Hugging Face 共同发起,全球首个大规模、多任务的真实机器人基准测试平台。它提供的不是模拟器,而是真实的物理世界、真实的机器人、统一的 30 个标准化任务。

工作原理很简单,就像云游戏,你只需要写代码,机器人在千里之外的实验室帮你执行。

而且,完全免费,全球开放。

官网:https://robochallenge.ai

论文:https://robochallenge.ai/robochallenge_techreport.pdf

GitHub:https://github.com/RoboChallenge/RoboChallengeInference

HuggingFace:https://huggingface.co/RoboChallengeAI

"云养机器人"怎么玩?

RoboChallenge 的核心机制叫“远程机器人”(Remote Robot),听起来高大上,其实原理很简单——你的代码在你电脑上跑,机器人在他们实验室干活,中间通过 API 连接。

具体流程是这样的:

    你写好算法代码(比如用强化学习训练的机器人控制模型)

    连接 RoboChallenge 的 API(就像调用一个网站接口)

    实时接收机器人摄像头画面(RGB 彩色图 + 深度信息,带时间戳)

    你的代码计算出控制指令(比如"手臂向左移 5cm,抓取力度 30%")

    指令发送给远在深圳的真实机器人

    机器人执行,画面实时回传

    任务结束,系统自动打分

最关键的是:你的模型和代码永远在你自己电脑上,不用上传到云端。

为什么选择这种设计模式,研究团队在论文中解释了,这是想要避免几大天坑:

    模型/系统级提交太费劲:这个可能不止具身智能领域有,搞 AI 的其实应该都有同感,经常性为了复现一个模型,在 CUDA、PyTorch、Python 版本之间反复挣扎(打字打到这,想想就已经开始痛了)。RoboChallenge 的研究团队也很讨厌这个,直接从根源上避免配置这些。

    远程调试太费劲:每次代码打包提交到远程服务器,出现问题时,调试几乎是一场噩梦。你无法实时看到日志,也无法设置断点,只能对着黑箱抓瞎。

    访问性难题:很多评测平台要求用户有公网 IP,这直接 Ban 掉了只能用校园网或家庭网络的研究者们。而 RoboChallenge 的 API 没那多要求,只要你的请求能“走出去”(发起出站调用)就能用。

工业级 + 学术级机器人全覆盖

RoboChallenge 部署了四种主流机器人平台:UR5、Franka Panda、COBOT Magic Aloha 和 ARX-5。

既有像 UR5 这样皮实耐用的工业级机械臂,也包含了像 COBOT Magic Aloha 和 ARX-5 这类在研究圈更流行、成本更低但“娇贵”一些的平台。

在传感器配置上,平台标配了英特尔实感(Intel RealSense)摄像头,提供“主视角”、“腕部视角”和“侧面视角”的多路 RGB-D(彩色 + 深度)数据流,能够充分理解三维空间。

好了,硬件很牛,但这对不占少数的研究者来说,可能意味着一个更头疼的问题:我没有这些昂贵的机器人,怎么办?

RoboChallenge 很酷的是提供全流程远程在线测试:

通过标准 API 接口,像调用网站服务一样,把指令发送给机器人,然后你发出的每一个动作指令,都能得到毫秒级时间戳的图像和状态反馈,保证你的算法能“指哪打哪”。

怎么保证评测公平

在机器人任务中,一个杯子稍微摆歪几毫米,任务难度就可能天差地别。如果每次考试的“卷面”都不同,那分数还有什么可比性?传统方法依赖经验丰富的研究员手动摆放,不仅效率低,而且一致性差。

为了解决这个“摆放”的难题,RoboChallenge 设定了一种解决方案—「视觉输入匹配」(visual inputs reproduction)。

这是什么意思呢?

你可以把它想象成“描红”。系统会从标准的演示数据里,提取一张“标准答案”的参考图像,然后半透明地实时叠加在测试人员看到的画面上。

测试人员要做的,就是像玩一个拼图游戏一样,不断调整桌上的物体,直到真实场景和那张半透明的“标准答案”图完全重合。机器视觉的匹配精度远超人眼,保证了每次测试的初始状态都达到了像素级的统一。

上面可以理解为机器人的“考场”介绍,我们来看看 RoboChallenge 推出的权威考卷—Table30。

Table30——30 道题的机器人高考

RoboChallenge 的首个评测集叫 Table30——顾名思义,30 个桌面操作任务,重点考察以下几个“科目”:

    精准三维定位 (Precise 3D Localization):要求机器人在精确的三维坐标上抓取或放置物体 ,考验对空间细粒度的理解能力 。

    处理遮挡与多视角能力 (Occlusion and Multi-view):如果在主视野中被遮挡 ,模型需要学会利用来自多个摄像头的信息来完成任务。

    时间依赖与记忆能力 (Temporal Dependence):在任务的不同阶段,模型需要能够记住自己当前的进度,而不是做出重复或错误的判断。

    多阶段与长远规划 (Multi-stage and Long Horizon Tasks):按顺序分步完成,或者多次重复同一个技能,考验模型的动作成功率和长期执行能力 。

    物体识别 (Recognizing the Object):机器人需要区分它所看到的物体,并根据物体的身份采取不同的行动 。

    双手协同 (Using both Arms):同时使用两个机械臂来操作物体,或者根据情况决定使用哪一只手臂 。

    应对柔性物体 (Soft Bodies):机器人需要处理像毛巾或纸张这样的柔软材料,必须能泛化到非刚性和会变形的物体上 。

研究团队认为,单一的“成功率”指标其实很有欺骗性。

比如,一个模型可能在困难任务中取得了很大进展,却在最后一步功亏一篑;或者在简单任务中,磕磕绊绊多次才侥幸成功。这两种情况,显然不能简单判定成功或失败。

为此,RoboChallenge 提出了更优雅的计分体系——“进度得分”(Progress Score):

    任务被分解为多个阶段,按步给分

    “复读”要扣分

如果机器人在某个阶段失误并“重试”(比如抓东西没抓准,马上二次尝试),每次都会被扣掉 0.5 分。如果一个阶段得分被扣成负数,或者连续重试失败超过 4 次,任务就会被终止,防止无效的“刷分”。

一个任务可能成功了,但因为磕磕绊绊导致进度分很低;反之,一个任务也可能最终失败了,但因为它在最后一步才出错,所以仍然能获得很高的进度分。

放榜时刻:谁是学霸?谁在偏科?

那么,在这套严谨的评分体系下,首批顶尖“考生”们的成绩单究竟如何?

RoboChallenge 团队选取了目前社区里最火的几个开源 VLA 模型进行了首轮摸底考,包括 Physical Intelligence 的 Pi 05 和 Pi0,以及微软的 CogACT 等。

考试分为两种模式:

    “专业课”模式(Task-specific):每一项任务,使用该任务全部的演示数据(最多可达 1000 条)进行专项训练 。

    “通识课”模式(Generalist):从每个任务中抽取少量样本(约 50 条),混合在一起训练一个通用模型 。

成绩单一出,高下立判,从下图的累积分布曲线可以看出,经过“专业课”辅导的 Pi05 模型,在成功率和进度得分上,全方位碾压了其他所有模型 :

那么,究竟是哪些“科目”拉开了差距?

通过给每个任务打上不同维度的标签,研究团队发现了当前 VLA 模型普遍存在的几个“老大难”问题 :

    记性差:在需要记忆任务进度的场景下(比如去一个地方再回来),所有模型的成功率都惨不忍睹。这主要是因为当前主流模型都是单帧输入,缺乏对时间序列的理解。

    怕软不怕硬:处理毛巾、纸张这类柔性物体时,模型的表现也大幅下滑。因为软体变形难以预测,对抓取点的定位要求极高。

    有点近视:需要精确 3D 定位的任务,成功率也明显偏低。这也很容易理解,毕竟模型输入的图像分辨率只有 224x224,精度有限。

有趣的是,与直觉相反,“双手协调”(bimanual)、“多视角”(multiview)和“重复操作”(repeated)这几个看似复杂的挑战,却没有导致额外的性能下降。

看完成绩单,你可能会会想:“原来这些 AI 这么菜?”但这恰恰是 RoboChallenge 最大的价值——清晰地反映当前具身智能领域的真实水平和短板。

在没有统一测试之前,每个团队都说自己的模型成功率 90%,但测的任务不一样、机器人不一样、环境不一样。有了 RoboChallenge,同一套题、同一个考场、同一个评分标准,表现立判高下。

这就像 2012 年的 ImageNet。

在 ImageNet 出现之前,计算机视觉领域也和现在的具身智能一样,大家各自为战,用着自己的小数据集,模型之间难以比较,整个领域的发展速度相对缓慢。

ImageNet 提供了一个前所未有的统一的大规模、标准化的图像识别测试,结果便是计算机视觉迎来了黄金十年。

现在,RoboChallenge 想做的,就是具身智能领域的 ImageNet:建立行业标准、加速技术迭代、降低创新门槛,让全球研究者在同一个擂台上公平竞争。

有了它,我们有理由相信,属于具身智能的技术浪潮,已然不远。

如果你是机器人算法研究者,不妨去 RoboChallenge 云养一台机器人,如果你是个吃瓜群众,可以关注一下排行榜。

毕竟,能聊天的 AI 已经够多了。我们需要更多能干活的 AI。

RoboChallenge,可能就是让这件事成真的第一步。

RoboChallenge 全球首发同时还有两场相关主题的重磅直播,欢迎预约观看!

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

具身智能 Embodied AI RoboChallenge 机器人评测 AI基准测试 远程机器人 AI技术 机器学习 机器人技术 Table30
相关文章