原创 夕小瑶编辑部 2025-10-15 18:52 北京
你可能云养过猫、云吸过狗,但你想过“云养机器人”吗?
不是看看视频那种云养,是真的能远程操控——你在北京敲代码,机器人在深圳的实验室里帮你擦桌子、叠衣服。做完了还能打分,告诉你算法哪里需要改进。
这不是科幻,是一个中国团队不久前刚推出的真实“服务”。
为什么要做这个?
GPT-4 能写代码、画图、跟你聊哲学,但它能去叠个被子、擦个桌子吗?它先得有个手,有个身体,才能干活儿。这就是具身智能(Embodied AI)和传统大模型的区别——要在真实物理世界里干活。
而那些想做有手有脚的 AI 的团队,面临两个尴尬的现实问题——
第一,太贵了。
一台像样的双臂机器人,动辄 30-50 万人民币,卡住了大部分团队。
第二,没法公平比较。
那些买得起顶尖机器人实验室,虽然能做出炫酷的 demo,一会能精准“穿针引线”缝葡萄,一会是骑单车在野地狂飙,一会儿又是把衣服叠得整整齐齐的家政工。但他们有个问题:
这些天才的成绩单,很多都是在自家实验室环境里 show 出来的,你还相信它在现实世界里也能表现这么好吗?
就像你和别人各自在家考试,一个考小学题说 90 分,一个考高中题也说 90 分,根本没法知道谁更强。
没有一个统一、开放、可复现的评测基准,便是现在具身智能领域最棘手的问题之一。
现在,一个叫 RoboChallenge 的平台,便是解决这个问题而诞生的。
由 Dexmal 原力灵机联合 Hugging Face 共同发起,全球首个大规模、多任务的真实机器人基准测试平台。它提供的不是模拟器,而是真实的物理世界、真实的机器人、统一的 30 个标准化任务。
工作原理很简单,就像云游戏,你只需要写代码,机器人在千里之外的实验室帮你执行。
而且,完全免费,全球开放。
论文:https://robochallenge.ai/robochallenge_techreport.pdf
GitHub:https://github.com/RoboChallenge/RoboChallengeInference
HuggingFace:https://huggingface.co/RoboChallengeAI
"云养机器人"怎么玩?
RoboChallenge 的核心机制叫“远程机器人”(Remote Robot),听起来高大上,其实原理很简单——你的代码在你电脑上跑,机器人在他们实验室干活,中间通过 API 连接。
具体流程是这样的:
你写好算法代码(比如用强化学习训练的机器人控制模型)
连接 RoboChallenge 的 API(就像调用一个网站接口)
实时接收机器人摄像头画面(RGB 彩色图 + 深度信息,带时间戳)
你的代码计算出控制指令(比如"手臂向左移 5cm,抓取力度 30%")
指令发送给远在深圳的真实机器人
机器人执行,画面实时回传
任务结束,系统自动打分
最关键的是:你的模型和代码永远在你自己电脑上,不用上传到云端。
为什么选择这种设计模式,研究团队在论文中解释了,这是想要避免几大天坑:
模型/系统级提交太费劲:这个可能不止具身智能领域有,搞 AI 的其实应该都有同感,经常性为了复现一个模型,在 CUDA、PyTorch、Python 版本之间反复挣扎(打字打到这,想想就已经开始痛了)。RoboChallenge 的研究团队也很讨厌这个,直接从根源上避免配置这些。
远程调试太费劲:每次代码打包提交到远程服务器,出现问题时,调试几乎是一场噩梦。你无法实时看到日志,也无法设置断点,只能对着黑箱抓瞎。
访问性难题:很多评测平台要求用户有公网 IP,这直接 Ban 掉了只能用校园网或家庭网络的研究者们。而 RoboChallenge 的 API 没那多要求,只要你的请求能“走出去”(发起出站调用)就能用。
工业级 + 学术级机器人全覆盖
RoboChallenge 部署了四种主流机器人平台:UR5、Franka Panda、COBOT Magic Aloha 和 ARX-5。
既有像 UR5 这样皮实耐用的工业级机械臂,也包含了像 COBOT Magic Aloha 和 ARX-5 这类在研究圈更流行、成本更低但“娇贵”一些的平台。
在传感器配置上,平台标配了英特尔实感(Intel RealSense)摄像头,提供“主视角”、“腕部视角”和“侧面视角”的多路 RGB-D(彩色 + 深度)数据流,能够充分理解三维空间。
好了,硬件很牛,但这对不占少数的研究者来说,可能意味着一个更头疼的问题:我没有这些昂贵的机器人,怎么办?
RoboChallenge 很酷的是提供全流程远程在线测试:
通过标准 API 接口,像调用网站服务一样,把指令发送给机器人,然后你发出的每一个动作指令,都能得到毫秒级时间戳的图像和状态反馈,保证你的算法能“指哪打哪”。
怎么保证评测公平
在机器人任务中,一个杯子稍微摆歪几毫米,任务难度就可能天差地别。如果每次考试的“卷面”都不同,那分数还有什么可比性?传统方法依赖经验丰富的研究员手动摆放,不仅效率低,而且一致性差。
为了解决这个“摆放”的难题,RoboChallenge 设定了一种解决方案—「视觉输入匹配」(visual inputs reproduction)。
这是什么意思呢?
你可以把它想象成“描红”。系统会从标准的演示数据里,提取一张“标准答案”的参考图像,然后半透明地实时叠加在测试人员看到的画面上。
测试人员要做的,就是像玩一个拼图游戏一样,不断调整桌上的物体,直到真实场景和那张半透明的“标准答案”图完全重合。机器视觉的匹配精度远超人眼,保证了每次测试的初始状态都达到了像素级的统一。
上面可以理解为机器人的“考场”介绍,我们来看看 RoboChallenge 推出的权威考卷—Table30。
Table30——30 道题的机器人高考
RoboChallenge 的首个评测集叫 Table30——顾名思义,30 个桌面操作任务,重点考察以下几个“科目”:
精准三维定位 (Precise 3D Localization):要求机器人在精确的三维坐标上抓取或放置物体 ,考验对空间细粒度的理解能力 。
处理遮挡与多视角能力 (Occlusion and Multi-view):如果在主视野中被遮挡 ,模型需要学会利用来自多个摄像头的信息来完成任务。
时间依赖与记忆能力 (Temporal Dependence):在任务的不同阶段,模型需要能够记住自己当前的进度,而不是做出重复或错误的判断。
多阶段与长远规划 (Multi-stage and Long Horizon Tasks):按顺序分步完成,或者多次重复同一个技能,考验模型的动作成功率和长期执行能力 。
物体识别 (Recognizing the Object):机器人需要区分它所看到的物体,并根据物体的身份采取不同的行动 。
双手协同 (Using both Arms):同时使用两个机械臂来操作物体,或者根据情况决定使用哪一只手臂 。
应对柔性物体 (Soft Bodies):机器人需要处理像毛巾或纸张这样的柔软材料,必须能泛化到非刚性和会变形的物体上 。
研究团队认为,单一的“成功率”指标其实很有欺骗性。
比如,一个模型可能在困难任务中取得了很大进展,却在最后一步功亏一篑;或者在简单任务中,磕磕绊绊多次才侥幸成功。这两种情况,显然不能简单判定成功或失败。
为此,RoboChallenge 提出了更优雅的计分体系——“进度得分”(Progress Score):
任务被分解为多个阶段,按步给分。
“复读”要扣分
如果机器人在某个阶段失误并“重试”(比如抓东西没抓准,马上二次尝试),每次都会被扣掉 0.5 分。如果一个阶段得分被扣成负数,或者连续重试失败超过 4 次,任务就会被终止,防止无效的“刷分”。
一个任务可能成功了,但因为磕磕绊绊导致进度分很低;反之,一个任务也可能最终失败了,但因为它在最后一步才出错,所以仍然能获得很高的进度分。
放榜时刻:谁是学霸?谁在偏科?
那么,在这套严谨的评分体系下,首批顶尖“考生”们的成绩单究竟如何?
RoboChallenge 团队选取了目前社区里最火的几个开源 VLA 模型进行了首轮摸底考,包括 Physical Intelligence 的 Pi 05 和 Pi0,以及微软的 CogACT 等。
考试分为两种模式:
“专业课”模式(Task-specific):每一项任务,使用该任务全部的演示数据(最多可达 1000 条)进行专项训练 。
“通识课”模式(Generalist):从每个任务中抽取少量样本(约 50 条),混合在一起训练一个通用模型 。
成绩单一出,高下立判,从下图的累积分布曲线可以看出,经过“专业课”辅导的 Pi05 模型,在成功率和进度得分上,全方位碾压了其他所有模型 :
那么,究竟是哪些“科目”拉开了差距?
通过给每个任务打上不同维度的标签,研究团队发现了当前 VLA 模型普遍存在的几个“老大难”问题 :
记性差:在需要记忆任务进度的场景下(比如去一个地方再回来),所有模型的成功率都惨不忍睹。这主要是因为当前主流模型都是单帧输入,缺乏对时间序列的理解。
怕软不怕硬:处理毛巾、纸张这类柔性物体时,模型的表现也大幅下滑。因为软体变形难以预测,对抓取点的定位要求极高。
有点近视:需要精确 3D 定位的任务,成功率也明显偏低。这也很容易理解,毕竟模型输入的图像分辨率只有 224x224,精度有限。
有趣的是,与直觉相反,“双手协调”(bimanual)、“多视角”(multiview)和“重复操作”(repeated)这几个看似复杂的挑战,却没有导致额外的性能下降。
看完成绩单,你可能会会想:“原来这些 AI 这么菜?”但这恰恰是 RoboChallenge 最大的价值——清晰地反映当前具身智能领域的真实水平和短板。
在没有统一测试之前,每个团队都说自己的模型成功率 90%,但测的任务不一样、机器人不一样、环境不一样。有了 RoboChallenge,同一套题、同一个考场、同一个评分标准,表现立判高下。
这就像 2012 年的 ImageNet。
在 ImageNet 出现之前,计算机视觉领域也和现在的具身智能一样,大家各自为战,用着自己的小数据集,模型之间难以比较,整个领域的发展速度相对缓慢。
ImageNet 提供了一个前所未有的统一的大规模、标准化的图像识别测试,结果便是计算机视觉迎来了黄金十年。
现在,RoboChallenge 想做的,就是具身智能领域的 ImageNet:建立行业标准、加速技术迭代、降低创新门槛,让全球研究者在同一个擂台上公平竞争。
有了它,我们有理由相信,属于具身智能的技术浪潮,已然不远。
如果你是机器人算法研究者,不妨去 RoboChallenge 云养一台机器人,如果你是个吃瓜群众,可以关注一下排行榜。
毕竟,能聊天的 AI 已经够多了。我们需要更多能干活的 AI。
RoboChallenge,可能就是让这件事成真的第一步。
RoboChallenge 全球首发同时还有两场相关主题的重磅直播,欢迎预约观看!
