Hugging Face 10月17日 00:58
RoboChallenge:首个大规模真机具身智能基准测试平台
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

RoboChallenge全球首发,这是一个大规模、多任务的真实物理环境机器人基准测试平台。它通过科学评估体系,构建了一个开放、公正、可复现的“真实考场”,旨在克服真实环境下的性能验证、标准化测试条件等挑战。RoboChallenge为视觉语言动作模型(VLAs)在机器人实际应用中提供了可靠且可比较的评估标准,推动具身智能从“实验室智能”走向“现实世界智能”。该平台集成了多款主流机器人,支持远程评测,并提供了约1000条演示数据,同时面向社区开放,允许用户微调策略并参与评测。

🌟 **全球首个大规模真机基准测试平台:** RoboChallenge是全球首个在真实物理环境中,大规模、多任务地由真实机器人执行操作任务的基准测试。它旨在解决当前具身智能研究中缺乏统一、开放、可复现的真机测试方法的问题,为评估和比较不同算法提供了一个可靠的“真实考场”,推动技术从实验室走向现实世界。

🤖 **集成主流机器人,支持远程评测:** 该平台集成了UR5、Franka Panda、Aloha和ARX-5四款主流机器人,并配备RGB-D相机,通过统一软件栈实现高可靠联动。其创新的“远程机器人”方法,使用户无需拥有实际硬件即可进行高精度、免费的在线机器人测试,突破了硬件资源限制,提升了研究效率。

📊 **多维任务设计与创新评分机制:** RoboChallenge的首套桌面操作基准测试集Table30包含30个精心设计的日常任务,从VLA解决方案难点、机器人类型、任务场景环境和物体属性等多个维度进行评估。它采用进度评分系统,能够更精准地反映算法在复杂任务中的分步进展和完成效率,而非简单的二值化判断。

🤝 **开放协同,加速通用机器人发展:** RoboChallenge坚持全面开放原则,免费向全球研究者提供评测服务,公开演示数据和中间结果,以确保研究的可复现性和透明度。通过举办挑战赛、研讨会和数据共享,鼓励社区共建,共同推动具身智能核心问题的解决,并计划引入更多硬件平台和拓展评测维度,迈向通用机器智能。

RoboChallenge 2025-10-16 18:04 北京

RoboChallenge全球首发:重塑具身智能基准测试,开启真机评测新纪元

近日,全球首个大规模、多任务的在真实物理环境中由真实机器人执行操作任务的基准测试——RoboChallenge重磅推出;通过科学的评估体系构建一个开放、公正、可复现的「真实考场」,克服真实环境下的性能验证、标准化测试条件、公开可访问测试平台等关键挑战,RoboChallenge为视觉语言动作模型(VLAs)在机器人的实际应用提供更加可靠和可比较的评估标准,推动具身智能从「实验室智能」走向「现实世界智能」。据知,RoboChallengeDexmal原力灵机联合Hugging Face共同发起。

全球首个大规模多任务的真机基准测试平台

机器人正逐步融入现实世界,但目前仍缺乏统一、开放且可复现的基准测试方法,难以衡量技术进展或公平比较不同方法的优劣。改变这一现状需要构建一个大规模多任务的具身智能真机测试集,使得研发人员在统一环境中验证对比机器人算法,实现从基础任务到复杂现实应用场景的全面覆盖。

在此背景下,RoboChallenge应运而生。这一开放式机器人基准测试平台通过集成多款主流机器人(UR5Franka PandaAlohaARX-5)实现远程评测,为研究社区提供大规模、标准化、可复现的测试环境,推动具身智能算法在公平、可靠的基准下持续进步。

机器人选型

为精准评估VLA算法核心能力,RoboChallenge首期采用配备夹爪的机械臂作为标准化平台,未来会支持更多执行器类型。在感知方面,传感方案同步输出多视角RGB与对齐深度信息,以利于二维识别与三维推理需求,将来计划集成力控或触觉传感器。

机器人选型坚持高可靠性与学术通用性原则,最终在第一个测试集中集成UR5Franka Panda、COBOT Magic AlohaARX-5四类主流机型,确保系统具备7×24小时持续运行能力,为社区提供稳定可复现的基准评测服务。

程机器人测试

RoboChallenge通过创新的「远程机器人」方法,为学术界和产业界提供高精度、易用、免费的在线机器人测试服务。该平台最大的特点之一是以云端化服务突破机器人测试的硬件资源限制,实现「没有机器人,一样做实验」的效果,为具身智能研究提供高效、可靠的算法验证环境。

基准测试方法

为建立严谨可靠的机器人算法(尤其是 VLAs)评估体系,RoboChallenge在设计基准测试方法时重点关注人为因素控制、视觉一致性保证、模型鲁棒性验证以及不同评估目标的协议设计。

为此,RoboChallenge创新性地提出「视觉输入匹配」(visual inputs reproduction)方法:从演示数据中抽取参考图像,并实时叠加于测试画面。测试人员通过调整物体位置使实时场景与参考图像完全吻合,确保每次测试的初始状态一致。该方法不仅降低了测试人员的技术门槛,其稳定性甚至优于依赖经验人员的传统模式,为大规模评测提供了可扩展的解决方案。

最大规模真机测试集,小舞台上的大考验

Table30RoboChallenge的首套桌面操作基准测试集,包含30个精心设计的日常情境任务,相比之下,行业内真机竞赛或评测的任务数量一般仅为 3-5 个;这些任务由位置固定的双手或单臂机器人执行;通过科学的任务设计与评估体系,Table30为机器人算法发展提供可靠衡量标准,系统地评估算法在多维度场景下的泛化能力。

    多维任务设计Table30从四个关键维度构建评估体系:VLA解决方案难点、机器人类型、任务场景环境和目标物体属性。测试数据表明,即使最先进的基础模型也难以实现全面高分,印证该基准可作为通用机器人算法的「试金石」。

    多能力任务测试:这些任务测试了模型的多种能力,包括:精准定位抓取点、理解物体间空间关系、多视角协同运用、双臂交替协作操作、杂乱环境中重复执行技能、记忆多步骤任务阶段。

    创新性评分机制Table30突破传统二值化评估局限,采用进度评分系统:对复杂任务认可分步进展,对简单任务优化完成效率;这一设计能更精准反映算法性能的代差。当算法实现突破性进展,评分体系将给予增量认可。

通过对主流开源VLA模型算法进行测试,结果显示最新发布的Pi0.5相较其他模型取得显著优势,但也无法在所有任务上都取得较高的成功率。由此可见:RoboChallenge基准测试可以作为迈向通用机器人技术的必要性检验。

模型提交

RoboChallenge参与者提交模型至测试平台的标准流程包含四个核心环节。

构建协同创新社区

RoboChallenge坚持全面开放原则,向全球研究者免费提供评测服务,并公开所有任务演示数据及测试中间结果,确保研究的可复现性与透明度。后续,RoboChallenge将通过举办挑战赛、研讨会及数据共享,积极推动社区共建,鼓励研究者参与任务设计与优化,共同推进具身智能核心问题的解决。此外,平台还提供多维度细分排行榜,支持算法性能的深度分析。

迈向通用机器智能

RoboChallenge不仅是大规模真实评测的基础设施,更是推动具身智能建立科学导向、加速落地实用化的重要引擎;未来,RoboChallenge会持续引入移动机器人、灵巧操作装置等更多硬件平台,拓展跨场景任务测试能力;评测维度将从视觉-动作协调延伸至多模态感知、人机协作等方向,并计划推出动态环境适应、长期规划等更具挑战性的基准测试,助力具身智能在真实物理环境中创造价值。

Join RoboChallenge, This Is Your Opportunity To Shine


RoboChallenge 全球首发同时还有相关主题的重磅直播,欢迎预约观看!

本文由 Hugging Face 中文社区内容共建项目提供,稿件由社区成员投稿,经授权发布于 Hugging Face 公众号。文章内容不代表官方立场,文中介绍的产品和服务等均不构成投资建议。了解更多请关注公众号

如果你有与开源 AI、Hugging Face 相关的技术和实践分享内容,以及最新的开源 AI 项目发布,希望通过我们分享给更多 AI 从业者和开发者们,请通过下面的链接投稿与我们取得联系: 

https://hf.link/tougao

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

RoboChallenge 具身智能 基准测试 机器人 Embodied AI Benchmark Robotics VLA
相关文章