Z Potentials 10月27日 17:41
中国开源具身智能数据集获全球开发者青睐
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

在高质量数据稀缺的具身智能领域,一个来自中国的开源数据集Galaxea Open-World Dataset,在上线两个月内下载量突破40万次,成为全球开发者的重要资源。该数据集包含超过10万条移动操作数据,覆盖50个真实环境,涉及150类任务和1600余种操作对象,展现了具身智能在现实世界中的应用潜力。其成功反映了高质量真机数据在解决行业“卡脖子”难题中的关键作用,并为具身智能的通用化迈出了重要一步。该项目通过创新的硬件、多样的场景和强大的工程化能力,为具身智能的未来发展提供了坚实的数据基础。

🌟 **Galaxea Open-World Dataset的全球影响力**:该中国团队开源的具身智能数据集在短短两个月内下载量突破40万次,成为全球开发者社群的标配。这一下载量表明该数据集已广泛触达具身智能领域的核心开发者群体,包括顶尖大学、实验室、大型企业研发团队以及应用开发者,证明了其在全球开发者中的广泛认可和价值。

💡 **填补高质量数据空白,解决“卡脖子”难题**:在具身智能追求通用化的过程中,高质量数据的匮乏是一个公认的瓶颈。Galaxea Open-World Dataset通过提供海量、多样且真实的移动操作数据,有效缓解了这一难题。其覆盖住宅、厨房等50个真实环境,涉及150类任务类型、1600余种操作对象和58项具身技能,为算法复现、模型训练和性能评估提供了统一的基准,是推动具身智能从实验室走向产业化的关键。

🚀 **数据驱动具身智能的竞争优势**:数据已成为具身智能领域拉开竞争差距的关键因素。Galaxea Open-World Dataset的成功,源于其对高质量真机数据的重视。与互联网数据和仿真数据相比,真机数据具有更高的真实性和可控性,虽然采集成本高,但能显著提升模型在现实世界中的泛化能力,从而构建起强大的竞争护城河。该数据集的出现,为行业提供了解决数据瓶颈的新思路。

⚙️ **构建高质量数据集的三大核心要素**:Galaxea Open-World Dataset的成功构建离不开硬件、场景和工程化能力三大要素。先进的硬件(如星海图R1 Lite机器人)提供精准感知和稳定执行;多样的真实场景(酒店、餐厅等)确保了数据的复杂性和非结构化环境下的应用性;而强大的工程化能力(EDP平台)则实现了从采集、质检、标注到审核的全流程精细化管理,将原始数据转化为可用资产,确保了数据集的规模和价值。

原创 Z Potentials 2025-10-27 12:13 北京

在高质量数据稀缺的具身智能赛道,一个来自中国的开源数据集两个月突破40万下载,成为全球开发者“人手一份”的标配。

导语

在具身智能迈向通用化的关键赛道上,高质量数据的匮乏,已是公认的卡脖子难题。谁能够突破这一瓶颈,谁就有望在下一阶段的竞争中占据先机。

近日,一个来自中国团队的具身智能开源数据集项目,在全球开发者社区中引发的现象级反响,让业界看到破局的曙光。

Z Potentials独家获悉,星海图于今年 8 月开源的开放世界数据集(Galaxea Open-World Dataset)在短短两个月内已在 Hugging Face 与魔搭社区累获得超 40 万次下载。

美国明星具身智能创业公司Physical Intelligence 的工程师在社交媒体上公开为 Galaxea 点赞,对其开源高达500小时的开放场景移动操作数据给予了高度评价,称这无疑是一份极具价值的社区资源。

40万这个数字意味着,在全球具身智能的核心开发者圈子里,已接近人手一份。需要注意的是,开发者是一个广义概念,可以用三层金字塔来理解:塔尖是顶尖大学与实验室的核心研究者,中间层是大型企业的研发团队,第三层则是面向万千场景、直接推动落地的应用开发者。在任何新兴行业的早期阶段,这一群体往往最具技术前瞻性,同时也是全行业技术评判最公允的裁判员

Galaxea Open-World Dataset为何成为开发者们的集体选择?它在解决现实数据瓶颈上提供了哪些新思路?此次,Z Potentials从这个数据集的细节入手,探寻具身智能数据解题思路的雏形。

01 一个数据集为何能刷爆全球具身智能圈?

资料显示,今年8月开源的Galaxea Open-World Dataset包含超过10万条移动操作数据,覆盖住宅、厨房、等50个不同类型的真实环境,涉及150类任务类型、1600余种操作对象以及58项具身技能,从精细抓取到复杂协调操控,几乎囊括了现实空间中人机交互的主要形态。

上线仅仅两个月,Galaxea Open-World Dataset下载量超过40万次。据多方统计,全球范围内真正从事具身智能开发应用的核心开发者群体约数十万人量级,他们大多来自一线大学/实验室/大厂与机器人公司,这一下载量意味着几乎打穿了这一群体,能在如此金字塔顶端的群体中快速获得集体共识,意味着Galaxea Open-World是全球最有技术判断力的群体用脚投票的质量第一

在海外社媒上,我们也看到非常多开发者对Galaxea数据集的关注,大赞数据集对机器人行业的贡献。

横向对比来看,Galaxea Open-World Dataset在短短2个月的下载表现已远远领先于现有其它机器人数据集,包括 BridgeDataRT-1DROIDRoboMINDOpen X-Embodiment 以及 AgiBot World 等,登顶全球前列。

相比早期的单臂数据集,Galaxea Open-World Dataset提供了更完整的机器人构型与更复杂的任务,为开发者提供了在真实世界数据上复现算法、训练模型和评估性能的统一基准,这对于具身智能从实验室走向产业化而言是关键一步。

02 数据即护城河:具身智能的决胜战场

当前,具身智能的牌局刚刚开始。类似于大语言模型,具身模型智能也由算力/算法/数据构成。算力上全球顶级公司几乎都能获取先进算力,相差不大;而算法层面仍在探索和分化,在全球顶尖的10-20家团队之间扩散速度不超过3个月。因此,数据成为拉开竞争差距的关键因素。更进一步看,数据规模问题是可以通过资本投入扩张的线性问题,高质量真机数据已成为构建竞争护城河的重要资产

为了解决这一卡脖子难题,目前行业内尚未形成统一的技术路径。不同企业选择的路线各有侧重:有的试图复用大语言模型的思路,利用互联网数据或视频内容进行预训练,再通过强化学习和少量真机数据进行微调;有的以仿真为主,借助虚拟环境实现低成本、高效率的算法迭代;也有团队坚持真机采集,坚信只有真实数据才能训练出能应对复杂具身模型。

但实践证明,互联网数据与仿真数据各有明显局限。互联网视频虽数量庞大,却缺乏可结构化的物理信息和可重复性控制,模型很难从中学到精确的时空约束或动作逻辑。而仿真数据虽然生成效率高,却同样面临两大问题:一是真实性不足,二是 sim-to-real(仿真到现实)的迁移困难。这也是为什么在实际应用中,部分在仿真平台表现良好的模型,在真实机器人上性能仍会出现显著下降——仿真环境难以完全还原真实世界的不确定性。

全球顶尖的具身智能创业公司Physical Intelligence为例,其联合创始人 Sergey Levine 曾在采访中指出:与语言模型不同,机器人领域并不存在可直接利用的互联网级数据宝库。要让机器人学会一种新技能,就必须为特定机器人、特定任务采集大量真实数据。” 他多次强调,机器人操作与动作数据的获取难度远高于文本或图像。他们的训练基于来自多种机器人、大规模且多样化的高精度操作数据集,这背后的逻辑是:数据的规模、多样性与真实性三者相乘,才是具身智能模型实现泛化的关键。

真机数据采集虽然理论上可解决上述问题,但同样面临成本与质控的双重挑战:一方面,需要专业机器人硬件、训练有素的采集团队以及标准化运营流程;另一方面,从数据采集、清洗、标注到验证,每个环节都需成熟工程能力保障。这也是为什么高质量真机数据在行业内仍然稀缺,而能够突破这一瓶颈的团队,在当前竞争中具有独特优势。

目前阶段业内都普遍认为高质量真机数据的获取成本过高,但如果把这个问题当作一道简单的数学题来看,就会发现不贵是相对的。以中国市场为例,真机数据采集与模型训练的成本比例约为1:10换句话说,如果在数据阶段多投入一些资源实现更高质量,后续模型训练的成本节约会比数据成本高一个数量级,从整体ROI来看,这种投入是具有经济合理性的。

03 数据石油三大核心:硬件、场景与工程化

真机数据在具身智能领域如同石油之于工业时代一样珍贵。对于希望突破行业瓶颈的团队来说,短时间内构建大规模、可靠的数据体系并非易事。

高质量真机数据集的核心来源于三大要素:硬件、场景与工程化能力。硬件是可靠的身体需要精准感知和稳定执行,从源头保障数据的清晰与保真。场景是多样的土壤覆盖真实世界的复杂与多变,才能捕捉机器人在非结构化环境中的实际能力。工程化是将原始数据点石成金的系统,通过标准化采集、清洗与标注、评测等流程,将海量原始数据转化为可用资产,决定数据集规模与价值上限。

在硬件层面,该数据集用于采集的星海图R1 Lite 机器人完成采集,轮式双臂可覆盖80%以上的生产力场景,具备双臂协同、多自由度操作和高精度视觉感知能力,能够在动态或受限空间完成复杂操作。

星海图CTO赵行告诉Z PotentialsAI带来的崭新需求使得其硬件与传统机器人产业链可复用性较小,需要从零根据智能的需求正向研发,涵盖大量工程细节,其技术复杂度其中远超人形本体。据他透露,在实际应用中,星海图核心的两款机器人,已被包括 Physical Intelligence、斯坦福大学在内的全球最懂具身智能技术的顶尖用户采用,推出不到一年快速占据了全球mobile munipulation No.1,也是李飞飞Behavior挑战赛(具身智能领域的ImageNet)的唯一指定产品。

仅有硬件并不足以保证数据价值,赵行补充道,数据必须在的场景里产生。Galaxea Open-World Dataset覆盖酒店、餐厅、超市、办公室等真实的生活和商业环境中,机器人在这些动态、非结构化环境中的抓取、搬运和操作任务,任务复杂度接近现实应用需求,有助于训练的模型在现实环境中表现出更好的泛化能力,这也是数据能够被全球开发者快速采纳的原因之一。赵行进一步提到,对比传统的数据采集工厂模式,后者虽然适合生成标准化、重复性数据,但在动态、非结构化环境中难以捕捉复杂操作和多样场景的数据分布。因此,其生成的数据在训练具身智能模型时的闭环效果有限。

工程化能力是第三个关键环节。Galaxea Open-World Dataset通过构建一套复杂的智能化数据管线(EDP 平台),实现了从采集、质检、标注到审核的全流程精细化管理,同时支持模型评测与部署。此外,专业化采集工艺则确保机器人在不同场景下的动作标准化,减少人为或环境因素引入的偏差。这套数据管线的复杂程度不亚于自动驾驶系统,赵行说,它能快速达到较高水平,得益于我们团队在自动驾驶工程上的经验,与具身智能的新需求之间实现了有机融合。

04 具身智能的长坡厚雪需要长期主义

眼下具身智能行业仍站在技术森林的入口,非共识众多,每条路径都通向未知。我们大胆猜测,星海图在早期坚定选择真机采集这一高门槛路径,并非仅仅是策略上的取舍,更可视作在激烈竞争格局中构建系统性壁垒的关键一步。此举为其在数据、硬件、算法乃至生态闭环的搭建上,赢得了独特的竞争身位。

高质量的真机数据是机器人泛化能力的核心瓶颈。真机采集不仅仅是硬件的堆砌,更是硬件、算法与工程运营深度耦合的系统工程。在推进这一路径的过程中,公司有机会构建起一个闭环:以硬件为本,数据驱动模型训练,算法赋能进一步提升机器人操作的效率和智能水平。

在机器人这个强调长期主义的赛道,真正的壁垒往往建立于那些难以速成的环节之上。在行业普遍追求快速迭代的背景下,他们似乎选择了一条与时间同行的路径:通过硬件迭代积累对机器人本体的理解,借助真实场景数据持续喂养算法,并以工程化思维构建落地能力。

这也许只是10年为周期的大行业里万里长征的第一步,但也让我们看到,在具身智能这条中国优势显著的赛道上,年轻的创业公司正尝试用扎实的积累,为行业关键难题的解决带来新的可能。

-----------END-----------

🚀 我们正在招募新一期的实习生

🚀 我们正在寻找有创造力的00后创业

关于Z Potentials

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

具身智能 Embodied AI 开源数据集 Open Source Dataset 数据瓶颈 Data Bottleneck 机器人 Robotics Hugging Face 星海图 Galaxea
相关文章