原创 夕小瑶编辑部 2025-10-22 13:06 上海
一站式开源VLA工具箱
from transformers import AutoModel
model = AutoModel.from_pretrained("bert-base") 而就在最近,死磕真实世界”的老熟人—Dexmal 原力灵机推出了 Dexbotic,一套基于 PyTorch 框架开发的开源视觉-语言-动作模型(VLA)代码库,刚好提供了一种终结这种“内卷式”的重复劳动的方案。前几天我写过一篇文章,介绍了他们不久前推出的全球首个大规模、多任务的真实机器人基准测试平台——RoboChallenge,在这个平台上,全球的机器人可以远程用真实的机器人,进行公平评测。解决的是具身智能领域“评测标准缺失”的问题。而这次的 Dexbotic,解决的是“训练标准缺失”的问题。就像计算机视觉有 MMDetection,NLP 有 Transformers 库,Dexbotic 试图成为具身智能领域的标准化工具箱。先看视频了解一下。总结来说,Dexbotic 提供了一套同时支持多个主流 VLA 算法的代码库,用户只需配置一次环境,基于所提供的预训练模型,即可在各类仿真环境中复现各类主流 VLA 算法。不用再从头配环境,不用再猜别人的参数,更不用担心预训练模型过时。老规矩,先放传送门:官网:https://dexbotic.com/现在我们一起看看 Dexbotic 到底做了什么?Dexbotic 做了什么?简单点说,Dexbotic 做了三件事:统一框架、统一数据、提供更强的预训练模型。听起来好像没那么难,但这三件事,恰恰是现在 VLA 研究最缺的。先说统一框架,用一个环境跑通所有主流算法。主流的 VLA 算法有 Pi0、OpenVLA-OFT、CogACT 等,这些算法原本分散在不同的代码仓库,使用不同的深度学习框架,有些甚至没有开源完整代码。现在在 Dexbotic 里,想测试 Pi0 和 CogACT 哪个更好,不用配两套环境,改一行代码就行:
Paper:https://dexbotic.com/Dexbotic_Tech_Report.pdf
GitHub:https://github.com/Dexmal/dexbotic
Hugging Face:https://huggingface.co/collections/Dexmal/dexbotic-68f20493f6808a776bfc9fc4
class MyExp(BaseExp):
model = "CogACT"# 从 π0 切换到 CogACT Dexbotic 的做法是,把所有 VLA 模型抽象成两部分:视觉-语言模型(VLM)+ 动作专家(Action Expert)。VLM 负责「看懂」和「理解」,Action Expert 负责「执行」。这样一来,不管你用的是扩散模型还是流匹配,底层的 VLM 都可以复用,就这么简单。再说统一数据格式。这个问题比统一框架还恶心。因为每个团队采集数据的方式都不一样:有人用图片序列存储,有人用视频,有人还把机器人状态单独存成 CSV。你想混合使用不同来源的数据,得写一堆数据转换脚本,还得祈祷转换过程没出 bug。Dexbotic 定义了一个叫 Dexdata 的格式:视频统一存成 MP4,每一帧的元数据(机器人状态、文字指令)存成 JSONL。就这么简单粗暴。这个格式最大的好处是省空间。以前那种把每一帧都存成 PNG 的方式,一个任务的数据可能要几个 GB,现在用视频压缩,能省下一大半存储。对于那些要在云端训练、数据传输成本很高的团队来说,是一件收益很大的事。而且,转换一次之后,不管你是要训练 Pi0、CogACT 还是 OpenVLA,都能直接用。不用再为每个算法写一套数据加载代码。我觉得最值得拿出来说说的,其实是预训练模型。大多数 VLA 模型都是基于 Llama2 构建的,而 Llama2 是 2023 年的东西。现在是 2025 年,Qwen2.5、Llama3 在视觉-语言理解上已经甩开 Llama2 几条街了。之前换模型意味着要大改代码,甚至重构整个训练流程,虽然大部分是工程活儿,但折腾一圈,成本太高。Dexbotic 做的事情就是:基于最新的 Qwen2.5,从头预训练了一个视觉-语言模型,叫 DexboticVLM。然后,基于这个模型,重新训练了几个主流的 VLA 算法——Pi0、CogACT、OpenVLA-OFT、MemoryVLA。效果也很明显。拿 SimplerEnv 这个仿真环境来说,它包含 4 个操作任务:把勺子放在毛巾上、把胡萝卜放在盘子上、堆叠方块、把茄子放进篮子。CogACT 官方版本的平均成功率是 51.3%,用了 Dexbotic 的预训练模型之后,直接飙到 69.5%——提升了 18 个百分点。OFT 更夸张:官方版本只有 30.2%,用了 Dexbotic 之后变成 76.4%——提升了 46 个百分点。再看 CALVIN 这个长时任务基准。它要求机器人连续完成多个指令,比如"先打开抽屉,再拿出红色方块,然后放到桌上"。这考验的是机器人的长时记忆和任务规划能力。CogACT 官方版本平均能连续完成 3.25 个任务,用了 Dexbotic 之后能完成 4.06 个——提升了 25%。意味着同样的算法,用了更好的基础模型,性能起飞了。当然,仿真环境的成功率再高,也不如真机测试来得实在。Dexmal 原力灵机团队在真实机器人上做了大量实验,包括 UR5e、Franka、ALOHA、ARX5 等多种平台。从视频可以看到,有些任务的成功率已经很高了——比如用 UR5e 摆盘子,成功率达到 100%;用 ALOHA 叠碗,成功率 90%;用 ARX5 搜索绿色盒子,成功率 80%。但也有一些任务还很困难,比如撕纸、倒薯条这种精细操作,成功率只有 20%-40%。这也不是 Dexbotic 的问题,是这个领域要突破的问题,真实世界里的摩擦、碰撞、形变,都会导致失败。上面介绍了这么多,可以概括一下,Dexbotic 整体架构分为三层:数据层(Data Layer)、模型层(Model Layer) 和 实验层(Experiment Layer)。# 基础配置
class BaseExp:
model = "DexboticVLM"
lr = 1e-4
epochs = 100
# 你的实验
class MyExp(BaseExp):
lr = 5e-5 # 只改学习率,其他自动继承 这符合软件工程的"开闭原则"——对扩展开放,对修改封闭。你改一行代码,不会影响其他部分,做对照实验的速度都变快了呢。Dexbotic 还有一个容易被忽视的价值:它为未来的"全身控制"做了架构准备。现在的机器人研究,通常分两个方向:操作(Manipulation):用机械臂抓取、放置导航(Navigation):在环境中移动、避障这两个方向往往是分开研究的。但未来的机器人,显然不能"只会站着抓东西"或"只会走路不干活"。它需要既能走到厨房,又能打开冰箱拿出可乐。Dexbotic 在设计时考虑了这一点,把操作类和导航类统一到了一套框架下:支持操作类策略:Pi0、CogACT、OpenVLA-OFT支持导航类策略:MUVLA这意味着,未来你可以在同一个框架下,训练"既能走又能干活"的机器人。虽然现在还做不到,但至少架构上留了空间。最后,聊聊开源。Dexbotic 是完全开源的,代码、预训练模型都在 GitHub 和 Hugging Face 上。而且,为了进一步软硬件协同推进具身智能发展,降低了研究者的使用、改造的门槛,Dexmal 原力灵机还开源了DOS-W1(Dexbotic Open Source-W1)——一款低成本的双臂机器人硬件平台。所有硬件设计文件都公开,使用消费级电机和传感器,普通实验室就能组装。以及全球首个大规模、多任务的真实机器人基准测试平台 RoboChallenge: