夕小瑶科技说 10月22日 23:13
Dexbotic:一站式开源VLA工具箱,简化具身智能研究
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

具身智能领域VLA(Vision-Language-Action)模型研究面临工程基础设施不成熟的挑战,导致研究者们在重复造轮子。Dexbotic,一个基于PyTorch开发的开源VLA代码库,旨在解决这一问题。它通过统一框架、统一数据格式和提供基于最新VLM的预训练模型,极大地简化了VLA算法的复现和对比。Dexbotic支持多种主流VLA算法,采用Dexdata格式存储数据,并提供DexboticVLM预训练模型,显著提升了在仿真和真实机器人上的性能。其实验为中心的开发框架和对云端及本地训练的支持,进一步降低了研究门槛,并为未来的全身控制机器人研究奠定了架构基础。

🎯 **统一框架,简化开发流程**:Dexbotic将不同的VLA算法整合到一个统一的代码库中,通过将模型抽象为视觉-语言模型(VLM)和动作专家(Action Expert)两部分,允许研究者在同一环境中轻松切换和测试多种主流VLA算法(如Pi0、CogACT、OpenVLA-OFT),无需重复配置环境,极大地提高了开发效率。

📦 **统一数据格式,提升数据复用性**:针对VLA研究中数据格式不统一的问题,Dexbotic定义了Dexdata格式,将视频存储为MP4,元数据存储为JSONL。这种格式不仅节省存储空间,还使得不同来源的数据能够被统一处理和复用,消除了为每个算法编写单独数据加载脚本的繁琐工作。

🚀 **先进的预训练模型,性能显著提升**:Dexbotic基于最新的Qwen2.5等VLM,从头预训练了DexboticVLM,并基于此重新训练了多个主流VLA算法。实验结果显示,使用Dexbotic的预训练模型能显著提升算法在仿真环境(如SimplerEnv、CALVIN)和真实机器人(如UR5e、ALOHA)上的成功率和任务完成度,解决了模型过时和性能瓶颈问题。

⚙️ **实验为中心的开发框架与灵活的基础设施**:Dexbotic采用Python类管理实验配置,符合软件工程原则,使得参数修改和对照实验更加便捷。同时,它支持从云端(如阿里云PAI)到本地GPU的多种训练环境,降低了硬件成本和部署难度,让更多研究者能够参与到具身智能的研究中。

原创 夕小瑶编辑部 2025-10-22 13:06 上海

一站式开源VLA工具箱

现在 AI 能写代码、能画画,但你有没有想过,让 AI 去拧个瓶盖,为什么就这么难?

因为拧瓶盖这件事,需要三个能力同时在线:

眼睛-视觉(Vision): 它得先看懂——哪个是瓶子?哪里是盖子?盖子纹理是什么样?

大脑-语言(Language):它得理解人类的指令——“拧开瓶盖”是什么意思?是顺时针还是逆时针?用多大力?

身体-动作(Action):它得精确地执行——手指要以多大角度抓住瓶盖?施加多大扭矩?

这三个能力,缺一不可,还得实时协同。

连接这三个能力的技术,就是 VLA(Vision-Language-Action)模型,也是当下具身智能领域最核心的能力。

但现在做 VLA 研究的这群人,面临的是——现在做大模型的这群人 10 年前的工程环境。

什么意思?

VLA 领域现在的状态,类似于 2015-2016 年时候的深度学习——虽然算法创新很快,OpenVLA、RT-2、Pi0 轮番登场,但在工程上,很多团队在重复造轮子。

比如,你在顶会上看到三篇 VLA 论文,一个用 PyTorch + Llama2,一个用 JAX + PaLI,一个用 TensorFlow + 自己魔改的 VLM。想复现并对比,你得配置三套完全不同的环境。

比训练更恶心的是数据问题,想用同一份数据测试三个算法,你得写三个数据加载的脚本。

你还会面临一个问题——评测不公平,算法 A 训了 100 个 epoch,学习率 1e-4,算法 B 训了 200 个 epoch,学习率 2e-5,难以确定哪个更优。

而且,大多数 VLA 模型(OpenVLA、CogACT)在用 2023 的 Llama2,但现在 VLM 已经迭代到 Qwen2.5、Llama3 了。

为什么不用最新的?因为 VLA 代码一般和特定 VLM 深度绑定,换模型意味着大改代码,甚至重构整个训练流程。

这不是某个人、某个团队的问题,而是 VLA 研究的现状——工程基础设施不成熟,不得不内卷重复造轮子。

而这些痛苦,在 NLP、CV、深度学习领域里,还算可控。

因为你有 PyTorch、TensorFlow 这样的框架,有 MMDetection、Transformers 这样的工具箱。

Transformers 库允许让你能用 3 行代码加载 BERT、GPT,而不用管它们底层的实现细节。

from transformers import AutoModel   
model = AutoModel.from_pretrained("bert-base")  
而就在最近,死磕真实世界”的老熟人—Dexmal 原力灵机推出了 Dexbotic,一套基于 PyTorch 框架开发的开源视觉-语言-动作模型(VLA)代码库,刚好提供了一种终结这种“内卷式”的重复劳动的方案。

前几天我写过一篇文章,介绍了他们不久前推出的全球首个大规模、多任务的真实机器人基准测试平台——RoboChallenge,在这个平台上,全球的机器人可以远程用真实的机器人,进行公平评测。解决的是具身智能领域“评测标准缺失”的问题。

而这次的 Dexbotic,解决的是“训练标准缺失”的问题。

就像计算机视觉有 MMDetection,NLP 有 Transformers 库,Dexbotic 试图成为具身智能领域的标准化工具箱。

先看视频了解一下。

总结来说,Dexbotic 提供了一套同时支持多个主流 VLA 算法的代码库,用户只需配置一次环境,基于所提供的预训练模型,即可在各类仿真环境中复现各类主流 VLA 算法。

不用再从头配环境,不用再猜别人的参数,更不用担心预训练模型过时。

老规矩,先放传送门:

官网:

https://dexbotic.com/
Paper

https://dexbotic.com/Dexbotic_Tech_Report.pdf
GitHub:

https://github.com/Dexmal/dexbotic
Hugging Face:

https://huggingface.co/collections/Dexmal/dexbotic-68f20493f6808a776bfc9fc4

现在我们一起看看 Dexbotic 到底做了什么?

Dexbotic 做了什么?简单点说,Dexbotic 做了三件事:统一框架、统一数据、提供更强的预训练模型

听起来好像没那么难,但这三件事,恰恰是现在 VLA 研究最缺的。

先说统一框架,用一个环境跑通所有主流算法。

主流的 VLA 算法有 Pi0、OpenVLA-OFT、CogACT 等,这些算法原本分散在不同的代码仓库,使用不同的深度学习框架,有些甚至没有开源完整代码。

现在在 Dexbotic 里,想测试 Pi0 和 CogACT 哪个更好,不用配两套环境,改一行代码就行:

class MyExp(BaseExp):  
    model = "CogACT"# 从 π0 切换到 CogACT  
Dexbotic 的做法是,把所有 VLA 模型抽象成两部分:视觉-语言模型(VLM)+ 动作专家(Action Expert)。VLM 负责「看懂」和「理解」,Action Expert 负责「执行」。这样一来,不管你用的是扩散模型还是流匹配,底层的 VLM 都可以复用,就这么简单。

再说统一数据格式

这个问题比统一框架还恶心。因为每个团队采集数据的方式都不一样:有人用图片序列存储,有人用视频,有人还把机器人状态单独存成 CSV。你想混合使用不同来源的数据,得写一堆数据转换脚本,还得祈祷转换过程没出 bug。

Dexbotic 定义了一个叫 Dexdata 的格式:视频统一存成 MP4,每一帧的元数据(机器人状态、文字指令)存成 JSONL。就这么简单粗暴。

这个格式最大的好处是省空间

以前那种把每一帧都存成 PNG 的方式,一个任务的数据可能要几个 GB,现在用视频压缩,能省下一大半存储。对于那些要在云端训练、数据传输成本很高的团队来说,是一件收益很大的事。

而且,转换一次之后,不管你是要训练 Pi0、CogACT 还是 OpenVLA,都能直接用。不用再为每个算法写一套数据加载代码。

我觉得最值得拿出来说说的,其实是预训练模型。

大多数 VLA 模型都是基于 Llama2 构建的,而 Llama2 是 2023 年的东西。现在是 2025 年,Qwen2.5、Llama3 在视觉-语言理解上已经甩开 Llama2 几条街了。

之前换模型意味着要大改代码,甚至重构整个训练流程,虽然大部分是工程活儿,但折腾一圈,成本太高。

Dexbotic 做的事情就是:基于最新的 Qwen2.5,从头预训练了一个视觉-语言模型,叫 DexboticVLM

然后,基于这个模型,重新训练了几个主流的 VLA 算法——Pi0、CogACT、OpenVLA-OFT、MemoryVLA。效果也很明显。

拿 SimplerEnv 这个仿真环境来说,它包含 4 个操作任务:把勺子放在毛巾上、把胡萝卜放在盘子上、堆叠方块、把茄子放进篮子。

CogACT 官方版本的平均成功率是 51.3%,用了 Dexbotic 的预训练模型之后,直接飙到 69.5%——提升了 18 个百分点。

OFT 更夸张:官方版本只有 30.2%,用了 Dexbotic 之后变成 76.4%——提升了 46 个百分点。

再看 CALVIN 这个长时任务基准。它要求机器人连续完成多个指令,比如"先打开抽屉,再拿出红色方块,然后放到桌上"。这考验的是机器人的长时记忆和任务规划能力。

CogACT 官方版本平均能连续完成 3.25 个任务,用了 Dexbotic 之后能完成 4.06 个——提升了 25%。

意味着同样的算法,用了更好的基础模型,性能起飞了。

当然,仿真环境的成功率再高,也不如真机测试来得实在。

Dexmal 原力灵机团队在真实机器人上做了大量实验,包括 UR5e、Franka、ALOHA、ARX5 等多种平台。

从视频可以看到,有些任务的成功率已经很高了——比如用 UR5e 摆盘子,成功率达到 100%;用 ALOHA 叠碗,成功率 90%;用 ARX5 搜索绿色盒子,成功率 80%。

但也有一些任务还很困难,比如撕纸、倒薯条这种精细操作,成功率只有 20%-40%。

这也不是 Dexbotic 的问题,是这个领域要突破的问题,真实世界里的摩擦、碰撞、形变,都会导致失败。

上面介绍了这么多,可以概括一下,Dexbotic 整体架构分为三层:数据层(Data Layer)、模型层(Model Layer) 和 实验层(Experiment Layer)。

数据格式统一,模型层提供了几乎主流 VLA 算法,作为研究者,你 99% 的时间只在实验层工作。

值得一提的是,Dexbotic 的基础设施也很灵活,从云端到本地都支持。

如果你有预算,它支持阿里云 PAI、火山引擎这些云平台,可以用几百张 GPU 做大规模分布式训练。

如果你是高校学生或者小团队,它也支持本地 GPU 训练——一张 RTX 4090 就能跑起大多数 VLA 模型。不用非得有几百张 A100 才能入场。

除了这些核心能力,Dexbotic 还有一个很实用的设计:实验为中心的开发框架

传统的深度学习项目,配置参数通常用 YAML 文件。你想改一个参数,得复制整个配置文件,找到对应的那一行,小心翼翼地修改,还得检查有没有漏改的地方。

Dexbotic 的做法是用 Python 类来管理配置。你有一个基础配置类,想改什么参数,就继承这个类,覆盖那一行:

# 基础配置  
class BaseExp:  
    model = "DexboticVLM"
    lr = 1e-4  
    epochs = 100
# 你的实验  
class MyExp(BaseExp):  
    lr = 5e-5  # 只改学习率,其他自动继承  
这符合软件工程的"开闭原则"——对扩展开放,对修改封闭。你改一行代码,不会影响其他部分,做对照实验的速度都变快了呢。

Dexbotic 还有一个容易被忽视的价值:它为未来的"全身控制"做了架构准备。

现在的机器人研究,通常分两个方向:

操作(Manipulation):用机械臂抓取、放置

导航(Navigation):在环境中移动、避障

这两个方向往往是分开研究的。但未来的机器人,显然不能"只会站着抓东西"或"只会走路不干活"。它需要既能走到厨房,又能打开冰箱拿出可乐。

Dexbotic 在设计时考虑了这一点,把操作类和导航类统一到了一套框架下:

支持操作类策略:Pi0、CogACT、OpenVLA-OFT

支持导航类策略:MUVLA

这意味着,未来你可以在同一个框架下,训练"既能走又能干活"的机器人。虽然现在还做不到,但至少架构上留了空间。

最后,聊聊开源。

Dexbotic 是完全开源的,代码、预训练模型都在 GitHub 和 Hugging Face 上。

而且,为了进一步软硬件协同推进具身智能发展,降低了研究者的使用、改造的门槛,Dexmal 原力灵机还开源了DOS-W1(Dexbotic Open Source-W1)——一款低成本的双臂机器人硬件平台。所有硬件设计文件都公开,使用消费级电机和传感器,普通实验室就能组装。

以及全球首个大规模、多任务的真实机器人基准测试平台 RoboChallenge:

至此,Dexmal 原力灵机的版图非常清晰了:

软件(大脑)Dexbotic 提供了标准化的“软件开发工具箱”;

硬件(身体)DOS-W1 系列提供了开放、低成本的“硬件身体”;

标准(试炼)RoboChallenge 则提供了公平衡量“AI 大脑”能力的“标准竞技场”。

这套组合拳,试图从根本上降低具身智能研究的门槛。

那 Dexbotic 能否真正成为具身智能的“标准工具箱”?

可能这还需要时间验证。但是对于那些正在被“配置地狱”和“高昂成本”双重折磨的研究者来说—这个正在形成的完整生态,或许,真的值得一试!

10月23日晚 19:00,Dexmal 原力灵机创始团队成员汪天才将现身直播间,讲解开源一站式 VLA 工具箱 Dexbotic,欢迎大家扫描图中二维码预约观看、线上交流 :

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Dexbotic VLA 具身智能 开源工具箱 Embodied AI Open Source Robotics AI
相关文章