机器之心 09月07日
Robix:字节跳动发布的机器人一体化“大脑”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

字节跳动 Seed 团队发布了最新的机器人研究成果 Robix,这是一个整合了思考、规划与灵活交互能力的一体化机器人大脑。Robix 摒弃了传统的模块化设计,将推理、任务规划与人机交互无缝集成到单个端到端多模态模型中。它能够理解模糊指令,处理实时反馈,并进行动态推理决策。Robix 采用层次化架构,高阶认知层负责复杂任务的决策,低阶控制层负责原子命令的执行。通过持续预训练增强具身推理能力,Robix 在空间理解、视觉定位、任务推理以及复杂交互方面表现出色,为通用机器人智能的发展奠定了基础。

🤖 **一体化架构实现高效交互:** Robix 突破了传统机器人系统中“模块化”拼接的设计僵局,将推理、任务规划和人机交互无缝整合到一个端到端的多模态模型中。这种一体化设计使其能够更流畅、更自然地处理复杂任务和指令,例如在做饭时不仅能准备食材,还能主动发现缺失并询问,展现了超越指令执行器的“思考”能力。

🧠 **高阶认知与低阶执行的分工:** Robix 采用了层次化机器人系统架构,将“大脑”(高阶认知层)与“小脑”(低阶控制层)解耦。高阶认知层负责理解人类指令、多模态推理和制定适应性任务规划,而低阶控制层则忠实执行原子命令。这种分工确保了机器人既能在宏观层面灵活互动,又能在微观层面精准执行动作。

💡 **增强具身推理与交互能力:** 针对现有模型在具身推理和灵活交互方面的瓶颈,Robix 采用了统一视觉语言模型架构,并通过持续预训练增强了对物理世界的理解。它能够处理模糊指令、实时响应中断并进行动态重规划,还能结合上下文和常识进行推理,从而在真实环境中展现出更高的通用性和稳定性。

🛠️ **严谨创新的三阶段训练策略:** Robix 的成功得益于其“养成三部曲”:首先,通过海量数据预训练打好物理世界的基础,强化 3D 空间理解、视觉定位和任务推理;其次,通过“交互合成”流水线进行情景模拟,让模型学会应对各种复杂人机交互场景;最后,利用强化学习纠正“思想与行动的偏差”,确保思考逻辑严谨和行动可靠。

📈 **卓越的评估表现:** Robix 在多项离线基准测试和真实世界在线评估中均表现出色。在 3D 空间理解、视觉定位、具身任务推理、长程任务规划和跨领域泛化等方面,Robix 多次超越业界领先模型。在真实机器人系统上的测试显示,其任务完成率高达 92.6%,显著优于其他模型,证明了其在通用机器人“大脑”领域的潜力。

2025-09-07 13:11 北京

一个旨在提升机器人思考、规划与灵活交互能力的「机器人大脑」。

近日,字节跳动 Seed 团队发布了最新的机器人研究成果——Robix,一个旨在提升机器人思考、规划与灵活交互能力的「机器人大脑」。

长期以来,通用机器人在处理复杂、长程任务时,往往因依赖 “模块化” 拼接的设计而显得僵化。Robix 的核心亮点在于其一体化架构:将推理、任务规划与人机交互无缝整合到单个端到端多模态模型中。

根据报告与演示视频,搭载 Robix 的机器人已展现出一系列过去难以实现的复杂交互能力:

……

以下演示视频将直观展示 Robix 在真实互动场景中的工作方式。

核心思想:

从「指令执行器」到「统一思考者」

在将 AI 从数字世界带入物理现实的过程中,研究者们面临着巨大的挑战。一个真正的通用机器人,需要的远不止是执行「拿起杯子」这样的孤立指令。它必须在开放、动态的环境中,应对一系列复杂难题:

为此,Robix 采用了层次化机器人系统 (Hierarchical Robot System) 架构,将「大脑」与「小脑」解耦,实现「宏观思考,微观执行」:

通过这种分工,机器人系统既能在高层次上灵活地与环境和人类互动,又能在低层次上保证动作的精准执行,从而在真实场景中展现接近人类的适应性。

Robix 是一个统一的视觉语言模型,充当机器人系统的「大脑」。它能够接收来自摄像头的第一视角信息和用户的自然语言指令,通过推理思考,生成既能与人沟通的自然回复,也能驱动机器人执行的原子级动作指令。

Robix 技术报告指出,现有多模态模型在迈向通用机器人「大脑」的过程中仍面临两大瓶颈:一是具身推理能力不足,难以将语言和视觉中的抽象概念(如空间关系、物体属性)准确映射到物理世界并应用于推理与规划;二是灵活交互能力缺失,无法在端到端框架中将推理、规划与自然语言交互无缝结合。这些局限严重制约了多模态模型在真实环境中支撑通用机器人智能的潜力。

为此,Robix 采用统一视觉语言模型架构,通过持续预训练增强具身推理能力,并在内部原生整合推理、任务规划与人机交互三大核心功能,从而在端到端流程中实现连贯的复杂指令理解、长程任务规划与自然对话交流,有效提升机器人系统的通用性和稳定性。在此基础上,Robix 进一步展现出更强的交互智能:不仅能够在指令模糊或多解时主动发起澄清,还能在任务执行过程中实时响应中断并进行动态重规划,同时结合上下文与常识进行推理与决策,从而展现出超越以往模块化系统的灵活性与智能性。

现场实测:

Robix 具备基础世界知识,工作交流两不误

技术报告中的概念可能有些抽象,但通过演示视频里揭秘机器人行动前的「内心戏」,我们可以清晰地看到 Robix 是如何工作的。

1.  不仅听懂「话」,更能领会「意」(常识推理)

在演示中,当用户提出要做一道「鱼香肉丝」时,Robix 的表现远超一个搜索引擎。

演示视频截图 03:24

演示视频截图 03:36

演示视频截图 03:44

2. 随时变通,从容应对「我改主意了」 (实时打断)

真实的人机交互充满了不确定性。在清理桌面的任务中,用户多次打断了 Robix 的操作。

当 Robix 正要将一罐可乐放入收纳盒时,用户突然说:「等等,我讨厌喝可乐,你把它扔了吧。」

Robix 立刻理解了这条与原计划完全不同的新指令,中止了「放入收纳盒」的动作,转而执行「扔进垃圾桶」。这种无缝的计划切换能力,是机器人在家庭环境中服务的关键。

演示视频截图 00:49

3. 从「被动响应」到「主动交互」(主动对话)

除了响应用户的指令,Robix 还能主动对话。

在清理任务的结尾,Robix 观察到桌子上只剩下一串葡萄。它没有被动等待新指令,而是主动进行任务总结并发起对话,询问用户:「桌子上就剩下这些葡萄了,要不要帮你打包?」,以此来确认下一步的行动。

演示视频截图 01:15

4. 「眼观六路」,理解真实的三维空间 (空间理解)

Robix 对空间的理解不是平面的,而是立体的。当面对一桌琳琅满目的物品时,用户提出了一个非常考验空间感的问题:「离你较远的这一排,从左往右数的第三个是什么物体?」

Robix 清晰地推理出桌上有远近两排物体,并准确地在远排从左到右定位到第三个物体,回答出:「这是一瓶矿泉水」。这背后是其训练数据中包含的大量多视角对应、深度估计、空间关系等 3D 空间理解任务的支撑。

演示视频截图 02:47

5. 不止是「工具人」,还能成为「聊天搭子」(通用交互)

除了完成任务,Robix 还展现了广泛的通用交互能力。

演示视频截图 02:30

揭秘背后:

Robix 的「养成三部曲」

如此流畅智能的表现,背后是一套严谨而创新的三阶段训练策略。

第一步:打好基础 —— 学习物理世界的规则

为了让模型具备机器人的「物理直觉」,构建对物理世界的基本认知,研究团队在通用视觉语言模型(Qwen2.5-VL)的基础上,用约 2000 亿 token 的海量数据进行「补课」,重点强化三大机器人核心能力:

Robix 通过在海量数据上持续预训练构建对物理世界的基本认知

第二步:学会互动 —— 情景模拟中的「社交演练」

真实世界中复杂的人机交互数据非常稀缺。为此,团队设计了一套创新的「交互合成」流水线,将现有的机器人操作数据转化为包含七种复杂人机交互场景的数据集,包括:多阶段指令、约束指令、开放式指令、随时打断、无效 / 非法指令、模糊指令和人机闲聊。这相当于让 Robix 在模拟环境中经历了各种「极限拉扯」,学会了如何灵活应对。

Robix 训练数据构造「流水线」,涵盖了多种复杂的人机交互场景

第三步:自我完善 —— 纠正「思想与行动的偏差」

SFT 之后的模型有时仍会犯一些逻辑错误,比如「想法与行动不一致」(心里想着扔纸巾,手上却要去拿杯子)。为了解决这个问题,团队引入了强化学习,设计了一个特殊的「思想 - 行动一致性」奖励函数 ,这个机制就像一位严格的导师,不断纠正 Robix 的逻辑偏差,让 Robix 的思考逻辑更严谨,行动更可靠。

评估结果:

Robix 在具身推理、任务规划与人机交互方面表现出色

研究团队通过一系列离线基准和在线真实任务测试,对 Robix 进行了全面的评估。

1. 基础感知与推理能力评估

在 31 个公开基准测试中,预训练后的 Robix-Base 模型在 3D 空间理解、视觉定位和任务推理等具身推理能力上表现出明显提升。

Robix 展现出比较强的具身推理和多模态理解能力

2. 离线交互任务评估

为系统评估模型的长程任务规划和任务泛化能力,研究团队构建了三个离线评估集:AGIBot OOD(Out-of-Distribution)、Internal OOD 和 Internal ID(In-Distribution)。它们涵盖整理桌面、超市购物、制作三明治、洗衣服等二十余种日常任务类型,同时包含多阶段任务、约束性指令、交互式中断等多类指令形式,用于全面测试模型在复杂环境下的推理、规划与交互表现。

在离线交互数据测试中,Robix 展示了优异的复杂指令理解、任务规划和 OOD 泛化能力

3. 真实世界在线评估

研究团队进一步将 Robix 部署到真实机器人系统(字节跳动 Seed 自研 ByteMini 双臂机器人)上,并在厨房、超市等贴近日常生活的场景中设置了五项在线评测任务:

Robix + UMI 测试结果

在由人类标注员通过 UMI 设备充当低层控制器的测试中,Robix-32B 的平均任务完成率达到 92.6%,略高于 Gemini-2.5-Pro 的 91.0%,并显著优于 GPT-4o (64.3%) 和 Qwen2.5-VL-32B (28.0%)。

Robix + GR-3 联合评测结果

在与 Seed 自研的 VLA 模型 GR-3 结合进行端到端测试时,Robix-32B 的平均任务完成率达到 92.5%,同样优于 Gemini-2.5-Pro (88.2%) 和 GPT-4o (64.4%)。

研究人员进一步分析发现,基线模型性能下降的一个重要原因在于 VLM–VLA 的「指令对齐」问题。具体而言,高阶 VLM 生成的文本指令在语义上正确,但低阶 VLA 模型无法识别。例如,VLA 可以识别「奥利奥」,却无法理解「饼干盒」。此外,响应延迟也是大型商业模型在真实场景中面临的实际挑战,其响应时间有时超过 30 秒,难以满足实时交互需求。

总结与展望

Robix 的研究为通向更通用、更智能的具身智能体提供了一条可行路径。通过将推理、规划与交互融为一体,它使机器人更接近「善解人意」的智能伙伴。

当然,通往通用机器人的道路仍然漫长。研究团队也坦言,Robix 在高度动态场景中依旧存在局限,且亟需更强大的长期记忆机制。但可以肯定的是,Robix 已经为这一目标奠定了坚实基础。我们有理由相信,在不远的将来,一个既能高效完成任务、又能自然交流的智能机器人,将真正走入人类生活。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Robix 机器人大脑 具身智能 AI 人工智能 字节跳动 Robot Brain Embodied AI ByteDance
相关文章