云启资本 10月29日 18:10
具身智能新视角:物理世界基础模型独立于语言模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

在具身智能热潮中,“把大模型塞进机器人”的路径受到质疑。自变量机器人创始人王潜认为,通用机器人并非语言模型的延伸,物理世界基础模型应独立于虚拟世界的语言和多模态模型。他强调物理世界的随机性,提出需要脱离静态数据的方法来构建物理世界基础模型,并认为具身智能天然适合端到端方法。通才模型和VLA模型是通用机器人模型的关键,而虚拟世界数据正趋于耗尽,真实世界数据将是AGI的核心要素。具身智能的革命性潜力将远超想象,推动生产力指数级增长。

🤖 **具身智能的范式转变:** 传统的“将大型语言模型(LLM)集成到机器人”的思路被认为存在根本性问题。自变量机器人创始人王潜提出,物理世界的基础模型应独立于虚拟世界的语言模型和多模态模型。这是因为物理世界的随机性和复杂性远超虚拟环境,需要专门的、脱离静态数据的方法来构建智能。

💡 **物理世界基础模型的必要性:** 物理世界的交互,特别是操作(Manipulation),充满了随机摩擦、可变形物体等不确定性,即使是细微的初始误差也会被放大。现有的语言模型和多模态模型在物理世界任务上的表现不佳,表明需要一个专门为物理世界设计的、能够处理其独特挑战的基础模型。

🔄 **端到端与通才模型的优势:** 具身智能天然适合端到端(end-to-end)的学习方法,因为物理接触的复杂性使得分层模型难以有效工作。同时,通才模型(generalist models)通过学习不同任务间的共同结构,能够掌握逻辑、常识和物理规律,从而实现更高效的学习和“涌现”现象,这是实现通用机器人的关键。

🌍 **真实世界数据的核心价值:** 随着虚拟世界数据的逐渐耗尽,真实世界数据的收集和利用变得愈发重要。与仿真数据相比,真实世界数据在某些方面更具成本效益和效率。自变量机器人通过自主收集数据进行训练,并结合强化学习和推理式学习,大幅提升了机器人的演示速度和成功率。

🚀 **具身智能的革命性未来:** 具身智能的出现将可能引发人类历史上最大的一次革命,彻底改变生产方式,实现指数级的生产力增长。通用机器人能够替代手工劳动,推动各领域以惊人的速度发展,并为实现通用人工智能(AGI)和超级人工智能(Super AI)奠定基础。

RoboX 2025-10-29 11:50 北京

具身智能 ≠ 把 Deepseek 塞进宇树

在具身智能热潮之中,「把大模型塞进机器人」似乎成为一部分人默认的技术路径。但在近日落幕的全球机器人领域顶尖学术会议 IROS 上,云启早期被投「自变量机器人」创始人王潜提出了不同的见解:通用机器人并非 语言模型的延伸,物理世界基础模型完全独立于虚拟世界中的语言模型、多模态模型。

本期「云启科技 π」和你一起了解这位处在具身领域前沿的一线创业者的新思考。

作者 / Robo小曹

本文转载自公众号“RoboX”

演讲场合:2025.10.20 — IROS美团机器人研究院学术年会

有很多人认为,具身智能是一个 AI 应用,就是「把 Deepseek 塞到宇树里」。但是王潜和自变量完全不认可这一观点。

在刚进入机器学习领域时,他就认为大方向是有问题的:神经网络看了一万只狗的静态图片后,才能识别狗。但人可能只要第一次看到狗,之后就都能认识狗。

尤其在做机器人之后,他认为必须要采用完全脱离静态数据的方法,因为物理世界有一个非常「糟糕」的特点,就是它的随机性非常大,这在虚拟世界中是不会有的。

比如在某些特殊的桌布上,用相同的角度和力度推十次杯子,十次可能都会停在不一样的地方。

自变量正在做的,是建设物理世界基础模型——它完全独立于虚拟世界中的语言模型、多模态模型。

“要在物理世界做机器人,CVComputer Vision的某些部分需要真正脱离静态数据的方法。”

为何必须脱离静态数据?

如今,机器人的 Locomotion 已经做得很好了,导航也进入到了收敛阶段,但是 Manipulation 才刚刚起步。

“因为 Manipulation 和物理世界的交互是最多的。我们在做 locomotion 的时候不会考虑踩歪了两厘米会怎么样,而且重力环境也是恒定的。”

王潜称,在物理世界的操作中,机器人会碰到大量的随机摩擦、可变形物体,即便是一瓶没盖紧的矿泉水,都可能因为这种微小细节引发漏水,导致失误发生。

“很多人会认为,我们以已有的语言模型、多模态模型作为 backbone ,再继续往前做就行了,但实际上这条路可能更加困难。今天哪怕是最出色的语言模型和多模态模型,在物理世界任务上表现仍然非常糟糕。”

他指出,如果要用其他模态来去描述运动模态,本质上是完全不可能的。比如炒菜的过程,应该用什么力度、向哪个方向颠锅,如何挥动勺子等等,要想用一个精确的方法去描述,显然不太现实。

“后来大家又想了很多做法,包括这两年的 IROS 上也有很多文章,例如用图像的方式来描述运动,但那样会存在大量遮挡。”

具身智能天然适用端到端

在方法论上,第一个出现的是端到端

王潜称,以前大家觉得这个方式似乎很简单,但后来大家发现没这么简单。其中很核心的一点,还是物理接触的复杂性断绝了分层模型的可能性

“如果 Reconstruction(三维重建)做得不太完美,有1%的错误,那可能在自动驾驶里完全没有影响,对 locomotion 的影响也非常小。但是在 Manipulation 中,它会快速累积和放大。”

他表示,尽管有人提出要尽可能的利用、复用已有的 VLM、语言模型等能力,但实际上从 AI 角度来看,还是应该创建一个以身体去体验、去收集数据,去增长智能的体系。而这些新的数据,也可以用于加深对语言、视觉的理解。

“由此看来,我们都不应再做分层的模型,因为具身智能是一个天然适合端到端方法的领域。”

通才模型

在两年前,人们还会觉得专用模型更好。他们认为在相同的预算下,如果只专注于一件事,那理所应当会达到最好的效果。

但随着语言模型大爆发,大家发现了通才模型的优势,去做多个任务,通常效果会比单一任务要好。这背后的原因在于,通才模型真正学会了不同任务之间的共同结构(common structure)。

“如果让它学习语言,它会掌握逻辑和常识;而如果在物理世界中构建具身模型,它就会学到物理规律。当模型掌握了这些东西后,我们才能看到今天在大模型上所经历的这些发展历程——从全量学习,到出现「上下文学习」(in context learning),也就是我们所说的「涌现」现象的最明显表现。”

王潜称,一旦模型学到了这些本质,之后在学习新事物时,所需的数据量都会大大减少。同时,它也能突破以往最困难的任务。至此,才能称它为通用人工智能,通过它才能实现通用机器人。

通用机器人模型,一定是VLA

有了通用模型和端到端之后,才有了叠加出了「基础模型」的概念。之所以需要基本模型,是因为物理世界的复杂性被极大程度地掩盖在多种模态之下。

Machine LearningDeep Learning,以及大模型之所以能起作用,是因为它们能够通过压缩来提取世界的结构和核心规律,但是语言过程的尺度,和物理过程的尺度,其实是不一样的。

所以,王潜再次重申,必须要彻底离开以前在虚拟世界中熟悉的那套方法,真正走到物理世界中去。

“为什么 VLA 那么火?因为一个真正意义上的通用机器人模型,它一定是VLA模型,同时它也应该是一个真正意义上的通才模型,和一个真正意义上的端到端模型。”

王潜表示,他希望基础模型除了控制机器人,还能够干一些别的事。

“我们希望它的输出里面,也可以包含语言,即和人对话的一个 VLM同时也希望它拥有 specialized intelligence ——比如给它一张图片,或是给它一个视频,就能够重建出一个三维的环境或者物体。同时它还可以是视频生成模型、世界模型,等等。所有这些能力,都能够集中在同一个系统里面。”

他认为,尽管现在大家围绕技术路线经常吵来吵去,但其实都是在走向统一,走向通用,走向基础模型。只是在统一的道路上,大家各自进行着尝试,而最终的方法论,就是一个物理世界的基础模型。

在自变量的开源模型 WALL-OSS 中,除了常规的控制机器人之外,也会包含长序列思维链、同时能够使用语言和 sub-task,将来甚至也会公开在世界模型上一些其他的 specialized intelligence 能力。

“至少在 Zero-Shot 的 CoT 的能力上,我们还是能够达到领先水平的。在单纯的Controlling 上,效果也是不落后于目前的 PI。”

虚拟世界数据即将耗尽

提到 Scaling Law,很多人都认为说,大力出奇迹,但在王潜看来,其实也未必。

很多人认为,我们在进行范式转移——从算法为中心转移到数据为中心。但「数据为中心」不光代表着「更多的数据」,而是指将大部分的 know-how、技巧和工作内容,从模型、算法转移到数据。

王潜称,在数据上能够做的事,远超在模型上能做的事特别是如今,大家正走向越来越统一的模型,走向人越来越少的干预。所以人们大部分的注意力,从模型转向了数据。

经常有人说似乎在机器人上没有看到 Scaling law那通常是因为数据做太差了如果数据效率比正常的数据效率差了一千倍,那Scaling law会彻底被淹没在噪声当中。

“单纯增加数据量、建数据工厂,单纯补规模,我觉得没有什么太大的意义。”

他表示,之所以 Simulation、 Sim2Real,在 Manipulation 上没有能够获得很好的成功,是因为其数据质量,和在现实世界中收集到的数据有 个数量级的差距。

“所以在这种情况下,反而真实世界数据,会是一个更便宜、更高效的做法——在相同的训练结果下,我们会发现通过仿真做出来的数据,反而更加贵,而且更加慢。这是我们在从传统 Robotics 的方法论,转移到基础模型方法论上时,应该非常重视的一个点。”

据王潜介绍,自变量的模型也是遵循这个方法论,由自己收集的数据来源为主,去训练模型,获得了比较好的效果。

“关于预训练和后训练两阶段的方法论,可以做到非常好的效果。比起收集数据阶段,自变量如今的机器人演示速度已经快了 2-3 倍,通过强化学习的方式,我们大幅度的提升了成功率。”

除了预训练和后训练外,自变量还希望模型能做到推理式学习,这本身就符合机器人的天然属性。

之前,行业都在进行统一的集中式训练、集中式推理,所以机器人不能像一个人类孩子一样,去进行体验式学习。

而现在,他认为虚拟世界的数据已经快被耗尽了——如果今年不耗尽的话,明年或者后年的上半年也会耗尽。

尽管也有人提出合成数据,但王潜觉得人类智能的本质,还是扎根在物理世界中,所以物理世界的数据一定会是 AGI 最核心的要素。

具身智能将远超想象

许多人都觉得,机器人的角色就是在工厂里替代工人,或者在家庭中替代保姆,但王潜觉得,具身智能远不止如此,它应该是人类有史以来可能是最大的一次革命。

王潜表示,通过四次工业革命,人类的生产效率、能源获取有了指数级的提升。但是直到现在,仍然没有任何一个产品,是不需要通过人的手工劳动就能做出来的。

“如果真能出现一个真正意义上的通用机器人,能够彻底替代人的手工劳动,那我相信一切的万事万物,都会以指数级的速度向前发展。有了具身智能后,我们所能够达到的状态,应该远远超过大家的一般想象。”

他认为,非常聪明的 AI 能够发明更聪明的 AI,然后后者再发明更高一层的 AI……所以有朝一日,人类会被彻底甩到后面。在这一奇点到来前,人们还需要依靠更多算力、更多数据和更多能源,用这些物理世界的资源推动AI发展。

“我们在物理世界中所制造的这种指数级爆炸的生产力增长,才是能够推进人类实现通用人工智能,实现超级人工智能,进入下一个时代最主要的推动力。”

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

具身智能 物理世界基础模型 语言模型 多模态模型 机器人 Embodied Intelligence Physical World Foundational Models Language Models Multimodal Models Robotics
相关文章