index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
本文聚焦具身智能领域,探讨了开源模型在推动行业发展中的“加速效应”。文章详细介绍了“自变量机器人”发布的WALL-OSS开源具身模型,并与Physical Intelligence公司进行了对比。讨论涵盖了数据成本、评测难题、端到端架构、落地场景等关键问题,并对机器人模型发展进入“GPT-3时刻”的临界信号进行了预测,认为未来1-2年内有望实现,而通用家用机器人则需约5年时间。文章还分析了中美在机器人发展路径上的差异,强调了通用基础模型的重要性,并对商业化落地前景进行了展望。
🤖 **开源模型的加速效应与具身智能的未来**:文章指出,开源模式在大语言模型领域产生的“加速效应”有望在具身智能领域重现。随着“自变量机器人”发布WALL-OSS等开源具身模型,行业正朝着“百花齐放”的阶段迈进。这种开放共享的模式能够汇聚社区力量,加速技术迭代,降低研究门槛,为具身智能的广泛应用奠定基础。
📊 **数据挑战与泛化能力的提升**:具身智能模型在研发过程中面临的核心挑战之一是物理世界的长尾效应和鲁棒性问题。真实世界中无法预测的“corner case”以及微小物理扰动在长程任务中可能被放大导致失败。解决这一难题的关键在于构建能够理解物理常识、拥有物理直觉的模型,通过大规模、多样化、高质量的数据进行预训练,让机器人具备跨本体泛化能力,并从不同任务中学习通用物理结构,从而减少学习新任务所需的数据量。
🚀 **“GPT-3时刻”的临界信号与发展预测**:文章将机器人模型的发展类比于语言模型,认为目前人形机器人正处于“GPT-2的阶段”,即已验证规模化带来的能力提升,但尚未涌现出如GPT-3般的能力。通过积累数据、提升模型规模和基础设施建设,预计未来1-2年内有望达到“GPT-3时刻”,实现能力的显著飞跃。通用家用机器人则预计在5年内,在半结构化环境中实现部分家务功能,并在允许人机协作的情况下进入家庭。
🌐 **中美发展路径对比与通用模型的重要性**:文章对比了中美在机器人发展路径上的差异。美国倾向于自上而下、不计成本地追求接近AGI的超大模型,利用其在算力上的优势探索能力边界。中国则在拥有最大互联网生态和完善硬件产业链优势下,采取“上下结合、双轨并行”的策略,既考虑通用泛化场景,也迭代通用基础模型。文章强调,强大的通用基础模型是实现高效部署和垂直领域应用的前提,是通往AGI的必经之路。
🏠 **商业化落地与场景选择**:对于创业公司而言,兼顾商业化与研发的关键在于“仰望星空,脚踏实地”。策略是选择与通用场景接近、可泛化的场景进行初步落地,如公共服务、养老服务等,以迭代通用模型能力并获取宝贵数据反馈。文章认为,未来家用机器人通过降低硬件成本和提升模型能力,有望在功能上满足用户需求,形成巨大的市场销量,从而养活机器人公司,实现商业闭环。
硅谷101 2025-09-19 15:30 北京
进击机器人模型 GPT-3 时刻

开源之于大语言模型的“加速效应”,会在具身智能领域复现吗?9 月 8 日,云启早期被投项目、具身智能创新企业「自变量机器人」发布开源具身模型 WALL-OSS。其后一天,美国具身智能公司Physical Intelligence 也开源了具身模型。有分析认为,2025 年具身开源进入“百花齐放”阶段。近日,自变量机器人 CTO 王昊做客知名科技播客《硅谷101》,不仅详解了自变量此次开源具身模型的深入思考,也围绕数据成本、评测难题、端到端架构 、落地场景,以及“GPT-3 时刻”的临界信号等问题,和 Physical Intelligence 研究员柯丽一鸣(Kay Ke)展开深入讨论。本期「云启实干派」和你分享本期节目中来自王昊的精彩内容。
本文节选自公众号“硅谷101”
原标题:临近机器人GPT-3时刻,具身智能开源模型的加速演进
采访-泓君 图文-王梓沁、孙泽平 编辑-朱婕
行业突破与泛化能力泓君:你们认为整个 2025 年,机器人的模型领域最重要的突破是什么?王昊:今年有一个非常明显的现象,那就是在应用上呈现出了指数效应。这背后的驱动力,其实也是来源于通用机器人基础模型的发展和进步。在 2023 年以前,我们很多人会专注在单个任务上,把它做到极致;但现在我们有了统一的基础模型之后,就能够同时学习并执行成百上千种不同的任务,其实也就意味着:我们的优化目标变了,重心放在了提升整个模型在所有任务上的平均成功率。这也是指数效应发展的基础,我们现在可以开始去做复杂的长程任务(Long-Horizon Task,包含一系列连续步骤、需要机器人进行多步推理、规划并执行,最终才能完成的复杂任务),这是一个非常令人惊喜的现象。泓君:你们觉得机器人模型在研发过程中,泛化问题最难的环节是什么?比如是因为数据量比较小,还是算法的问题?王昊:难点之一是物理世界中长尾效应的鲁棒性(robustness的音译,指事物可以抵御外部应力和影响并维持原有状态的自身性质),比如因为环境、光照产生了一些视觉误差。虽然可以通过用更好的传感器、更强的算力、更好的生成模型帮你做数据合成、数据增强,来缓解这些长尾效应,但真正的难点就是,现实世界有太多种可能性了,我们没法预测到所有可能的corner case(边角案例)。所以这些情况就没法让机器去提前学习,比如机器人执行任务的时候,桌布上可能有个小的褶皱、杯子可能放置不稳、可能有一个透明物体反光刚好干扰了相机等等情况。人类可以凭直觉和丰富的经验去瞬间适应这些微小的物理变化,但由于算法非常依赖于数据驱动,AI大模型面临这些新的挑战时,不一定能做好。另一个难点就是在长程任务上,很多微小的物理扰动会造成的各种微小误差,它会像滚雪球一样被放大,尾部的误差到最后,可能就直接导致了任务的失败。所以我们要解决的就是,怎么让模型解决这些没法在数据里包含的各种 corner case,这个事的核心是要去构建一个能够理解物理常识、能够有物理直觉的模型基础,让模型能有空间的理解能力、推理能力。 所以这个问题的核心就是,我们要把机器人真实的数据、人类的视频数据等等都合在一起,让数据的规模更大、来源更丰富、质量更高、更多样,让机器人从这个学习过程中能够理解物理规律。但是这些和真实世界交互的高保真数据又是目前比较稀缺的,要得到这些数据并不意味着疯狂地在现实世界去采就行了,这件事情远比想象地更复杂,它不止是数据量的问题,还是数据工程、数据管线的问题,比如如何降低我们的数据采集成本。泓君:之前我看中国有机器人运动会,还有首届的机器人的展会,机器人有表现出很多的能力,比如说踢足球、赛跑,还有做一些具体的任务,怎么样去评判一个机器人,它的技术是好还是不好?从这些Demo上能看出来吗?王昊:我觉得是比较困难的。这也是我们具身领域大家感到的一个难点和一个痛点。很难有一个统一的评测标准,可以让大家没有那么高成本、且比较公平地去评测模型。最好的评测就是要到现实世界去评测,但是我们又很难搭建一个公平的决斗场,所以这个是比较困难的地方但我觉得还是有些办法可以去评测的。比如说我们有一批开源模型,大家可以在自己的机器人本体上,去看不同的模型在学习相同的任务的时候所需要的数据量,它所展现出来的泛化能力、推理能力,是可以去评测的。那另外对于不同的机器人的公司,那可能合理且公平的是:我们把它的机器人应用到具体的场景里面,去看不同模型的表现怎么样。因为在真实世界运用时,它所展现出来这种多样性、泛化性或者环境是非常随机的,所以它是最能体现你模型能力的。
数据挑战与硬件瓶颈泓君:以前我们在说,人成为一个领域的顶级的学者专家,有个 1 万小时定律。包括我观察我家宝宝学吃饭的过程也是,她在非常小的时候,拿着勺子把饭喂到嘴边都是喂不准的,但她每天练习这个事情就慢慢学会了。但为什么机器人要训练出这样的灵活度,就需要比人大得多的数据量?王昊:其实和人比的话,我觉得对机器人来讲还是太不公平,核心就是因为人其实有“预训练”的。整个生物界在大规模的进化过程中,有两个非常核心的点:一是在进化过程中,人积累了很多先前验证的东西,比如跟世界交互的认知,关于物理世界的应对的策略,这些其实都写到了基因里;另一方面,人其实在不停地进化自己的硬件,整个生物界都是这样,大家能不用“智能”解决的东西,就尽量用“硬件”解决,所以很多生物体都会进化出一些结构,比如说大肠杆菌,它就不用长眼睛,只要对有化学、温度敏感的一些感知,就可以去适应周围的环境。我们现在正在做事,就是帮助机器人做它的预训练模型,虽然看起来要覆盖人类进化的几亿年的时间,但其实也不太一样。第一是因为机器人是可以进行大规模复制的,不同机器人之间可以共享它们的经验,我们就可以快速构建机器人的预训练模型,让它能够具备对物理世界的感知、理解能力。当然这个过程也是让机器人越来越熟悉自己的身体,就像刚才 Kay 说的“跨本体泛化”,我们就是让不同的机器人(模型),适应不同的身体,并且让它能够互相感知到身体的不一样,这个很重要。其次在人的学习里面,所谓 1 万小时理论还是有很多不一样。人并不是一定时间内专门去学这一个任务,学完了再学下一个新任务。你开始教宝宝去做某件事情的时候,比如说拿一个东西,他可能精确度也不够、抓不准,所以就把这个东西扔到一边就不管了,去玩别的玩具、搭积木什么的。而过一个月之后你会发现,拿东西这个任务他在并没有花多少时间学习,但是他已经会了,这也体现了人在后天和环境交互过程中学习,其实也是一个多任务并行的学习。它可以从不同任务中学习到这种底层的、共同的物理结构,这种共同物理结构就会帮助它学习新任务时,减少它所需的数据量。所以现在我们训练机器人时也是这么做的,我们用尽可能多样的数据、覆盖各种能力的任务,去构建这个大的数据体系、构建机器人能力,它也许在学习新的任务的时候,需要的数据量就会大大减少。所以刚才说机器人需要百万小时数据,核心就是解决两个问题,第一是覆盖过去人类长时间进化这个预训练的过程,我们需要通过多样的数据,去帮助机器人构建这种基础能力。第二就是在学习新任务的时候,我们也要利用它在旧任务学习中,形成的这种通用能力,让他能够泛化到新能力上。所以在数据上、时间长度上不能完全类比人类,但我觉得这个学习历程和背后所反映的规律可能是一致的。
图片来源:自变量机器人-已开源的具身智能基础模型WALL-OSS泓君:那你们现在合成数据用的多吗?我知道业界很多都会用合成的数据,前几周谷歌发布了 Genie 3 世界模型,我听到了两派不同的观点:有一派认为的 Genie 3 对机器人有非常大的帮助,因为这种世界模型的数据是有用的,但是另一派就会觉得这个数据质量还是不够好。
图片来源:Google王昊:现在头部的机器人公司的数据量,因为有真实物理世界限制,大家可能都集中在几万到几十万这个范围内。但这个和训练像 GPT-4 这样级别的语言模型去比,数据量还是少很多。我们除了用最重要的现实世界真实数据、机器人上的数据,其实也会用一些其他方面的数据,但是每一类型的数据肯定都是有自己的问题的。 机器人的真实的数据是比较贵的,受限于机器人的硬件场地、操作员的收集速度等等因素,所以大家有了很多改进方法,不仅可以依靠真实机器人本体,也可以做一些低成本的本体,甚至不用做完整的本体,只有一些穿戴式的传感器设备,都是可以去采集的。其实我们也用了很多生成模型去做合成数据,但合成数据主要是缓解一些视觉和现实的分布差异问题,它很难去生成带有物理交互过程的数据,这种数据还是得来于现实世界的采集。 还有一类数据,就是人类的视频数据。这个规模非常非常大,多样性也很多,成本相对来讲也比较低,我们也帮很多公司在做这方面的探索。但要靠这些数据帮机器人做动作级的生成还是很困难的,现在具身模型从视频数据里学到的,还是在动作意图上,我们从人类的视频里,让模型学到了一些高级的语义理解、一些任务规划。但是这种规划是通过视频,而不是语言的方式机器去学习的。包括像 Genie 3,我觉得它是非常好的一个工作方式,它就是从互联网、从游戏环境里面得到了大量高质量的数据,所以通过视频生成的方式,可以做一些动作控制,是未来一个很好的方向。虽然这个环境相比于现实有些简化,但它仍然可以作为训练的环境,去帮你去做这种交互。 所以在数据上我们还有工作要做,我想每家公司在数据的投入占比可能都不太一样,这也取于整个公司的综合的实力,比如运营能力、硬件的水平,对数据的使用规划不一样,会让你的数据成本也不一样。中国和美国相比,可能硬件成本、人力成本是比较大的差异。就算在同一个地区,运营能力、数据过滤、清洗、任务生成分发、不同的场景里面的数据采集能力、场景的快速搭建以及恢复的能力,这都会影响数据成本。泓君:所以你们公司的数据成本类比于其他机器人公司,大概是在什么水平?王昊:这个很难在不同公司之间进行比较,因为大家对数据质量、多样性的要求可能不一样。但是对于我们公司来讲,数据肯定是在整个研发成本里占相当大的比例了。
图片来源:自变量机器人泓君:在今年的 9 月 8 日,你们 WALL-OSS 的开源模型是正好上线了,请你给大家简单地介绍一下,你们的这个开源模型是什么?以及它的行业特点是什么?王昊:我们是持续地发扬开源精神,也吸收了很多经验,所以是用了大概几万小时的真实世界的数据,训练了一个具身的基础模型。我们是在一个统一的框架下面,让它可以既可以去做思维链、也可以做动作的生成。我们基于已经训练好的基础的视觉语言模型去做扩展,让它具备比较强的视觉理解、空间推理、多语言的指令遵循能力,同时它的动作的生成精度也比较高。这是我们观察到的,目前具身的开源模型上还比较欠缺的一些能力,我们也希望这次开源能够对具身智能行业有比较好的补充,让大家可以更好地用我们的基础模型,去做一些长程任务、解决一些复杂任务。要解决这些长程任务,就需要更好的语言遵循、更好的空间以及因果的推理,也希望我们这种端到端的推理、规划加动作的执行模型,可以发挥作用,被社区用起来。泓君:所以你们模型主打的点是什么?我觉得行业里面做模型玩家们,方向都还挺不一样的,比如有些是专注在精细的操作上的,像谷歌就很擅长于折纸的这些动作,像 PI 是希望有更强的泛化能力。如果用一句话去总结你们的优势,你觉得你们在机器人领域最关注的点是什么?王昊:我们最关注的点是机器人的泛化和它的长程任务的解决能力。解决长程任务就意味着,它一定得有比较强的泛化能力,因为解决任何一个长序列的任务,它背后面临的都是变化的场景,这个任务可能遇到各种失败情况、各种没见过的操作对象,所以都需要它有很强的泛化。泓君:比如哪些长而复杂的问题?请举一个例子。
图片来源:自变量机器人-已开源的具身智能基础模型WALL-OSS王昊:其实我们在现实中把机器人用到任何一个场景,都是长而复杂的。比如我要完整地把一个餐桌收拾好,它就是一个长而复杂的任务,因为你要操作对象的种类很多:你可能有硬的东西的操作,比如说餐具;也有一些液体需要去操作,比如把食物残渣、流体倒到固定的地方;你还可能有很多不规则物体的处理,比如说垃圾、残留物;有很多柔性的东西需要去处理,比如说擦桌子,折叠毛巾等等;可能需要把不同的东西放在不同的位置、还要比较小心地去处理可能洒出来或者其他的情况。所以在收拾餐桌这个任务中,它执行起来并没有固定的顺序,说先做什么、后做什么,都是在一个长程任务里面,把各种子任务给穿插起来。人其实很难划分每个任务的边界是什么,这种任务就得靠模型端到端自主去决策、实时去规划,把整个任务完全做完的。泓君:那在你们实验室里面,评测机器人任务做得如何时,实际训练是什么样的场景?王昊:我们实际训练虽然也包含了其他的一些场景,但还是以家庭的场景为主,因为家庭场景其实基本上已经包含了具身智能需要解决的所有任务。像收拾整个餐桌、布置餐具、收拾整个卫生间、收拾房间,这些都是我们的训练任务,我们也实实在在地看到,机器人在处理这些长序列的闭环任务时,体现出来了操作能力、泛化能力的进步,这点确实让我们的信心大增。我们也希望能借助自变量的开源模型,让大家看到现在的基础模型,在解决长程任务这种泛化场景的时候所体现出来的能力。
模型架构与技术路径泓君:我注意到不管是PI还是自变量,都是在做开源模型,为什么大家想做开源?开源对整个生态的好处是什么?王昊:我一直都觉得开源是非常重要的事情,开源意味着我们可以站在巨人的肩膀上继续前进。我们可以基于已有成果做更多的改进,社区开发者的反馈也会帮助到开源的公司,开源公司可以从中吸取到经验,然后把这个技术路线思考得更加深入。一般的高校、或者一些小型的企业,他们可能没有能力去做基础模型,但是如果能够使用这些基础开源模型,他们就可以去做应用,把它用到各个方向,丰富整个生态,这也是一个非常重要的事情。AI 的研究我觉得跟大模型之前有很大不一样。过去,我们可以看到AI和大模型的研究是非常离散的,在真正形成一个社区之前,可能做研究的只有两、三个人,大家疯狂地研究一个算法,更多是以论文发表作为第一要务,目的是占据技术的主动权。但有了社区和整个开源体系之后,大家更在乎的是,怎么在一个工程化的体系下,把这个工程基础打好,让这个社区更加繁荣?个人是通过什么方式给社区做贡献?大家的荣誉反而来自于这样的事情。这样也就会促使开源模型的技术不停地发展。所以我觉得开源是一个非常好的事情,既可以从中学习到新的东西,也可以看到你的东西可能对别人帮助。泓君:大家觉得现在模型公司在判断一个模型好坏的核心因素是什么?现在大家不仅在拼各自采集的数据质量,同时在模型层可能有非常多不一样的技术路径,比如说是不是用高频控制的方式,是不是用 system 2+system 1 的两个 system 的架构?大家可以聊一下模型层上不同的技术路径,以及你们看好的方式?
图片来源:自变量机器人-开源具身智能基础模型WALL-OSS王昊:从自变量机器人公司的角度来讲,我们是非常相信,数据驱动的端到端的模型搭建的方式的,我们开源了 WALL-OSS 模型,也是基于这样架构去构建的。不管有多少模态、不管你是语言、视觉还是动作,它们都应该在同一个空间下被表征、被对齐,分层对它们来讲就是一个非常不利的因素,所以我们应该尽可能避免人类的分层带来信息的损失。但是从另外一方面来讲,你都端到端训练了,那模型可以做得很大,可以做到几百亿、千亿的矩阵模型,那真正要去使用的时候怎么办?不可能在端侧需要非常高频控制去部署这么大模型,所以在推理的时候,我们反倒觉得模型是可以分开的,可以把更慢的任务过程可以放在云端去处理,更快的任务过程放在物理端侧,再由梯度回传更新整个系统参数,这个过程是非常非常重要的。泓君:我们说其实两层架构的模型,它有一点点类似于人脑的大脑跟小脑,比如说有一层负责理解与规划,还有一层就是负责高频输出的控制,就像大脑去掌管认知跟决策,小脑去掌管运动控制。为什么你们不用这样的一个架构?王昊:我们是一种端到端的训练,很难在模型内部把某些参数完全分成 system 2,比如把某些系统分成快系统、直觉系统等,但是我们可以训出一个非常大的端到端模型,它可以具备非常强的具身通用能力,让具身的通用能力既包含理解推理,也包含动作生成。但你实际在部署的时候可以有很多方式,比如把擅长动作部分给蒸馏压缩出来,然后擅长语言推理、视觉推理的部分给它放在云端等等。利用类似的方式部署,在推理过程中做很多优化,但训练的时候它还是一个统一架构。
泓君:Kay 觉得现在整个机器人模型连 GPT-2 它的水平都不够,王昊你怎么看?王昊:我认为到 GPT-2 的水平了。用这个类比的话, GPT-1 基本上是一个概念验证,通过预训练加数据的方式,可以处理一些任务。但到 GPT-2 的时候,我们开始验证它规模化的力量,通过大幅的增加模型参数和训练数据,就可以展示出规模化带来的能力提升。可能我们规模再做得更大,就能到 GPT-3 的水平了,大家就能看到很多能力的涌现了,所以我会觉得现在就是在 GPT-2 的这个阶段。我们现在基本上已经知道:规模化是唯一的可靠路径了,所以我们要在这个阶段,疯狂地积累数据,提升模型规模,同时搭建支持具身智能的各种基础设施,所以说人形机器人目前是已经处于 GPT-2 的阶段是比较客观的。
图片来源:自变量机器人-已开源的具身智能基础模型WALL-OSS泓君:那你觉得机器人领域到定义的 GPT-3 时刻,大概还有多长的一段路要走?王昊:现在在谈我们在机器人领域的 GPT-2 到 GPT-3 ,从语言模型来讲,是有一个不一样的地方。当年在做语言模型时候,大家不知道这条路线是否真的可以走通,中间产生了很多分散式的探索又汇聚的过程。现在我们是明确的知道、而且看到了这种规模化带来的提升,所以对于我们来讲,路径和目标更加明确、更加唯一,所以我预测会在 1-2 年的时间,我们完全可以达到 GPT-3 的这个水平。泓君:要 1-2 年的时间还挺快的。我注意到在美国,我们聊起机器人的话,大家都是想做这种通用机器人,然后再朝一个超大规模的模型做,如果类比于自动驾驶的话,就是美国上来就想做的是 L4、L5 级的自动驾驶。但是我们看到中国的发展方向,我感觉还是有很多的小而精的创业路线,就好比中国企业在做自动驾驶的时候,首先想到的是能不能在一个园区、一个码头,把这个场景先落地了,做一个非常垂直的小而精的产业。怎么看机器人的这两种方式,以及在产业的发展上,最终结果会有什么不一样?哪条路径能跑出来?王昊:我觉得这个得结合中美各自的优势来看这个问题。确实美国的现在路径就是自上而下的不计成本的,他们会优先做一个接近于 AGI 的超大模型,有这个基础之后,再去想应该怎么去做。这也是因为美国在算力上的优势,最顶级的芯片、最大量的算力集群都在美国,所以路径更加倾向于用无限的算力,去探索能力的边界。但中国其实芯片上确实有一定的限制,所以这也倒逼了中国的企业,研究思考在有限的算力下如何实现更高的效率,但说中国企业现在在走小而精的技术路线,我倒不是很同意这一点。中国其实是拥有全球最大的互联网生态移动应用场景,这个场景优势以及中国在硬件领域拥有非常完善的产业链,这个是美国其实没法比的。其实国内有很多顶尖的研究机构和非常好的创业公司,都是非常深刻地去从第一性原理的角度去思考,非常深刻地去理解 Scaling law 这件事情,它其实是通往 AGI 的必经之路。我们坚信必须得有一个强大的、无所不能的基础模型,才有可能把这基础模型用到各种垂直领域,让它得到更加高效的部署,但这个过程不能反过来,必须得有大而通用的基础,才会有小而精的发展。在实现的路径上,其实国内更像是上下结合,双轨并行,一方面尽可能多的去考虑场景,尤其是考虑这种通用泛化的场景可能带给我们什么,同时又去迭代我们自己的通用基础模型的能力,才能更快地让机器人在现实世界获得更好的反馈,帮助大家实现商业闭环以及开始形成数据飞轮。
图片来源:自变量机器人泓君:所以你个人也是想做通用的模型的?王昊:对,我们一定会去做通用的模型,这个是很重要的。
商业化与落地前景泓君:我看大家在研究机器人的时候,都希望机器人能够帮大家做一些家务,比如说叠床单、叠衣服,把碗塞进洗碗机,大家觉得未来真的能有个这样的家用机器人帮我们做家务吗?你们觉得还需要多久才能拥有这样的通用型机器人?王昊:做家务看似简单,但我觉得可以作为一个完美的机器人的图灵测试了。因为这个过程包含了具身智能机器人领域所有的精细动作,比如切菜,要有精细的力道控制;一些易碎东西处理时,要有非常丰富的感知;也有一些长程规划,比如得看菜谱去做菜、看说明书去使用某个电器、以及各种意外情况的处理等等,基本上已经包含了机器人的所有挑战。要完全实现到这个程度,还是得分步走。我觉得在两、三年以内,我们可以在半结构化的环境里面,让机器人做一些简单的事,比如仅限于厨房内,帮你做一些简单的菜、洗碗等等,这些我觉得还行,但说如果要在完全开放的厨房里面、所有的事情能做到,我觉得还需要五年左右的时间。泓君:五年左右,实现机器人在厨房里面做饭、洗碗?王昊:对,我觉得是有可能去实现的。但那时还是有很多情况需要大家容忍,比如虽然机器人在各种任务上的成功率都比较高了,但也并不是 100%,还是存在失误的可能,所以如果我们允许机器人可以和人协作、获得人类的帮助,我觉得 5 年是可以进入到家庭里面的。我现在是比较乐观的,因为我觉得机器人领域的发展走在正确的道路上,有了 Scaling law 这样快速发展的规律,这在整个人类的历史演进中,我都觉得很幸运的事情,因为有一条看起来很明确路径,可以告诉我们怎么做:你只要投入算力和数据、迭代模型的架构、提升机器的能力,那就能肉眼可见地看到机器人的提升。所以虽然现在有很多问题,让我们觉得很困难,但放在 5 年后再去看,都是可以被解决的,而且模型一定可以跨越到一个阈值、进入到新的阶段,所以我预测5年这个时间是非常合理的。另外关于 5 年这个时间点,其实也需要审慎一点,因为机器人不像纯软件那样可以轻资产快速迭代,机器人还是受限于物理世界的物理定律,硬件得发展,还要全方位突破数据、算法、供应链、商业模式等等因素,才有可能真正做到那个地步。泓君:我有个问题很好奇,有的机器人公司是以“产业化”为目标的,想要做一些商业化应用的东西,这些公司该如何兼顾商业化与研发?王昊:我觉得这个问题挺好的。因为作为创业公司,从第一天我们就在思考,怎么做既能仰望星空,也能脚踏实地?由于现实的因素,不可能达到 AGI 再去思考商业化,我们现在的策略就是,尽可能在我们通用模型的基础上,让它进入一些场景里做一些事情,这个场景必须和最终想实现的通用场景是比较接近的、它是可以去泛化的,所以我们尽可能的不去碰那些比较封闭的场景。像一些公共服务、养老服务的场景就非常好,这样场景和通用机器人的最终应用场景有一些类似的地方,能涉及一些复杂的任务,比如和人的接触,也涉及到没有那么复杂的,比如只是打扫卫生、拿东西、处理食材等等。从这个角度来看,这些就是好的场景,因为和最终的目标接近,你可以在这些场景里,不断地迭代、检验通用模型的能力,也可以获得非常宝贵的数据反馈。但要保持这个选择初心,很重要的一点是:得有很强的商业化路径的定力。另外一个比较重要的点,是公司的组织能力。因为一个公司的组织能力、组织结构,决定了这个公司的上限,我觉得公司一定要以通用模型、以基础模型作为目标,达到一个完全没有壁垒、高效协同的一个组织,才可能促使你在中间迈出的每一步都不会走错,最终能使你达到终极目标。泓君:所以你是比较注重训练的场景是否能有商业化应用的,而不是一个在封闭化场景里面就能实现的一个需求。刚刚说的家用机器人帮我们做饭、洗衣、叠被子,这样的使用场景能不能让机器人有足够销量,去养活一个机器人公司?王昊:我觉得是很有希望的。因为现在整个机器人的产业的规模还没有起来,所以等规模起来后,硬件成本还有非常大的降低空间。随着模型水平的提升、加上硬件成本降低,几年后的价格,会让用户的接受度更高。其次从这个功能角度来讲,如果我们可以帮普通用户去做很多事,大家会非常乐意接受这样的产品。现在大家难以接受机器人,是因为机器人似乎只能跳跳舞、做一些情绪价值的陪伴,好像没有其他功能,以前机器人没机会向普通用户展示各种应用,但未来我觉得是有很多展示机会的,这个想象的空间是很大的。


阅读原文
跳转微信打开