谷歌DeepMind发布新AI模型，推动机器人通用人工智能发展

《科创板日报》9月26日讯（编辑宋子乔） 当地时间9月25日，谷歌DeepMind专为机器人打造的AI模型系列Gemini Robotics更新，其研发团队推出Gemini Robotics 1.5和Gemini Robotics-ER 1.5，它们协同工作，构成了机器人的“执行和决策系统”。

“我们正在推动物理代理（an era of physical agents）时代的到来——使机器人能够感知、计划、思考、使用工具并采取行动，以更好地解决复杂的多步骤任务，新模型是里程碑式成就，标志着我们在解决物理世界中的通用人工智能（AGI）问题上迈出了重要的一步。”DeepMind表示，新模型加持的机器人可以主动了解周围环境，以通用方式完成复杂的多步骤任务。

据介绍，Gemini Robotics 1.5是谷歌目前性能最强的视觉-语言-动作(VLA)模型，能够将视觉信息和指令转化为机器人执行任务的运动指令。该模型在采取行动之前会进行思考，并展示其思考过程，可帮助机器人更清晰地评估和完成复杂任务。另外，该模型能将从一个机器人学到的动作迁移到另一个机器人，即帮助机器人相互“学习”，从而无需针对每类机器人专门定制模型，可大大提高机器人的泛用性和学习能力；

Gemini Robotics-ER 1.5是谷歌性能最强的视觉语言模型(VLM)，擅长在物理环境中进行规划和做出逻辑决策，拥有先进的空间理解能力，能够以自然语言进行交互，预估机器人的成功率和进度，并且能够原生调用谷歌搜索等工具、创建详细的多步骤计划来完成任务。

具体操作上，机器人首先利用升级后的Gemini Robotics-ER 1.5模型理解其所处环境，并像人类一样使用谷歌搜索查找信息。随后，Gemini Robotics-ER 1.5会将搜索结果转化为自然语言指令，再交给Gemini Robotics 1.5模型，让机器人结合视觉和语言理解能力完成每一步操作。

该图展示了谷歌的具身推理模型Gemini Robotics-ER 1.5和视觉-语言-动作模型 Gemini Robotics 1.5如何在物理世界中执行复杂任务

谷歌近年来积极投身打造“机器人界的Android系统”。与早年自研机器人本体不同，谷歌现在希望通过提供强大的AI模型，让不同的机器人制造商采购，类似于安卓系统在手机行业的模式。据the verge报道，谷歌DeepMind机器人部门负责人卡罗琳娜•帕拉达（Carolina Parada）曾表示，其AI模型研发重点在于，使机器人能够在物理世界中采取行动之前“提前思考多个步骤”。

这种聚焦于AI模型的战略出发点与黄仁勋提出的物理AI理念类似。在机器人身上实现物理AI，可以理解为，机器人能够感知、理解现实世界，在此基础上与人进行交互并执行复杂的操作任务。

AI模型作为机器人的“脑子”，在此过程中至关重要。8月25日，英伟达推出新一代专为物理AI和机器人开发者设计的计算平台Jetson Thor。英伟达表示，这款全新的机器人计算机将成为科研与工业领域机器人系统的“大脑”。

《科创板日报》此前报道过，当前估值第一的机器人初创公司Figure自主研发了端到端机器人AI模型Helix，该模型可让机器人直接将视觉语言模型中捕获的丰富语义知识转化为动作；Dyna Robotics日前接受了英伟达等的投资，该公司目前正研发用于帮助机器人在现实场景中学习和提升能力的AI模型，其CEO Lindon Gao表示，Dyna不会为机器人编写任务指令，而是让它们通过从环境中获取的数据输入逐渐学习，“我们的最终目标是解锁物理AGI”……

这些科技巨头、明星初创公司的动作预示着机器人行业发展必然趋势——以自研AI模型打通AGI之路。

中金公司日前发布研报称，未来仅有少数具备全栈能力的机器人企业，有望进一步突破至“具身智能”层级。该机构认为机器人大模型是破解传统机器人控制瓶颈、迈向通用具身智能的关键路径。当前行业主要基于大语言模型、自动驾驶大模型及多模态大模型探索的发展方向，产业重心已转向“小脑+大脑”系统研发，而不同企业在研发与商业化路径上存在差异。只有极少部分具备全栈技术能力、资源整合优势与长期主义战略的企业，未来将通过收敛技术路径，最终定义“具身智能”的核心标准，进一步突破至“具身智能”层级。

华泰证券也表示，本轮具身智能热潮起于大模型的技术突破，大模型决定了人形机器人泛化能力的天花板，是现阶段商业化的核心壁垒之一。当前众多科技大厂入局赛道，如谷歌、OpenAl、Meta、英伟达等均在布局大脑，国内大厂虽然布局稍晚，但已有成型产品，如华为、百度、科大讯飞等，同时涌现出一批优秀初创公司，试图打造机器人“通用大脑”，以及Figure Al为代表的全球头部人形机器人创企开始自研基础大模型。这会加速行业进入淘汰赛，不具备一定AI能力的本体厂或被挤压生存空间。

该图展示了谷歌的具身推理模型Gemini Robotics-ER 1.5和视觉-语言-动作模型 Gemini Robotics 1.5如何在物理世界中执行复杂任务

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签