深度财经头条 09月26日
谷歌DeepMind发布新AI模型,推动机器人通用人工智能发展
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

谷歌DeepMind近日更新了专为机器人设计的AI模型系列Gemini Robotics,推出了Gemini Robotics 1.5和Gemini Robotics-ER 1.5。新模型旨在让机器人能够感知、规划、思考、使用工具并采取行动,以解决复杂的多步骤任务,标志着通用人工智能(AGI)在物理世界中的重要进展。Gemini Robotics 1.5作为强大的视觉-语言-动作(VLA)模型,能将视觉信息和指令转化为运动指令,并具备跨机器人学习能力。Gemini Robotics-ER 1.5则是性能领先的视觉语言模型(VLM),擅长物理环境中的规划和决策,能理解自然语言并调用谷歌搜索等工具。这种“大脑”层面的AI模型研发,正成为机器人行业发展的关键趋势,预示着机器人将更智能、更通用地与物理世界互动。

🤖 **AI驱动的机器人新时代**:谷歌DeepMind推出的Gemini Robotics 1.5和Gemini Robotics-ER 1.5模型,旨在构建能够感知、规划、思考并采取行动的机器人,以解决复杂的多步骤任务,这是迈向物理世界通用人工智能(AGI)的重要一步。

🧠 **智能决策与执行的协同**:Gemini Robotics 1.5作为强大的视觉-语言-动作(VLA)模型,能将视觉信息和指令转化为精确的运动指令,并展示其思考过程,帮助机器人清晰评估任务。同时,它支持跨机器人学习,提高了机器人的泛用性和学习效率。

🌐 **强大的规划与交互能力**:Gemini Robotics-ER 1.5作为领先的视觉语言模型(VLM),具备先进的空间理解能力,擅长在物理环境中进行规划和逻辑决策。它能以自然语言交互,预测任务成功率,并原生调用谷歌搜索等工具,制定详细的多步骤计划。

💡 **“机器人大脑”的战略重心**:谷歌正通过提供强大的AI模型,效仿“机器人界的Android系统”,赋能不同机器人制造商。这种战略与英伟达的物理AI理念类似,核心在于AI模型作为机器人的“大脑”,使其能够理解现实世界并执行复杂操作。

🚀 **行业趋势与未来展望**:科技巨头和初创公司纷纷布局自研AI模型,以打通AGI之路。大模型被认为是破解传统机器人控制瓶颈、迈向通用具身智能的关键路径,预示着机器人行业将进入以AI能力为核心的淘汰赛。


《科创板日报》9月26日讯(编辑 宋子乔) 当地时间9月25日,谷歌DeepMind专为机器人打造的AI模型系列Gemini Robotics更新,其研发团队推出Gemini Robotics 1.5和Gemini Robotics-ER 1.5,它们协同工作,构成了机器人的“执行和决策系统”。

“我们正在推动物理代理(an era of physical agents)时代的到来——使机器人能够感知、计划、思考、使用工具并采取行动,以更好地解决复杂的多步骤任务,新模型是里程碑式成就,标志着我们在解决物理世界中的通用人工智能(AGI)问题上迈出了重要的一步。”DeepMind表示,新模型加持的机器人可以主动了解周围环境,以通用方式完成复杂的多步骤任务。

据介绍,Gemini Robotics 1.5是谷歌目前性能最强的视觉-语言-动作(VLA)模型,能够将视觉信息和指令转化为机器人执行任务的运动指令。该模型在采取行动之前会进行思考,并展示其思考过程,可帮助机器人更清晰地评估和完成复杂任务。另外,该模型能将从一个机器人学到的动作迁移到另一个机器人,即帮助机器人相互“学习”,从而无需针对每类机器人专门定制模型,可大大提高机器人的泛用性和学习能力;

Gemini Robotics-ER 1.5是谷歌性能最强的视觉语言模型(VLM),擅长在物理环境中进行规划和做出逻辑决策,拥有先进的空间理解能力,能够以自然语言进行交互,预估机器人的成功率和进度,并且能够原生调用谷歌搜索等工具、创建详细的多步骤计划来完成任务

具体操作上,机器人首先利用升级后的Gemini Robotics-ER 1.5模型理解其所处环境,并像人类一样使用谷歌搜索查找信息。随后,Gemini Robotics-ER 1.5会将搜索结果转化为自然语言指令,再交给Gemini Robotics 1.5模型,让机器人结合视觉和语言理解能力完成每一步操作。

该图展示了谷歌的具身推理模型Gemini Robotics-ER 1.5和视觉-语言-动作模型 Gemini Robotics 1.5如何在物理世界中执行复杂任务

谷歌近年来积极投身打造“机器人界的Android系统”。与早年自研机器人本体不同,谷歌现在希望通过提供强大的AI模型,让不同的机器人制造商采购,类似于安卓系统在手机行业的模式。据the verge报道,谷歌DeepMind机器人部门负责人卡罗琳娜•帕拉达(Carolina Parada)曾表示,其AI模型研发重点在于,使机器人能够在物理世界中采取行动之前“提前思考多个步骤”。

这种聚焦于AI模型的战略出发点与黄仁勋提出的物理AI理念类似。在机器人身上实现物理AI,可以理解为,机器人能够感知、理解现实世界,在此基础上与人进行交互并执行复杂的操作任务。

AI模型作为机器人的“脑子”,在此过程中至关重要。8月25日,英伟达推出新一代专为物理AI和机器人开发者设计的计算平台Jetson Thor。英伟达表示,这款全新的机器人计算机将成为科研与工业领域机器人系统的“大脑”。

《科创板日报》此前报道过,当前估值第一的机器人初创公司Figure自主研发了端到端机器人AI模型Helix,该模型可让机器人直接将视觉语言模型中捕获的丰富语义知识转化为动作;Dyna Robotics日前接受了英伟达等的投资,该公司目前正研发用于帮助机器人在现实场景中学习和提升能力的AI模型,其CEO Lindon Gao表示,Dyna不会为机器人编写任务指令,而是让它们通过从环境中获取的数据输入逐渐学习,“我们的最终目标是解锁物理AGI”……

这些科技巨头、明星初创公司的动作预示着机器人行业发展必然趋势——以自研AI模型打通AGI之路。

中金公司日前发布研报称,未来仅有少数具备全栈能力的机器人企业,有望进一步突破至“具身智能”层级。该机构认为机器人大模型是破解传统机器人控制瓶颈、迈向通用具身智能的关键路径。当前行业主要基于大语言模型、自动驾驶大模型及多模态大模型探索的发展方向,产业重心已转向“小脑+大脑”系统研发,而不同企业在研发与商业化路径上存在差异。只有极少部分具备全栈技术能力、资源整合优势与长期主义战略的企业,未来将通过收敛技术路径,最终定义“具身智能”的核心标准,进一步突破至“具身智能”层级。

华泰证券也表示,本轮具身智能热潮起于大模型的技术突破,大模型决定了人形机器人泛化能力的天花板,是现阶段商业化的核心壁垒之一。当前众多科技大厂入局赛道,如谷歌、OpenAl、Meta、英伟达等均在布局大脑,国内大厂虽然布局稍晚,但已有成型产品,如华为、百度、科大讯飞等,同时涌现出一批优秀初创公司,试图打造机器人“通用大脑”,以及Figure Al为代表的全球头部人形机器人创企开始自研基础大模型。这会加速行业进入淘汰赛,不具备一定AI能力的本体厂或被挤压生存空间。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

谷歌DeepMind Gemini Robotics AI模型 机器人 通用人工智能 AGI 具身智能 物理AI Google DeepMind Robotics AI Models Robots Artificial General Intelligence Embodied Intelligence Physical AI
相关文章