中关村在线新闻中心 10月09日 11:08
汽车产业正迈向物理AI新纪元
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本次云栖大会聚焦汽车产业的AI发展,作者认为汽车正处于数字AI向物理AI转型的关键节点。智能驾驶是下半场的核心,VLA(Vision-Language-Action)新一代AI架构打破了传统自动驾驶的局限,使其从功能驱动走向能力涌现。VLA通过融合视觉、语言和行动,赋予汽车更强的常识理解和零样本迁移能力,能够应对长尾场景和未训练过的物体。然而,智能驾驶的指数级投入与消费者购买意愿之间的剪刀差,以及高昂的研发成本,是当前汽车智能化面临的挑战。

🚗 汽车产业正站在数字AI与物理AI的交汇点上。文章将大模型的上半场定义为以互联网大数据预训练为代表的数字AI,而下半场则以机器人、世界模型等为代表的物理AI。汽车作为移动计算平台,是承载和驱动这一转型的关键载体,连接着数字智能与实体产业的融合。

🧠 智能驾驶是汽车智能化下半场的核心,VLA(Vision-Language-Action)新一代AI架构是关键突破。VLA超越了传统的基于规则或高精度地图的自动驾驶定义,通过“看懂”图像、“读懂”语言并直接驱动决策与行动,使自动驾驶从预设的“功能”进化为能够应对未知场景的“能力”。

💡 VLA架构赋予汽车“常识”与“能力涌现”。借助Vision-Language Model(VLM)的预训练,VLA模型能够利用互联网海量知识获得常识,并通过自动驾驶数据激活,处理长尾案例,实现零样本迁移。这使得汽车能够自主应对如道路施工避让、复杂交通标识识别、潮汐车道处理,甚至识别纸箱、小动物等未训练过的物体。

🗣️ “语言”能力是VLA架构理解世界的重要维度。VLA中的“L”(Language)并非简单的对话,而是代表了人类长时序的思考和逻辑推理能力。赋予机器语言能力,实际上是在扩展其理解世界的边界,这是认知能力获得的关键,但同时也伴随着巨大的研发成本。

💰 汽车智能化发展面临投入与收益的剪刀差。尽管消费者对中国车企创造的智能体验表示认可,但为实际智能功能买单的意愿尚未完全成熟。智能驾驶的指数级增长的资金资源投入,与当前消费者购买意愿之间的差距,是汽车产业“内卷”的重要原因。

2025-10-09 10:26:39  作者:狼叫兽如果说大模型的上半场是以互联网大数据预训练为代表的数字AI;而下半场,是以机器人、世界模型等为代表的物理AI。汽车可能正好处于两者之间的分水岭上。

在杭州云栖小镇的会场,今年云栖大会,无论是会场外的天气热度,和会场内的人群热度,都达到了一个相当高的程度。

每一个我遇见的新老朋友都会说,今年大家对AI的关注度明显提高了,讨论的问题也都非常的实际。

而我这次对大会的关注点,是汽车。因为这个产业,是观察AI未来发展脉络一个非常好的切入点。

在云栖大会的汽车峰会开场词里,有这样一段话:

1886年,卡尔本茨发明了第一辆汽车。人类突破了肌肉的限制。139年后的今天,我们正在突破认知(智能)的边界。汽车成为了移动的计算平台,驾驶成为了人机协作的艺术,速度由数据的流转效率重新定义物理,实现拥抱数字智能,数字智能融入实体产业,汽车恰好站在这个交汇点上,成为虚实融合的最佳载体。

我的理解是:如果说大模型的上半场是以互联网大数据预训练为代表的数字AI;而下半场,是以机器人、世界模型等为代表的物理AI。

汽车可能正好处于两者之间的分水岭上,承上启下。重要性如何形容都不为过。

不过,分量既然重,难度系数也高。

一方面,是面向汽车智能化,所需要的资金资源,都在指数级增长;另一方面,消费者虽然喜欢中国车企所创造的智能体验,但要真金白银买单,或许还不到火候。

汽车的“卷”字,大概也就从中而来。这是一个投入和收益的剪刀差时刻。

此情此景之下,汽车产业成员在思考什么?阿里云,作为一个云和AI的基础设施提供者,有什么解决之道?就特别值得探究。

一、当汽车学会"看"与"想"

智能驾驶,无疑是汽车智能化下半场最激昂的旋律。

因为无论将其推向L4、L5有多难,其不是选修课,而是决定一家车企生死的必修课,是不争的事实,这也是所有我这次云栖大会期间所访谈的汽车人士的共识。

而谈到智能驾驶,又必然谈到VLA。

云栖大会汽车峰会的圆桌讨论环节,元戎启行创始人兼CEO周光说了一句让人深思的话:"自动驾驶分级的定义太早了,是30年前的定义。当时定义L4就是基于高精度地图、基于SLAM的定义,有个地图能在里面跑就叫L4。"

这个观察切中要害。30年前,当美国汽车工程师学会(SAE)制定智能驾驶分级标准时,人工智能还处于"专家系统"时代。那时的工程师们想象的智能驾驶,是一台遵循预设规则的精密机器——如果看到红灯就停车,如果前方有障碍物就绕行,如果车道线向左弯就转动方向盘。

VLA的出现,改变了游戏规则。

VLA(Vision-Language-Action)是一种新一代AI架构,它不仅能“看懂”图像、“读懂”语言,还能基于理解直接驱动决策与动作,被视为大模型从“会说”走向“会做”的关键拐点。


理想汽车自动驾驶研发高级副总裁郎咸朋在圆桌上分享了一个生动的案例:"有用户发了个'十连绕'场景的视频——经过施工路段,隔一段就有井盖或路障,车辆绕来绕去都成功通过。用户第一天绕了不信,但第二天又试,还是能绕过去。"

他特别强调:"我们并没有定义'连续绕十次井盖'这个场景。这就是能力涌现,我们做的是能力而不是功能。"

所谓能力与功能的区别,我想就像音乐家与音乐盒的区别。音乐盒只能播放固定的曲目,每个音符都是预设的;而音乐家理解音乐的本质,可以即兴创作,可以根据现场氛围调整演奏。当自动驾驶从"功能定义"进化到"能力涌现",汽车就从机器进化成了某种新的存在。


广汽集团自动驾驶首席科学家周寅在圆桌讨论中,也从技术层面解释了VLA为什么如此特别:"VLA利用了VLM(Vision-Language Model)的预训练,利用互联网海量知识让模型具有常识(common sense)。然后通过自动驾驶数据唤醒激活,能够处理长尾案例,实现零样本迁移(zero-shot transfer)。"

他列举了几个具体的能力涌现案例:"道路施工自动避让、复杂交通标识识别、潮汐车道处理,以及对纸箱、小动物等未训练过的物体识别。"

郎咸朋进一步解释了VLA中"L"(Language)的深层含义:"它并不是大家想象的对话或文字。它背后是人类长时序的思考、逻辑推理能力的体现。有人问我,不会说话的人就没有思维能力吗?不是的,他们也会看书、看文字,这些都是人类知识高度浓缩和压缩的过程,表达了长时间思维能力。"

这个解释让我想起了维特根斯坦的名言:"语言的界限就是世界的界限。"当我们给机器赋予语言能力,我们实际上是在扩展它理解世界的边界。

但这种认知能力的获得是有代价的,是巨大的代价。


元戎启行CEO周光直言不讳地谈到了智驾成本结构的变化:"以前可能97%</strong

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

汽车AI 物理AI VLA 智能驾驶 大模型 自动驾驶 AI架构 能力涌现 常识 零样本迁移 汽车智能化 云栖大会
相关文章