index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
当前智能驾驶技术发展面临路线分歧,VLA(Vision-Language-Action)和世界模型(World Model)是两大热门技术方向。VLA强调利用语言模型连接感知与执行,具备良好的可解释性和思维链推理能力,但面临语言模糊性和空间对齐的挑战。华为和蔚来则倾向于世界模型(WEWA和NWM),认为可以省去语言环节,直接通过感知与行动(WA)实现更高效的车控。尽管行业内对VLA的有效性存在争议,但消费者更关注实际体验,无论哪种技术路线,最终都需要用实践检验其效果。
🚗 **VLA技术路径:** VLA(Vision-Language-Action)的核心在于利用语言模型(L)作为“中台”,将感知(V)到的信息转化为自然语言,再由语言模型进行规划和决策,最终指导执行(A)。其优势在于可解释性强,并具备基于思维链(CoT)的推理能力,能更好地理解和处理复杂场景,如同人类的认知和理解能力。理想汽车的智驾系统便采用了类似VLA的思路,通过语音交互增强用户体验。
⚠️ **VLA的挑战与局限:** VLA技术路线也面临显著挑战。语言模型的模糊性可能导致车辆的感知与执行意图出现偏差,即“语言表述的模糊性与空间对齐问题”。例如,指令中的“少许”难以精确量化。华为方面就曾公开质疑VLA在空间感知能力上的不足,认为其可能对车辆在实际空间中的运动控制带来风险。
🌍 **世界模型(World Model)的兴起:** 华为的WEWA架构和蔚来的NWM(NIO World Model)代表了另一种技术方向——世界模型。该模型旨在构建一个能像人一样“看到现在,脑补未来”的系统,具备全景理解能力,并在想象维度理解物理规律。华为的WEWA通过云端AI扩散模型生成难例场景,进行高效训练;蔚来的NWM则能在短时间内推演多种可能轨迹,并根据输入生成长时序视频,强调直接通过感知与行动(WA)控制车辆,省去了语言环节。
🤔 **技术路线争议与消费者关注点:** 目前,智能驾驶领域对VLA技术路线的有效性仍存争议,一些专家和车企对其表示怀疑。然而,对于普通消费者而言,技术细节的优劣并非首要考量。用户更关心实际的驾驶体验。无论是基于VLA的理想AD Max还是基于世界模型的蔚来NOP+,都存在体验上的不足。最终,哪种技术路线更优,需要通过大量的实际道路测试和用户反馈来验证。
原创 马波 2025-09-04 19:37 上海
不看广告看疗效

智能驾驶发展路径走到了分歧岔口。从去年开始,VLA成为智驾行业高频提及的词汇,理想、小鹏、元戎启行等车企或供应商押注VLA技术路线,并相继拿出了量产和Demo产品。而另一边,蔚来基于“世界模型”量产了最新的 NOP+,华为则发布了基于WEWA架构的ADS 4,更加强调WA(World Model Action)模型。
华为智能驾驶解决方案产品线总裁李文广和华为车BU CEO靳玉志甚至公开强调华为不会走VLA的技术路线,并且质疑了L(Language Model)在智驾技术上的应用。于是我们看到的局面是,VLA、NWM、WEWA技术词汇一堆,它们之间到底有什么区别?哪种方案才是正解?大热的VLA,到底是什么最近大家应该看到很多基于VLA打造的智驾产品评测,其中一个易感知的功能就是“语音控车”,例如,你可以直接告诉车你的意图,左转、右转或者靠边停车等等。例如理想智驾把它包装成你的专属司机,你可以用语音控制车辆的行驶,屏幕上反馈的文字也直观地展示了车辆的行为,增强了交互性。但这并不是VLA最核心的能力,VLA并非语音控车的必要条件。早在2021年,小鹏就可以通过语音“使唤”辅助驾驶变道超车。同样的,你在桌面HMI上看到的车辆推理过程也并非VLA的核心卖点,而是厂商把这种因果推理做给你看,这也算是交互的一种。但语音输入和语言输出都并非VLA核心能力。元戎启行的周光也称:“语音控车只是VLA的基础能力,最难的是思维链(Chain of Thought, CoT)和长时序推理。这才是VLA真正的核心能力”。
同样的,识别车外的特殊交通识别指示牌呢?这是否是VLA独有的能力?答案也是否定的。那么,VLA的具体作用是什么,为什么还有这么多研发自动驾驶的人押注这条路线。VLA中的V指的是感知、A是执行,中间的L则是语言模型(Language Model),V负责感知环境、A负责动作执行,中间的L的作用类似于“中台”,将V的内容,也就是感知的内容转译成A执行的规划和决策。
L转译的内容是自然语言,例如它看到了前方有路口,能够将感知的内容以自然语言的方式表达出来,然后结合车辆的状态,做出行动规划和决策给到A。所以,VLA具有很好的可解释性。第二,正如周光所说,VLA具有基于思维链(COT) 的推理能力,它的好处是什么,这里引用理想自动驾驶研发负责人郎咸朋博士的话术更为直观:
“(VLA)真正发挥作用的是背后推理的长思维链。如果没有强大的L,再好的V和A都无法发挥出来。这跟人与动物的区别很相似。论视觉能力人比不过鹰,论行动速度比不过猎豹,但人之所以能够称霸地球,靠的是强大的认知和理解能力。而这个认知和理解能力就来自于人类特有的语言能力。”
但是VLA的弊端也比较明显,既然语言模型要将看到的内容转述为语言,且要将为做决策服务,那么就涉及到一个挑战——语言表述的模糊性与空间对齐问题。例如,车辆看到的和我们想让车辆执行的位置是否一致。这就像我们跟着教程学做菜,放盐少许,这里的少许到底是多少?华为李文广也发表过类似的质疑:“它(VLA)有一个很大的弱点,它对空间的感知能力不行,因为我们的车是要做具体动作的,要在空间里面运动,那它在这块的感知能力不行,就这样就导致你让它来做动作的话,其实我是觉得,这条路挺危险的”。
华为靳玉志也表示:“我们不会走向VLA的路径,我们更看重WA(World Action),省掉language这个环节,通过信息输入直接控车,而不是把各种各样的信息转成语言,通过语言大模型再来控制车。”
华为与蔚来站在了一起蔚来今年基于世界模型打造了最新的NOP+,已于几个月前全量推送给了用户。在智能驾驶上,蔚来采用的是世界模型(World Model),华为在今年上海车展前也发布了全新一代架构WEWA,其中WE指的是World Engine世界引擎,WA指的就是World Model Action。
蔚来与华为,在智驾战略上,倒是走在了一起。我们先看华为的WEWA,WE世界引擎的核心作用类似于云端的“虚拟驾校”,用AI扩散模型生成难例场景,例如鬼探头、前车急刹等等。华为认为,在现实世界去采集这类场景不现实,因为场景出现概率低,所以整体会很低效。用AI训练AI,密度是真实世界的 1000 倍,效果提升会更加明显。第二个作用是云端仿真,解决长尾数据不足的问题。第三个作用则是生成的数据回灌给车端 WA 模型,做持续训练与蒸馏,形成“数据-模型”闭环。WA则更好理解:感知现实世界,不经过语言层,直接输出车控轨迹,也可以将它称之为VA。蔚来在去年年中就发布了NWM,即NIO World Model蔚来世界模型。它的核心作用就是像人一样,看到现在,脑补未来。世界模型具备对信息的全景理解力,在想象的维度理解物理规律,并重建世界。它能够根据感知输入的信息,在100毫秒内,推演216种可能发生的轨迹、寻找最优路径;还能基于3秒钟视频的Prompt输入,生成120秒想象的视频。在NWM中,语言只是输入之一,例如你也可以通过语言“使唤”车辆,它也能展现出类司机Agent效果。目前来看,行业里对VLA技术路线还是存在争议的。不只是华为、蔚来派,在上个月的2025世界机器人大会上,宇树科技王兴兴也公开谈论了VLA,他称:“VLA相对还是一个傻瓜式的架构,自己对VLA模型抱有比较怀疑的态度”。拿体验说话看到这里,你应该对这些热门词的含义,有了个大致的了解。谁更先进、更强不需要我们评判,毕竟成千上万名从事AI、自动驾驶的专家都无法形成统一共识,我们作为“外行”岂能轻易下定论。但是这对消费者来说重要吗?其实根本不重要。目前基于世界模型的蔚来NOP+、基于VLA技术的理想AD Max,在体验上都有缺陷。我们只需要看表现,用实践检验真理。END
阅读原文
跳转微信打开