智能驾驶技术路线分歧：VLA与世界模型的探索

原创马波 2025-09-04 19:37 上海

不看广告看疗效

智能驾驶发展路径走到了分歧岔口。

从去年开始，VLA成为智驾行业高频提及的词汇，理想、小鹏、元戎启行等车企或供应商押注VLA技术路线，并相继拿出了量产和Demo产品。

而另一边，蔚来基于“世界模型”量产了最新的 NOP+，华为则发布了基于WEWA架构的ADS 4，更加强调WA（World Model Action）模型。

华为智能驾驶解决方案产品线总裁李文广和华为车BU CEO靳玉志甚至公开强调华为不会走VLA的技术路线，并且质疑了L（Language Model）在智驾技术上的应用。

于是我们看到的局面是，VLA、NWM、WEWA技术词汇一堆，它们之间到底有什么区别？哪种方案才是正解？

大热的VLA，到底是什么

最近大家应该看到很多基于VLA打造的智驾产品评测，其中一个易感知的功能就是“语音控车”，例如，你可以直接告诉车你的意图，左转、右转或者靠边停车等等。

例如理想智驾把它包装成你的专属司机，你可以用语音控制车辆的行驶，屏幕上反馈的文字也直观地展示了车辆的行为，增强了交互性。

但这并不是VLA最核心的能力，VLA并非语音控车的必要条件。

早在2021年，小鹏就可以通过语音“使唤”辅助驾驶变道超车。

同样的，你在桌面HMI上看到的车辆推理过程也并非VLA的核心卖点，而是厂商把这种因果推理做给你看，这也算是交互的一种。

但语音输入和语言输出都并非VLA核心能力。

元戎启行的周光也称：“语音控车只是VLA的基础能力，最难的是思维链（Chain of Thought, CoT）和长时序推理。这才是VLA真正的核心能力”。

同样的，识别车外的特殊交通识别指示牌呢？这是否是VLA独有的能力？答案也是否定的。

那么，VLA的具体作用是什么，为什么还有这么多研发自动驾驶的人押注这条路线。

VLA中的V指的是感知、A是执行，中间的L则是语言模型（Language Model），V负责感知环境、A负责动作执行，中间的L的作用类似于“中台”，将V的内容，也就是感知的内容转译成A执行的规划和决策。

L转译的内容是自然语言，例如它看到了前方有路口，能够将感知的内容以自然语言的方式表达出来，然后结合车辆的状态，做出行动规划和决策给到A。

所以，VLA具有很好的可解释性。

第二，正如周光所说，VLA具有基于思维链（COT）的推理能力，它的好处是什么，这里引用理想自动驾驶研发负责人郎咸朋博士的话术更为直观：

“（VLA）真正发挥作用的是背后推理的长思维链。如果没有强大的L，再好的V和A都无法发挥出来。这跟人与动物的区别很相似。论视觉能力人比不过鹰，论行动速度比不过猎豹，但人之所以能够称霸地球，靠的是强大的认知和理解能力。而这个认知和理解能力就来自于人类特有的语言能力。”

但是VLA的弊端也比较明显，既然语言模型要将看到的内容转述为语言，且要将为做决策服务，那么就涉及到一个挑战——语言表述的模糊性与空间对齐问题。

例如，车辆看到的和我们想让车辆执行的位置是否一致。这就像我们跟着教程学做菜，放盐少许，这里的少许到底是多少？

华为李文广也发表过类似的质疑：“它（VLA）有一个很大的弱点，它对空间的感知能力不行，因为我们的车是要做具体动作的，要在空间里面运动，那它在这块的感知能力不行，就这样就导致你让它来做动作的话，其实我是觉得，这条路挺危险的”。

华为靳玉志也表示：“我们不会走向VLA的路径，我们更看重WA（World Action），省掉language这个环节，通过信息输入直接控车，而不是把各种各样的信息转成语言，通过语言大模型再来控制车。”

华为与蔚来站在了一起

蔚来今年基于世界模型打造了最新的NOP+，已于几个月前全量推送给了用户。

在智能驾驶上，蔚来采用的是世界模型（World Model），华为在今年上海车展前也发布了全新一代架构WEWA，其中WE指的是World Engine世界引擎，WA指的就是World Model Action。

蔚来与华为，在智驾战略上，倒是走在了一起。

我们先看华为的WEWA，WE世界引擎的核心作用类似于云端的“虚拟驾校”，用AI扩散模型生成难例场景，例如鬼探头、前车急刹等等。

华为认为，在现实世界去采集这类场景不现实，因为场景出现概率低，所以整体会很低效。

用AI训练AI，密度是真实世界的 1000 倍，效果提升会更加明显。

第二个作用是云端仿真，解决长尾数据不足的问题。第三个作用则是生成的数据回灌给车端 WA 模型，做持续训练与蒸馏，形成“数据-模型”闭环。

WA则更好理解：感知现实世界，不经过语言层，直接输出车控轨迹，也可以将它称之为VA。

蔚来在去年年中就发布了NWM，即NIO World Model蔚来世界模型。它的核心作用就是像人一样，看到现在，脑补未来。

世界模型具备对信息的全景理解力，在想象的维度理解物理规律，并重建世界。

它能够根据感知输入的信息，在100毫秒内，推演216种可能发生的轨迹、寻找最优路径；还能基于3秒钟视频的Prompt输入，生成120秒想象的视频。

在NWM中，语言只是输入之一，例如你也可以通过语言“使唤”车辆，它也能展现出类司机Agent效果。

目前来看，行业里对VLA技术路线还是存在争议的。

不只是华为、蔚来派，在上个月的2025世界机器人大会上，宇树科技王兴兴也公开谈论了VLA，他称：“VLA相对还是一个傻瓜式的架构，自己对VLA模型抱有比较怀疑的态度”。

拿体验说话

看到这里，你应该对这些热门词的含义，有了个大致的了解。

谁更先进、更强不需要我们评判，毕竟成千上万名从事AI、自动驾驶的专家都无法形成统一共识，我们作为“外行”岂能轻易下定论。

但是这对消费者来说重要吗？其实根本不重要。目前基于世界模型的蔚来NOP+、基于VLA技术的理想AD Max，在体验上都有缺陷。

我们只需要看表现，用实践检验真理。

END

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签