理想 TOP2 09月11日
理想自研芯片:VLA架构与软硬件协同
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

理想汽车自研芯片采用VLA架构,注重数据流与软硬件协同设计,预计2026年上车。该芯片在运行大语言模型和视觉模型时,性能优于市场顶尖芯片。理想VLA架构的具体搭建思路可能在2024年下半年形成。NPU芯片专注于神经网络计算,集成大量MAC单元,采用数据流架构提升效率。TPU是谷歌为机器学习定制的芯片,其脉动阵列架构能极大减少内存访问次数。理想自研芯片的最大优势在于软硬件协同设计,通过垂直整合芯片、编译器、运行时系统和操作系统,深度优化VLA架构,最大化性能。理想星环OS操作系统的开源部分基于DeepSeek感召。

🚀 理想自研芯片采用VLA架构,注重数据流与软硬件协同设计,预计2026年上车。该芯片在运行大语言模型和视觉模型时,性能优于市场顶尖芯片。

🧠 理想VLA架构的具体搭建思路可能在2024年下半年形成。NPU芯片专注于神经网络计算,集成大量MAC单元,采用数据流架构提升效率。

🌐 TPU是谷歌为机器学习定制的芯片,其脉动阵列架构能极大减少内存访问次数。理想自研芯片的最大优势在于软硬件协同设计,通过垂直整合芯片、编译器、运行时系统和操作系统,深度优化VLA架构,最大化性能。

💡 理想星环OS操作系统的开源部分基于DeepSeek感召。

原创 理想TOP2与群友 2025-09-05 12:42 四川

本文内核是一篇推理文,推理素材核心基于理想汽车CTO谢炎在25Q2电话会议上的表示,贾鹏在GTC2025上介绍的理想VLA架构,各种关于TPU/NPU/Thor的介绍。

本文事实部分经过仔细考证,观点部分只能保证经过认真思考,不能保证一定正确。

本文得以成文,离不开一位群友的思路启发与交流。

推理内容(再强调一下,观点与猜测可能是错误的,事实是经过仔细考证的):

理想自动驾驶芯片最核心的是数据流架构与软硬件协同设计,相当于一种很适合跑VLA的NPU芯片。

按谢炎的说法,从项目立案到交付上车,要花三年左右时间,如果是明年上车的话,那应该是2023年左右开始设计的,猜测理想VLA架构具体如何搭建思路可能主要在2024年下半年。

所有专门为加速神经网络计算而设计的芯片都可以叫NPU,它不像GPU那样追求通用性,而是把硬件资源集中用于神经网络中最常见的运算,矩阵乘法与加法。NPU会在内部集成大量MAC(乘加单元),采用数据流架构,让数据传输路径更短、更搞笑。

TPU是谷歌专门为期机器学习框架(特别是TensorFlow)定制的芯片。可以将其视为一种高度专门化的NPU。TPU最核心的创新是脉动阵列(Systolic Array)架构,数据像心脏的脉搏一样在计算单元之间流动,一个计算单元的结果直接传递给下一个,极大减少对内存的访问次数,提升数据复用率,从而提升矩阵运算效率。

贾鹏在GTC25的分享提到,VLA在车端芯片上实现实时推理是一个巨大挑战,结合谢炎的表态,合情推测理想自研芯片最大的优势在于软硬件协同设计,通过将芯片、编译器、运行时系统和操作系统进行垂直整合,可以对VLA的特定结构进行深度优化,最大化压榨性能。(这里也能体现为啥理想一定要做自己的星环OS操作系统,不过顺便提一下,做星环OS对理想非常有必要,其中有一部分因为基于Linux是必须开源的,在必须开源以外,理想还多开源了一部分,这多开源的部分是基于DeepSeek感召顺便开源的,没有在下大棋,不用对开源部分给予过高评价,详见:《暂时不宜对理想星环OS开源给予过高评价》)

Thor芯片内部集成了CPU集群、GPU集群和NPU阵列等多个处理单元,在通用性上会更好。

启发了本文思路的群友提到:有个问题,现在语言模型主流是逐token生成的,就是说每生成一个字都要推理一次,自动驾驶的模型是一次推理就要生成轨迹,本身是冲突的。这部分也要做很大的重构,不能复用现有模型。

TPU有个大的优势是适合处理大批量的输入,这个跟自动驾驶就比较契合,自动驾驶每次推理都要输入几秒种的视频和各种信息。

关于第一点,贾鹏GTC25专门回应了:“很多人会问llm是token by token的输出,推理速度能够支撑自动驾驶吗?确实即便有了上述的结构设计和优化,想要实现VLA超过10赫兹的推理速度还是具有挑战的。我们做了大量的工程工作去压榨Orin-X和Thor-U的性能。针对CoT过程,我们采用了小词表和投机推理,大幅提升CoT的效率。针对action token的推理,我们采用了创新性的并行解码的方法,也就是在同一个阐述方法模型中加入了两种推理模式,语言逻辑的推理,通过因果注意力机制逐字输出,而action token则采用双向注意力机制一次性全部输出。

参考资料:

理想贾鹏英伟达GTC讲VLA 1228字省流版/完整图文/完整视频

为什么Thor芯片要保留GPU,又有NPU?

谷歌 TPU v1-脉动阵列

理想汽车CTO谢炎25Q2电话会议英文原话:

This is Yan. Let me share some information about our in-house design chip. The chip successfully tapered out and returned at the beginning of this year. And it is currently ongoing in vehicle testing and everything is in good shape. We expect to deploy it on our flagship models and deliver it to users next year. It takes about 3 years from setting up the project and to its shipment. As far as I know, it is the fastest among similar efforts. The performance is quite satisfactory, compared to the most powerful chips on the market, it could provide 2x performance when running GPT like large language models and 3x when running vision models like CNN. We designed a novel data flow architecture in which model competition is mostly driven by data, not instructions like other architectures.

And in this way, the chip could achieve higher parallelism at the runtime, and we believe it is more suitable for large neural networks. The data-driven logic is orchestrated by our in-house design compiler allowing the hardware to be more efficient and running at a higher frequency than most comparables in the market. Quite different from other AI chips on the market, we adopted a truly — a true hardware software co-design approach, the chip, the compiler, the runtime system and the halo operating system are designed together from the beginning. So we can vertically integrate the hardware and software modules to a more powerful AI inference system and more easily, and it could keep on scaling in the future. With the landing of VLA Models on vehicles, we observed that computing power increase could translate to ADAS performance increase better than before, which means higher the computing power, the better the performance, and it’s more predictable.

We have very strong confidence our innovative architecture as well as the full stack development capability could become our continuous differentiated capabilities and grow even stronger in the future.

来源:Insider Monkey

链接:

https://www.insidermonkey.com/blog/li-auto-inc-nasdaqli-q2-2025-earnings-call-transcript-1599680/

中文翻译:

大家好,我是谢炎。我来分享一些关于我们自研芯片的信息。

这款芯片在今年年初已成功完成流片并返回。目前,我们正在进行车辆测试,一切进展顺利。我们预计明年将这款芯片部署在我们的旗舰车型上,并交付给用户。

从项目立案到最终交付上车,整个过程大约需要3年时间。据我所知,这在同类项目中是速度最快的。

芯片的性能表现相当令人满意。与市场上最顶尖的芯片相比,在运行像GPT这样的大语言模型时,它的性能可以达到前者的2倍;在运行像CNN这样的视觉模型时,性能可以达到3倍。

我们设计了一种新颖的数据流架构(data flow architecture)。在这种架构中,模型的计算主要由数据驱动,而非像其他架构那样由指令驱动。通过这种方式,芯片在运行时可以实现更高的并行度,我们相信它更适合大型神经网络。这种数据驱动的逻辑由我们自研的编译器进行调度(orchestrated),使得硬件能够更高效地运行,并且其运行频率也高于市场上大多数的同类产品。

与市场上的其他AI芯片截然不同,我们采用了一种真正的软硬件协同设计(hardware software co-design)方法。芯片、编译器、运行时系统(runtime system)以及我们的操作系统,从一开始就是作为一个整体共同设计的。因此,我们可以更轻松地将软硬件模块进行垂直整合,从而打造出一个更强大的AI推理系统,并且这个系统在未来能够持续扩展升级。

随着VLA模型在车端的落地,我们观察到,算力的提升比以往任何时候都更能有效地转化为高级驾驶辅助系统(ADAS)性能的提升。这意味着算力越高,性能就越好,并且这种正向关系也变得更具可预测性。

我们坚信,我们创新的架构以及全栈自研的能力,将成为我们持续的、差异化的核心竞争力,并将在未来发展得更加强大。

加微信,进群深度交流理想实际经营情况与长期基本面。不是技术群,车友群。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

理想汽车 自研芯片 VLA架构 软硬件协同 NPU TPU 星环OS
相关文章