理想 TOP2 7小时前
理想汽车自动驾驶技术进展概览
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

理想汽车的自动驾驶(AD)团队在推动交通运输领域变革方面取得了显著进展。他们专注于开发提升安全性、效率和可持续性的创新解决方案。该代码库汇集了他们在自动驾驶大语言模型(LLM)、用于模拟的世界模型、城市场景3D几何理解(3DGS)以及端到端神经网络(NN)模型等多个前沿领域的最新成果。具体项目包括利用LLM理解复杂驾驶场景,通过世界模型模拟环境以测试算法,创建精细的3D城市地图以增强感知,以及研发简化的端到端NN模型。

🚗 **前沿技术研发**: 理想汽车AD团队致力于通过大语言模型(LLM)、世界模型、3D几何场景(3DGS)理解和端到端神经网络(NN)模型等技术,全面提升自动驾驶的安全性、效率和可持续性。

🌐 **多领域创新**: 项目涵盖了利用LLM解读驾驶场景、模拟真实驾驶环境的世界模型、增强感知能力的3D城市地图构建,以及简化自动驾驶流程的端到端NN模型,展示了其在自动驾驶技术栈上的广泛布局。

📚 **开源与合作**: 团队积极通过代码库分享其研究成果,并提供详细的论文简介,如DriveVLM、TOP3Cap、StreetGaussians、DiVE、STR2、GaussianAD、3DRealCar、DriveDreamer4D、ReconDreamer、DrivingSphere、StreetCrafter、Hierarchy UGP、GeoDrive和LightVLA等,鼓励技术交流与合作。

原创 理想TOP2 2025-10-17 21:42 四川

链接:

https://github.com/LiAutoAD

论文合集:

https://pan.baidu.com/s/1IiNzcV-LtF5H0nGEqy6fog?pwd=qh9c 提取码: qh9c

介绍:

理想汽车自动驾驶(AD)团队正通过前沿的自动驾驶技术,引领交通运输领域的变革。我们的使命是开发创新解决方案,以提升出行领域的安全性、效率和可持续性。本代码库是我们各项开创性项目的中心枢纽,内容涵盖了我们在自动驾驶大语言模型(LLM)、用于自动驾驶模拟的世界模型、面向城市场景的3D几何场景(3DGS)理解,以及全面的自动驾驶端到端神经网络(NN)模型等领域的最新进展。

项目:

用于自动驾驶的大语言模型 (LLM)

我们利用大语言模型的强大能力来解读和理解复杂的驾驶场景,从而实现更智能、响应更迅速的自动驾驶车辆。

自动驾驶模拟中的世界模型

我们的世界模型项目旨在模拟真实的驾驶环境,用于在各种条件下测试和改进自动驾驶算法。

面向城市场景的3D几何场景 (3DGS) 理解

3DGS项目专注于创建精细的城市环境3D地图,以增强自动驾驶车辆的感知系统,从而实现更优的导航和决策。

用于自动驾驶的端到端神经网络 (NN) 模型

我们正在开创性地研发全面的端到端神经网络模型,该模型可以简化从感知到执行的整个自动驾驶系统处理流程。

代码库:

论文简介:

DriveVLM: 端到端+VLM的双系统架构。详见《理想双系统发布会917字总结与完整图文

TOP3Cap: 用自然语言描述自动驾驶街景的数据集,包含850个户外场景,超过64300个物体,230万条文字描述。

StreetGaussians: 高效地为自动驾驶场景创建逼真、动态的城市街道模型的方法。

DiVE:一个基于 DiT (Diffusion Transformer) 架构的模型,生成与给定的鸟瞰图(BEV)布局精确匹配的、时间和多视角上都保持一致的视频。利用无参数的 spatial view-inflated attention 来保证跨视角一致性,其中集成了 joint cross-attention modules 和ControlNet-Transformer 以进一步提高控制的精度。详见《理想提出首个基于Dit的框架, 用于生成长时间、高度一致性视频

STR2:个可扩展的,使用视觉Transformer(ViT)作为编码器并拥有一个仅解码器的MoE骨干网络的运动规划器。目的是提升泛化能力,使用ViT作为编码器来处理光栅化的环境信息,并采用单阶段自监督学习的方式进行训练,没用强化学习。详见《STR2:运动规划的重新出发

GaussianAD:使用稀疏而全面的 3D 高斯函数来表示和传递场景信息,以解决传统方法在信息完整性和计算效率之间的权衡问题。详见《理想新论文: 以高斯为中心的端到端自动驾驶|目前最先进运动规划

3DRealCar:真实世界3D汽车数据集,包含2500辆经过3D扫描仪的汽车,每辆车平均有200个密集的、1920*1440分辨率的RGB-D试图。超过100个品牌的车型,分别在标准、反光和黑暗光照条件下生成。包含13个类别,如车窗、车门等。《理想开源首个大规模真实3D汽车数据集

DriveDreamer4D:使用视频生成模型(世界模型)作为数据机器,来生成车辆在执行复杂新轨迹(如变道)时的视频数据。这些合成的视频数据补充了真实数据的不足,共同训练一个4D高斯溅射。详见《DriveDreamer4D:首个利用视频生成改善驾驶重建的世界模型方法

ReconDreamer:通过边渲染、边修复、边训练”的渐进式策略,逐步地将世界模型的知识融合到场景重建中。详见《理想汽车针对自动驾驶场景重建的在线修复与数据更新策略

DrivingSphere:一个结合了4D世界建模和视频生成技术的生成式闭环仿真框架。OccDreamer模型通过鸟瞰图(BEV)和文本描述来生成无限大的城市规模静态背景,不仅模拟道路和车辆,还包括了建筑、植被等通常被忽略的静态环境元素。通过视频扩散模型,将构建好的4D世界数据转换成高保真的、多视角的视频流输出。详见《理想提出DrivingSphere直接构建高保真4D世界

StreetCrafter:专为街景合成设计的视频扩散模型,利用稀疏但几何上精确的激光雷达数据为视频生成提供像素级的条件,从而实现对摄像机位置的精确控制。使得模型能够生成与摄像机输入精确对齐且一致的视频帧。详见《StreetCrafter:用DIffusion 视频生成改善新视角重建

Hierarchy UGP:用统一高斯基元(Unified Gaussian Primitive, UGP)的四维空间表示方法构建一个分层级的树状结构,来对复杂的动态场景进行建模。用于大规模动态城市场景的高保真三维重建和实时渲染。

GeoDrive:利用3D几何信息来生成高度逼真、时空一致且可精确控制的驾驶场景视频。先通过单张图像重建三维场景,再渲染带有动态编辑的引导视频,最后使用视频扩散模型提升真实感。详见《理想新一代世界模型首次实现实时场景编辑与VLA协同规划

LightVLA:首个能同时提升机器人VLA模型任务成功率和运行效率的自适应视觉token pruning框架。详见《理想发布机器人领域VLA模型优化框架

加微信,进群深度交流理想实际经营情况与长期基本面。不是官方群,不是技术群,不是车友群。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

理想汽车 自动驾驶 AI LLM World Models 3DGS 神经网络 Li Auto Autonomous Driving Artificial Intelligence
相关文章