我爱计算机视觉 10月03日 16:45
基于3DGS的端到端自动驾驶强化学习新范式
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文提出RAD(3DGS-based Closed-loop Reinforcement Learning for End-to-End Autonomous Driving)框架,旨在解决当前端到端自动驾驶模仿学习(IL)在因果混淆和开环训练上的瓶颈。RAD利用3D高斯溅射(3DGS)技术构建高真实感的数字环境,实现闭环强化学习(RL)训练。该框架采用分阶段训练(感知预训练、规划预训练、强化后训练),解耦的动作空间,以及精细化的奖惩函数和辅助目标,并通过PPO+GAE优化策略,实现安全性和人类对齐的双重提升。实验结果表明,RAD相比主流IL方法,碰撞率降低3倍,同时保持了相当的轨迹一致性,并在复杂场景下展现出更强的鲁棒性。

🚗 **3DGS赋能高真实感闭环训练环境**:RAD框架的核心创新在于利用3D高斯溅射(3DGS)技术,将真实驾驶数据转化为高渲染速度和照片级视觉保真度的数字环境。这解决了传统仿真环境“仿真到真实”的gap,并首次实现了端到端自动驾驶策略的闭环强化学习训练,为解决因果混淆和开环训练问题提供了关键技术支撑。

🧠 **分阶段训练与IL/RL协同**:为了克服RL冷启动和IL与RL目标冲突的问题,RAD采用了“感知预训练→规划预训练→强化后训练”的渐进式三阶段训练范式。其中,IL在早期阶段用于预训练感知和规划模块,使其初步对齐人类驾驶行为,而RL则在后期通过与3DGS环境的试错交互来提升安全鲁棒性,同时IL作为正则项约束RL策略不偏离人类驾驶,实现安全与对齐的双赢。

⚖️ **精细化奖惩与动作设计**:RAD通过解耦的动作空间(横向和纵向)降低RL探索成本,并设计了包含动态碰撞、静态碰撞、位置偏差和航向偏差的精细化奖惩函数,以“惩罚危险行为、鼓励对齐专家轨迹”为核心。此外,还引入了辅助目标,为动作分布提供密集指导,加速RL收敛,并结合PPO+GAE框架进行策略优化,有效处理闭环环境中的误差累积。

🚀 **显著的安全与对齐提升**:实验结果显示,RAD在3DGS闭环评估基准上,总碰撞率(CR)仅为0.089,相比主流IL方法(如VAD的0.335)降低了约3.8倍,动态碰撞率(DCR)也显著降低。同时,其轨迹一致性(ADD)与IL方法相当,证明了其在提升安全性的同时,并未牺牲与人类驾驶的对齐度,并在“礼让行人”、“拥堵跟车”等复杂场景下表现出更强的鲁棒性。

52CV 2025-10-03 12:42 江苏

一、论文基本信息

类别

详情

论文标题

RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning

作者

Hao Gao, Shaoyu Chen, Bo Jiang, Bencheng Liao, Yiang Shi, Xiaoyang Guo, Yuechuan Pu, Haoran Yin, Xiangyu Li, Xinbang Zhang, Ying Zhang, Wenyu Liu, Qian Zhang, Xinggang Wang

所属机构

1 华中科技大学(Huazhong University of Science & Technology)
2 地平线机器人(Horizon Robotics)

论文地址

https://arxiv.org/pdf/2502.13144

项目主页

https://hgao-cv.github.io/RAD

代码仓库

https://github.com/hustvl/RAD

二、研究背景:端到端自动驾驶的核心挑战

当前主流的端到端自动驾驶(AD)算法多采用模仿学习(IL) 范式,通过模仿人类驾驶演示训练模型。然而,IL存在两大关键瓶颈,严重限制其在真实场景的部署:

因果混淆(Causal Confusion):IL仅学习观测(状态)与动作的相关性,而非因果关系,易导致“捷径学习”(如仅从历史轨迹外推未来路径),对碰撞等安全关键事件敏感度不足。

开环 gap:IL在“开环”场景下训练(依赖分布良好的演示数据),但真实驾驶是“闭环”过程——每一步的微小轨迹误差会累积,引发复合错误和分布外场景,导致IL模型鲁棒性不足。

为解决上述问题,强化学习(RL) 成为潜在方案,但需可与AD策略交互的训练环境:

真实道路训练:安全风险高、成本极高;

传统仿真环境(如基于游戏引擎的CARLA):无法提供 photorealistic(照片级真实感)的传感器模拟结果,存在“仿真到真实”的 gap。

在此背景下,研究团队提出基于3D高斯溅射(3DGS)的闭环RL训练范式,构建真实物理世界的数字副本,为端到端驾驶策略训练提供新路径。

三、RAD核心设计:3DGS+RL+IL的协同框架

RAD(3DGS-based Closed-loop Reinforcement Learning for End-to-End Autonomous Driving)并非单一模型,而是一套融合“3DGS环境构建、分阶段训练、奖惩设计、策略优化”的完整解决方案,核心是通过3DGS提供高真实感闭环环境,并结合RL与IL的优势互补,实现驾驶策略的安全与人类对齐。

(一)核心组件1:3DGS数字环境构建

3D高斯溅射(3DGS)是一种高效的神经辐射场渲染技术,相比传统隐式神经表示(如UniSim、MARS),兼具高渲染速度照片级视觉保真度。研究团队基于真实驾驶数据构建3DGS环境:

从2000小时人类驾驶演示中,筛选4305个高碰撞风险的“密集交通片段”;

将每个片段重建为独立的3DGS环境,其中3968个用于RL训练,337个作为闭环评估基准;

环境中,自动驾驶车辆(ego vehicle)按RAD策略行动,其他交通参与者按真实日志“重放”(log-replay),确保交互真实性。

(二)核心组件2:分三阶段训练范式

为避免RL冷启动不稳定、IL与RL目标冲突,RAD设计“感知预训练→规划预训练→强化后训练”的渐进式流程:

训练阶段

目标

训练内容

参数更新范围

感知预训练

让模型理解场景高层信息

用地图、其他交通参与者(agent)的真值标签,训练BEV编码器、地图头(Map Head)、agent头(Agent Head),生成地图token(车道线)和agent token(位置、速度等)

BEV编码器、Map Head、Agent Head

规划预训练

初始化动作分布,避免RL冷启动

用大规模人类驾驶演示的里程计信息,通过IL训练图像编码器和规划头(Planning Head),让策略初步对齐人类驾驶行为

图像编码器、Planning Head(BEV编码器等冻结)

强化后训练

提升安全鲁棒性+保持人类对齐

RL:通过3DGS环境的试错,优化策略对安全关键事件的敏感度;
IL:作为正则项,约束策略偏离人类驾驶行为

图像编码器、Planning Head(BEV编码器等冻结)

(三)核心组件3:精细化奖惩与动作空间设计1. 解耦的动作空间

为降低RL探索成本、加速收敛,RAD将驾驶动作分为横向(Lateral) 和纵向(Longitudinal) 两个独立维度,基于0.5秒时间窗口设计离散动作:

横向动作():对应车辆左右位移,离散为61个选项(范围:-0.75m ~ 0.75m);

纵向动作():对应车辆前进位移,离散为61个选项(范围:0 ~ 15m);

动作计算:基于简化运动模型(恒定线速度、角速度),由动作直接推导车辆的线速度()和转向角()。

2. 安全导向的奖惩函数

奖惩函数()以“惩罚危险行为、鼓励对齐专家轨迹”为核心,包含4个关键组件,触发时直接终止训练episode(避免噪声数据影响):

奖惩组件

触发条件

作用

动态碰撞惩罚(

自动驾驶车辆 bounding box 与动态障碍物(如行人、其他车辆)重叠

避免与移动目标碰撞

静态碰撞惩罚(

自动驾驶车辆 bounding box 与静态障碍物(如路边护栏)的3DGS高斯体重叠

避免与固定目标碰撞

位置偏差惩罚(

车辆当前位置与专家轨迹最近点的欧氏距离超阈值

保证轨迹与人类驾驶一致

航向偏差惩罚(

车辆当前航向角与专家轨迹航向角的差值超阈值(40°)

保证行驶方向稳定

3. 辅助目标加速收敛

针对RL常见的“稀疏奖励”问题,RAD设计4个辅助目标,为动作分布提供密集指导,分别对应上述4类奖惩场景(以动态碰撞为例):

动态碰撞辅助目标:若前方有碰撞风险,提升“减速动作”的概率;若后方有碰撞风险,提升“加速动作”的概率;

所有辅助目标通过“方向因子”(如前方碰撞时方向因子=1,后方= -1)调整动作概率分布,最终与PPO目标结合优化。

(四)核心组件4:PPO+GAE的策略优化

RAD采用近端策略优化(PPO) 框架,结合广义优势估计(GAE) 处理闭环环境中的误差累积问题:

优势分解:将总优势(Advantage)按横向、纵向动作分解,分别优化横向(对应静态碰撞、位置/航向偏差)和纵向(对应动态碰撞)策略;

Clipping约束:通过Clip函数限制策略更新幅度,避免参数剧烈波动,保证训练稳定;

最终优化目标:(PPO目标+辅助目标加权和)。

四、实验结果:安全与人类对齐双突破

RAD在3DGS闭环评估基准上,从安全性、轨迹一致性、驾驶平滑度三大维度验证效果,核心指标全面超越传统IL方法。

(一)关键消融实验:验证设计有效性1. RL与IL比例平衡(最优4:1)

RL:IL比例

总碰撞率(CR)↓

平均偏差距离(ADD)↓

结论

0:1(纯IL)

0.229

0.238

轨迹一致性好,但安全性极差

1:0(纯RL)

0.143

0.345

安全性提升,但轨迹偏离人类驾驶

4:1(最优)

0.089

0.257

安全性最高,且轨迹一致性稳定

8:1(RL主导)

0.125

0.323

轨迹平滑度下降,ADD恶化

2. 完整奖惩函数的必要性

仅使用部分奖惩组件时,总碰撞率(CR)均高于“全组件”方案(ID6),其中缺少“动态碰撞惩罚”的方案(ID2)CR最高(0.238),证明动态碰撞规避是安全驾驶的核心。

方案ID

包含奖惩组件

总碰撞率(CR)↓

1

仅动态碰撞

0.172

2

静态碰撞+位置/航向偏差

0.238

6

全组件(动态+静态+位置+航向)

0.089

(二)与IL方法的对比:3倍降碰撞率

在相同人类演示数据训练下,RAD相比VAD、GenAD、VADv2等主流IL方法,在核心安全指标上实现碾压式提升:

总碰撞率(CR):RAD仅0.089,是VAD(0.335)的1/3.8,GenAD(0.341)的1/3.8,VADv2(0.270)的1/3.0;

动态碰撞率(DCR):RAD 0.080,远低于VAD的0.273、GenAD的0.299;

轨迹一致性(ADD):RAD 0.257,与IL方法相当,证明安全性提升未牺牲人类对齐;

(三)定性结果:复杂场景的鲁棒性

在“礼让行人”“无保护左转”“拥堵跟车”“掉头”等复杂场景中,RAD表现显著优于纯IL策略:

纯IL策略:频繁出现碰撞(如未避让行人)、轨迹错乱(如车道偏离);

RAD:能稳定规避动态障碍物,保持与人类驾驶一致的轨迹,动作序列更平滑。

五、研究总结与贡献

RAD的核心价值在于首次将3DGS技术与RL/IL融合,为端到端自动驾驶提供“高真实感闭环训练环境+高效策略优化方案”,具体贡献如下:

开创3DGS-RL框架:首次提出基于3DGS的端到端AD策略RL训练框架,通过3DGS构建 photorealistic 数字环境,解决“仿真到真实”的gap;

RL与IL协同优化:RL弥补IL的因果混淆和开环gap问题,IL约束RL的“非人类行为”,实现“安全鲁棒性+人类对齐”的双赢;

验证有效性:在3DGS闭环基准上,RAD实现3倍降碰撞率,且轨迹一致性、驾驶平滑度优于现有IL方法,为真实场景部署奠定基础。

六、未来方向

当前3DGS环境中,其他交通参与者采用“日志重放”(非反应式),未来将优化为“反应式环境”(如其他车辆根据ego行为调整动作),并提升3DGS在“非刚性行人渲染”“弱光场景”中的效果,进一步扩大RL训练规模。

RAD的开源项目主页(https://hgao-cv.github.io/RAD)提供了完整的实验结果可视化,为后续研究提供重要参考,有望推动端到端自动驾驶向“更安全、更贴近人类驾驶”迈进。此外,RAD 已在 GitHub(https://github.com/hustvl/RAD)开源了强化学习训练的核心代码,便于研究者开展相关研究。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

自动驾驶 强化学习 3D高斯溅射 模仿学习 闭环训练 Autonomous Driving Reinforcement Learning 3D Gaussian Splatting Imitation Learning Closed-loop Training
相关文章