52CV 2025-10-03 12:42 江苏
类别
详情
论文标题
RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning
作者
Hao Gao, Shaoyu Chen, Bo Jiang, Bencheng Liao, Yiang Shi, Xiaoyang Guo, Yuechuan Pu, Haoran Yin, Xiangyu Li, Xinbang Zhang, Ying Zhang, Wenyu Liu, Qian Zhang, Xinggang Wang
所属机构
1 华中科技大学(Huazhong University of Science & Technology)
2 地平线机器人(Horizon Robotics)
论文地址
项目主页
代码仓库
当前主流的端到端自动驾驶(AD)算法多采用模仿学习(IL) 范式,通过模仿人类驾驶演示训练模型。然而,IL存在两大关键瓶颈,严重限制其在真实场景的部署:
因果混淆(Causal Confusion):IL仅学习观测(状态)与动作的相关性,而非因果关系,易导致“捷径学习”(如仅从历史轨迹外推未来路径),对碰撞等安全关键事件敏感度不足。开环 gap:IL在“开环”场景下训练(依赖分布良好的演示数据),但真实驾驶是“闭环”过程——每一步的微小轨迹误差会累积,引发复合错误和分布外场景,导致IL模型鲁棒性不足。为解决上述问题,强化学习(RL) 成为潜在方案,但需可与AD策略交互的训练环境:
真实道路训练:安全风险高、成本极高;传统仿真环境(如基于游戏引擎的CARLA):无法提供 photorealistic(照片级真实感)的传感器模拟结果,存在“仿真到真实”的 gap。在此背景下,研究团队提出基于3D高斯溅射(3DGS)的闭环RL训练范式,构建真实物理世界的数字副本,为端到端驾驶策略训练提供新路径。
三、RAD核心设计:3DGS+RL+IL的协同框架RAD(3DGS-based Closed-loop Reinforcement Learning for End-to-End Autonomous Driving)并非单一模型,而是一套融合“3DGS环境构建、分阶段训练、奖惩设计、策略优化”的完整解决方案,核心是通过3DGS提供高真实感闭环环境,并结合RL与IL的优势互补,实现驾驶策略的安全与人类对齐。
(一)核心组件1:3DGS数字环境构建3D高斯溅射(3DGS)是一种高效的神经辐射场渲染技术,相比传统隐式神经表示(如UniSim、MARS),兼具高渲染速度与照片级视觉保真度。研究团队基于真实驾驶数据构建3DGS环境:
从2000小时人类驾驶演示中,筛选4305个高碰撞风险的“密集交通片段”;将每个片段重建为独立的3DGS环境,其中3968个用于RL训练,337个作为闭环评估基准;环境中,自动驾驶车辆(ego vehicle)按RAD策略行动,其他交通参与者按真实日志“重放”(log-replay),确保交互真实性。(二)核心组件2:分三阶段训练范式为避免RL冷启动不稳定、IL与RL目标冲突,RAD设计“感知预训练→规划预训练→强化后训练”的渐进式流程:
训练阶段
目标
训练内容
参数更新范围
感知预训练
让模型理解场景高层信息
用地图、其他交通参与者(agent)的真值标签,训练BEV编码器、地图头(Map Head)、agent头(Agent Head),生成地图token(车道线)和agent token(位置、速度等)
BEV编码器、Map Head、Agent Head
规划预训练
初始化动作分布,避免RL冷启动
用大规模人类驾驶演示的里程计信息,通过IL训练图像编码器和规划头(Planning Head),让策略初步对齐人类驾驶行为
图像编码器、Planning Head(BEV编码器等冻结)
强化后训练
提升安全鲁棒性+保持人类对齐
RL:通过3DGS环境的试错,优化策略对安全关键事件的敏感度;
IL:作为正则项,约束策略偏离人类驾驶行为
图像编码器、Planning Head(BEV编码器等冻结)
为降低RL探索成本、加速收敛,RAD将驾驶动作分为横向(Lateral) 和纵向(Longitudinal) 两个独立维度,基于0.5秒时间窗口设计离散动作:
横向动作():对应车辆左右位移,离散为61个选项(范围:-0.75m ~ 0.75m);纵向动作():对应车辆前进位移,离散为61个选项(范围:0 ~ 15m);动作计算:基于简化运动模型(恒定线速度、角速度),由动作直接推导车辆的线速度()和转向角()。2. 安全导向的奖惩函数奖惩函数()以“惩罚危险行为、鼓励对齐专家轨迹”为核心,包含4个关键组件,触发时直接终止训练episode(避免噪声数据影响):
奖惩组件
触发条件
作用
动态碰撞惩罚()
自动驾驶车辆 bounding box 与动态障碍物(如行人、其他车辆)重叠
避免与移动目标碰撞
静态碰撞惩罚()
自动驾驶车辆 bounding box 与静态障碍物(如路边护栏)的3DGS高斯体重叠
避免与固定目标碰撞
位置偏差惩罚()
车辆当前位置与专家轨迹最近点的欧氏距离超阈值
保证轨迹与人类驾驶一致
航向偏差惩罚()
车辆当前航向角与专家轨迹航向角的差值超阈值(40°)
保证行驶方向稳定
针对RL常见的“稀疏奖励”问题,RAD设计4个辅助目标,为动作分布提供密集指导,分别对应上述4类奖惩场景(以动态碰撞为例):
动态碰撞辅助目标:若前方有碰撞风险,提升“减速动作”的概率;若后方有碰撞风险,提升“加速动作”的概率;所有辅助目标通过“方向因子”(如前方碰撞时方向因子=1,后方= -1)调整动作概率分布,最终与PPO目标结合优化。(四)核心组件4:PPO+GAE的策略优化RAD采用近端策略优化(PPO) 框架,结合广义优势估计(GAE) 处理闭环环境中的误差累积问题:
优势分解:将总优势(Advantage)按横向、纵向动作分解,分别优化横向(对应静态碰撞、位置/航向偏差)和纵向(对应动态碰撞)策略;Clipping约束:通过Clip函数限制策略更新幅度,避免参数剧烈波动,保证训练稳定;最终优化目标:(PPO目标+辅助目标加权和)。四、实验结果:安全与人类对齐双突破RAD在3DGS闭环评估基准上,从安全性、轨迹一致性、驾驶平滑度三大维度验证效果,核心指标全面超越传统IL方法。
(一)关键消融实验:验证设计有效性1. RL与IL比例平衡(最优4:1)RL:IL比例
总碰撞率(CR)↓
平均偏差距离(ADD)↓
结论
0:1(纯IL)
0.229
0.238
轨迹一致性好,但安全性极差
1:0(纯RL)
0.143
0.345
安全性提升,但轨迹偏离人类驾驶
4:1(最优)
0.089
0.257
安全性最高,且轨迹一致性稳定
8:1(RL主导)
0.125
0.323
轨迹平滑度下降,ADD恶化
仅使用部分奖惩组件时,总碰撞率(CR)均高于“全组件”方案(ID6),其中缺少“动态碰撞惩罚”的方案(ID2)CR最高(0.238),证明动态碰撞规避是安全驾驶的核心。
方案ID
包含奖惩组件
总碰撞率(CR)↓
1
仅动态碰撞
0.172
2
静态碰撞+位置/航向偏差
0.238
6
全组件(动态+静态+位置+航向)
0.089
在相同人类演示数据训练下,RAD相比VAD、GenAD、VADv2等主流IL方法,在核心安全指标上实现碾压式提升:
总碰撞率(CR):RAD仅0.089,是VAD(0.335)的1/3.8,GenAD(0.341)的1/3.8,VADv2(0.270)的1/3.0;动态碰撞率(DCR):RAD 0.080,远低于VAD的0.273、GenAD的0.299;轨迹一致性(ADD):RAD 0.257,与IL方法相当,证明安全性提升未牺牲人类对齐;(三)定性结果:复杂场景的鲁棒性在“礼让行人”“无保护左转”“拥堵跟车”“掉头”等复杂场景中,RAD表现显著优于纯IL策略:
纯IL策略:频繁出现碰撞(如未避让行人)、轨迹错乱(如车道偏离);RAD:能稳定规避动态障碍物,保持与人类驾驶一致的轨迹,动作序列更平滑。五、研究总结与贡献RAD的核心价值在于首次将3DGS技术与RL/IL融合,为端到端自动驾驶提供“高真实感闭环训练环境+高效策略优化方案”,具体贡献如下:
开创3DGS-RL框架:首次提出基于3DGS的端到端AD策略RL训练框架,通过3DGS构建 photorealistic 数字环境,解决“仿真到真实”的gap;RL与IL协同优化:RL弥补IL的因果混淆和开环gap问题,IL约束RL的“非人类行为”,实现“安全鲁棒性+人类对齐”的双赢;验证有效性:在3DGS闭环基准上,RAD实现3倍降碰撞率,且轨迹一致性、驾驶平滑度优于现有IL方法,为真实场景部署奠定基础。六、未来方向当前3DGS环境中,其他交通参与者采用“日志重放”(非反应式),未来将优化为“反应式环境”(如其他车辆根据ego行为调整动作),并提升3DGS在“非刚性行人渲染”“弱光场景”中的效果,进一步扩大RL训练规模。
RAD的开源项目主页(https://hgao-cv.github.io/RAD)提供了完整的实验结果可视化,为后续研究提供重要参考,有望推动端到端自动驾驶向“更安全、更贴近人类驾驶”迈进。此外,RAD 已在 GitHub(https://github.com/hustvl/RAD)开源了强化学习训练的核心代码,便于研究者开展相关研究。
