我爱计算机视觉 09月20日
几何感知UDA:解决BEV感知跨域难题
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

自动驾驶中的BEV感知面临“域偏移”挑战,即模型在不同环境下性能骤降。北京大学等机构的研究者提出了BEVUDA++框架,一种创新的几何感知无监督域自适应方法。该框架通过“可靠深度教师”和“几何一致学生”模型,利用LiDAR点云和不确定性估计来克服多几何空间累积的域偏移。实验显示,BEVUDA++在多种跨域场景下均取得SOTA性能,尤其在“白天到黑夜”的切换中,关键指标NDS提升12.9%,显著增强了BEV感知模型的鲁棒性和实用性。

💡 **累积域偏移的挑战**:BEV感知模型在处理来自不同摄像头2D图像并将其转换为3D体素再投影到BEV网格时,域偏移(如光照、天气变化)会在图像、3D体素和BEV空间中累积,导致最终3D目标检测性能严重下降。BEVUDA++旨在系统性地解决这一在多几何空间中累积的域偏移问题。

🤝 **几何感知师生学习框架**:BEVUDA++采用“师生”学习框架,由“可靠深度教师”(RDT)和“几何一致学生”(GCS)组成。RDT通过融合目标域稀疏LiDAR点云和模型预测的稠密深度图,并结合不确定性估计,生成高质量的监督信号。GCS则将2D、3D和BEV空间的特征映射到统一几何嵌入空间,通过对抗性训练对齐源域和目标域的特征分布,从而根本上解决域偏移累积问题。

📈 **不确定性引导的EMA与SOTA性能**:BEVUDA++引入了“不确定性引导的EMA”(UEMA)策略,根据学生模型预测的不确定性动态调整教师模型的更新率,提升了伪标签质量和训练稳定性。在nuScenes数据集的四种跨域场景测试中,BEVUDA++均显著超越基线模型和其他现有域自适应方法,例如在“白天到黑夜”场景下,NDS提升12.9%,mAP提升9.5%,展现出强大的跨域泛化能力。

CV君 2025-09-20 11:02 江苏

几何感知UDA,攻克BEV感知跨域难题

在自动驾驶技术中,以视觉为中心的鸟瞰图(Bird's Eye View, BEV)感知方案正变得越来越重要。然而,现有BEV模型的一个致命弱点是“水土不服”:在一个地方(如晴天的波士顿)训练好的模型,换到另一个地方(如雨天的北京)或不同条件下(如夜晚),性能就会急剧下降。这一“域偏移”(Domain Shift)问题,极大地阻碍了BEV感知技术的实际落地。

为了解决这一难题,来自北京大学、南京大学、香港理工大学和香港科技大学的研究者们,在一篇被 IEEE TCSVT 接收的论文 《BEVUDA++: Geometric-aware Unsupervised Domain Adaptation for Multi-View 3D Object Detection》 中,首次 系统性地研究并提出了解决方案。他们提出的 BEVUDA++ 框架,是一个创新的几何感知无监督域自适应(Unsupervised Domain Adaptation, UDA)方法,在多个跨域场景下取得了SOTA性能,例如在“白天到黑夜”的场景切换中,将关键指标 NDS提升了12.9% 。

论文标题:BEVUDA++: Geometric-aware Unsupervised Domain Adaptation for Multi-View 3D Object Detection

作者团队:Rongyu Zhang, Jiaming Liu, Xiaoqi Li, Xiaowei Chi, Dan Wang, Li Du, Yuan Du, Shanghang Zhang

机构:北京大学, 南京大学, 香港理工大学, 香港科技大学

论文地址https://arxiv.org/abs/2509.14151

期刊:Accepted by IEEE Transactions on Circuits and Systems for Video Technology (TCSVT)

背景:BEV感知中的“累积域偏移”挑战

BEV感知模型通常很复杂,它需要将来自多个摄像头的2D图像特征,通过视角转换(LSS)提升到3D空间(Voxel),最后再投影到统一的BEV网格上。问题在于,域偏移(如光照、天气、城市场景风格的变化)会影响到这个流程的每一步:

2D图像空间:图像的风格、光照发生变化。

3D体素空间:由2D特征和不可靠的深度预测构建的3D Voxel特征,会继承并放大2D空间的域偏移。

BEV空间:最终的BEV特征会“累积”前面所有空间的域偏移,导致最终的3D目标检测性能严重下降。

BEVUDA++ 的核心目标就是解决这种在多几何空间中累积的域偏移问题。

BEVUDA++:几何感知的师生学习框架

BEVUDA++ 采用了一个巧妙的“师生(Teacher-Student)”学习框架,来实现在没有目标域标注数据下的无监督域自适应。该框架由一个“可靠深度教师”模型和一个“几何一致学生”模型组成。

1. 可靠深度教师 (Reliable Depth Teacher, RDT)

教师模型(RDT)的作用是在目标域(如夜晚场景)上为学生模型提供高质量的监督信号(伪标签)。为了保证信号的质量,RDT巧妙地融合了目标域稀疏但准确的LiDAR点云和模型自身预测的稠密深度图。它通过一个 不确定性估计 机制,来判断模型预测的每个像素点的深度是否“可靠”。对于不可靠的深度预测,就用LiDAR的真实深度来替代。这样生成的“深度感知信息”包含了充足且可靠的目标域知识,能够指导学生模型学习到更鲁棒的Voxel和BEV特征。

2. 几何一致学生 (Geometric Consistent Student, GCS)

学生模型(GCS)是最终在实际应用中进行推理的模型。它的核心创新在于“几何一致性”。为了协同地解决多空间中的域偏移,GCS将来自2D图像、3D Voxel和BEV这三个不同几何空间的特征,通过MLP映射到一个 统一的几何嵌入空间。在这个共享空间里,通过对抗性训练等方式,强制拉近源域和目标域的特征分布。这种方法从根本上解决了域偏移在不同空间中累积的问题。

3. 不确定性引导的EMA (Uncertainty-guided EMA, UEMA)

在师生学习框架中,教师模型通常通过指数移动平均(EMA)的方式来缓慢地更新学生模型的权重。传统的EMA使用固定的更新率。而 BEVUDA++ 提出了一种更智能的 UEMA 策略。它利用之前计算出的“不确定性”来动态调整更新率:当学生模型对自己的预测不确定时(即不确定性高),就减小教师模型的更新幅度,防止教师学到学生的错误;反之,则可以更自信地更新。这大大提升了伪标签的质量和训练的稳定性。

实验结果:全场景、全天候的SOTA性能

研究团队在nuScenes数据集上构建了四种典型的跨域场景(城市场景:波士顿到新加坡;天气:晴天到雨天/雾天;光照:白天到黑夜;连续变化:晴天到不同浓度的雾天)来验证方法的有效性。

定量分析

实验结果表明,BEVUDA++ 在所有四个跨域场景中,性能均全面超越了基线模型(Source Only)和其他现有的域自适应方法。特别是在最具挑战性的“白天到黑夜”场景中,BEVUDA++ 相比于基线模型,NDS提升了12.9%,mAP提升了9.5% ,效果极为显著。

定性分析

从可视化的检测结果和特征分布中,可以更直观地看到 BEVUDA++ 的优势。如下图所示,BEVUDA++(下图)的检测框比基线模型(上图)更准确、置信度更高。同时,t-SNE特征可视化也表明,BEVUDA++能成功地将源域(蓝色)和目标域(红色)的特征分布对齐,而基线模型则无法做到。

消融实验也充分证明了RDT、GCS和UEMA每个模块都对最终的性能提升至关重要。

总结与贡献

BEVUDA++ 是 首个 系统性解决多视角BEV 3D目标检测中无监督域自适应问题的工作,其主要贡献在于:

识别并解决了多几何空间域偏移累积的核心挑战

提出了一个创新的几何感知师生框架,其中RDT模块利用不确定性提供高质量的深度感知信息,GCS模块在统一的几何空间中对齐特征分布。

设计了UEMA,一种更智能的教师模型更新策略,有效减少了误差累积。

这项研究极大地提升了BEV感知模型在真实世界复杂多变场景下的鲁棒性和实用性,为自动驾驶技术的最终落地扫清了一大障碍。

了解最新 AI 进展,欢迎关注公众号:我爱计算机视觉感谢点赞支持。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

BEV感知 自动驾驶 域自适应 无监督域适应 几何感知 BEV Perception Autonomous Driving Domain Adaptation Unsupervised Domain Adaptation Geometric Perception
相关文章