CV君 2025-09-09 11:43 江苏
本文介绍一篇在立体匹配领域取得突破性进展的论文 IGEV++ 。该研究通过一种新颖的深度网络架构,有效解决了在病态区域(ill-posed regions)和巨大视差范围下的匹配模糊性问题,在多个主流测试集上实现了当前最佳性能(SOTA)。
IGEV++ 的核心思想是构建 多范围几何编码体(Multi-range Geometry Encoding Volumes, MGEV),它能够为无纹理区域和巨大视差编码粗粒度的几何信息,同时为细节丰富区域和微小视差保留细粒度的几何信息。这种设计使得网络在处理各种复杂场景时都表现得游刃有余。
立体匹配是计算机视觉和机器人技术中的一个核心任务,其目标是从两张或多张从不同视角拍摄的图像中推断出三维场景的几何信息。这项技术在3D重建、自动驾驶、机器人导航等领域有着广泛应用。
尽管过去十年取得了显著进展,但立体匹配在处理以下挑战时仍面临困难:
病态区域: 如无纹理的墙面、重复性纹理的表面、反光或透明物体以及遮挡区域,这些区域的像素难以建立准确的对应关系。巨大视差: 在高分辨率图像、近距离物体或宽基线相机设置中,左右图像的像素位移(即视差)可能非常大,传统的固定视差范围方法难以应对。现有的主流方法大致可分为三类:
基于代价体滤波的方法: 如 PSMNet,通过构建代价体并使用3D CNN进行正则化来推断视差。这类方法能有效利用几何信息,但在预定义的视差范围之外便无能为力,且构建大范围代价体计算成本极高。基于迭代优化的方法: 如 RAFT-Stereo,通过迭代更新视差图来逐步逼近真实值。这类方法可以处理大视差,但由于缺乏代价体聚合过程,其原始代价信息缺少非局部几何上下文,导致在病态区域表现不佳。基于Transformer的方法: 如 GMStereo,利用自注意力机制来传播信息。这类方法虽然能建模长距离依赖,但由于缺少显式的代价体,在处理局部模糊性问题上仍有困难。第1行:在场景流测试集上的大视差区域与最先进的方法进行视觉比较。PCWNet是一种基于体滤波的方法,DLNR]是一种迭代优化的方法,GMStereo是一种变压器的方法。它们都很难在近距离内处理大型无纹理物体的巨大差异。 第2行:Middlebury上的零样本泛化结果。IGEV++有效地处理了无纹理区域的巨大差异,也区分了复杂背景中的微妙细节。
IGEV++ 的提出正是为了融合基于滤波和基于迭代优化两类方法的优点,同时克服它们的局限性,从而在各种复杂场景下实现更准确、更鲁棒的立体匹配。
IGEV++ 的核心方法IGEV++ 的网络架构如下图所示,它巧妙地结合了多范围几何编码、自适应补丁匹配和迭代更新机制。
这是 IGEV++ 的核心创新。与以往方法使用单一固定范围的代价体不同,MGEV 并行构建了三个不同视差范围(小、中、大)的几何编码体(Geometry Encoding Volumes, GEV)。
小范围GEV: 采用“点对点”的精细匹配方式,负责捕捉远处物体和图像细节的精确几何信息。大/中范围GEV: 采用“点对块”的粗粒度匹配方式,即 自适应补丁匹配(Adaptive Patch Matching, APM)。这种方式能高效地计算大视差范围的匹配代价,专注于处理近处大物体和无纹理等病态区域。通过一个轻量级的3D正则化网络(基于3D U-Net),这些原始的代价关联体被处理成包含丰富几何上下文的 MGEV。MGEV 不仅编码了场景的粗粒度几何信息以应对大视差和病态区域,也保留了细粒度信息以处理细节和小视差。
上图直观展示了不同范围GEV的效果。小范围GEV在小视差区域表现好,但在大视差区域误差很大(顶部示例);大范围GEV能处理大视差,但在细节上有所欠缺(底部示例)。而最终的MGEV(最右列)结合了各范围的优点,取得了最佳的整体性能。
自适应补丁匹配 (APM)为了高效构建大范围GEV,论文提出了APM模块。它使用较少的视差候选(disparity candidates)来表示一个大的视差范围,并通过自适应学习的权重来聚合一个“补丁”内的匹配成本,这显著降低了计算量和后续视差回归的难度。
上图对比了使用和不使用APM模块的效果。无论是在合成数据还是真实数据上,APM都展现出更强的鲁棒性,能更好地处理大的病态区域和巨大视差。
选择性几何特征融合与迭代更新在获得MGEV后,网络首先通过soft argmin操作回归出一个初始视差图。然后,进入迭代优化阶段。在每次迭代中:
选择性几何特征融合 (SGFF): 根据当前的视差估计,一个轻量级的融合模块 (SGFF) 会自适应地判断当前区域的特性(例如,是大视差区域还是细节区域),并据此为从MGEV中索引出的多范围、多粒度的几何特征分配权重,将它们融合成一个全面的特征表示。ConvGRU更新: 融合后的几何特征被送入 卷积门控循环单元(ConvGRU),对视差图进行更新。这个迭代过程使得视差估计能够从一个良好的初始点出发,并利用MGEV提供的丰富几何信息快速、准确地收敛。
上图比较了不同方法的收敛速度。IGEV++ 不仅收敛得更快,而且最终达到的误差(EPE)也远低于RAFT-Stereo和DLNR。
上图展示了在少量迭代次数下,IGEV++ 与 RAFT-Stereo 的对比。即使在迭代次数很少(如1, 2, 3次)的情况下,IGEV++ 也能产生比RAFT-Stereo更精确的结果。
实验与结果分析IGEV++ 在多个主流的立体匹配基准测试中进行了广泛评估,并取得了卓越的性能。
在Scene Flow数据集上的表现Scene Flow是一个大规模的合成数据集,包含巨大的视差范围(最大可达768像素)。
如上图左侧所示,与Scene Flow测试集上不同视差范围内最先进的立体方法的比较, IGEV++ 在所有视差范围内都保持了极高的精度,大幅领先于之前的方法。
上表中的量化数据进一步证实了这一点。在最大的768像素视差范围内,IGEV++ 的端点误差(EPE)仅为 0.67,显著优于GMStereo (0.96) 和 RAFT-Stereo (0.98)。
上图展示了与基于Transformer的SOTA方法GMStereo在病态区域的对比,IGEV++ 的结果明显更完整、更准确。
消融实验为了验证各模块的有效性,论文进行了一系列消融研究。上表结果显示,从基线模型(RAFT-Stereo)开始,逐步添加单范围GEV、多范围MGEV、APM以及SGFF模块后,模型的性能持续提升,证明了每个模块都对最终的优异性能做出了贡献。
这张表格量化了不同范围GEV的性能。可以看到,小范围GEV在小视差下表现好,大范围GEV在大视差下表现好,而最终的MGEV(多范围)在所有视差范围下都取得了最低的误差。
在真实世界数据集上的表现IGEV++ 不仅在合成数据上表现优异,在KITTI、Middlebury、ETH3D等真实世界数据集上也取得了SOTA或极具竞争力的结果。
上表展示了在KITTI 2012和2015测试集上的结果。IGEV++ 在精度和实时性方面都名列前茅。其衍生出的实时版本 RT-IGEV 在实时方法中排名第一。
上图是在Middlebury测试集上的视觉对比。得益于MGEV编码的粗细粒度几何信息,IGEV++ 能够同时准确估计近处无纹理区域的大视差、分辨背景中的精细细节(第二行),并预测出清晰的物体边缘(第三行)。
上表展示了在Middlebury和ETH3D上的量化结果,IGEV++ 的多项指标均达到最佳(粗体)或次佳(下划线)。
在病态区域和泛化能力上的表现论文还特别评估了模型在病态区域(如KITTI中的反光区域)的表现和零样本泛化能力。上表显示,在KITTI 2012的反光区域,IGEV++ 的性能超越了所有先前方法。上图是KITTI 2012测试集上的视觉效果,IGEV++ 在反光区域表现出色。
在零样本泛化测试中(模型仅在合成的Scene Flow上训练,直接在真实的Middlebury V3数据集上测试),IGEV++ 的表现也超过了包括RAFT-Stereo、GMStereo在内的所有方法,证明了其强大的泛化能力。
上图展示了在医疗内窥镜数据集SCARED上的零样本泛化结果,IGEV++ 在无纹理区域和组织边缘预测上同样表现优异,展示了其在医疗等领域的应用潜力。
上表比较了不同迭代次数下的性能,IGEV++ 仅用2次迭代就超过了RAFT-Stereo 32次迭代的结果,体现了其极高的效率。
上表是实时版本RT-IGEV与其他实时方法的比较,RT-IGEV在速度和精度上都取得了最佳的平衡。
上图是在ETH3D测试集上的视觉对比,IGEV++在无纹理区域的表现优于RAFT-Stereo和GMStereo。
总结与贡献论文提出的 IGEV++ 是一种新颖的立体匹配网络架构,其主要贡献可以总结为:
提出了一种融合架构: 巧妙地结合了基于滤波方法和基于迭代优化方法的优点,既利用了前者强大的几何上下文编码能力,又具备了后者处理大视差和高效优化的特性。创新的MGEV: 提出了 多范围几何编码体 (MGEV) 的概念,通过并行处理不同视差范围,有效解决了在混合有大、小视差的复杂场景中进行精确匹配的难题。高效的模块设计: 引入了 自适应补丁匹配 (APM) 和 选择性几何特征融合 (SGFF) 模块,使得MGEV的构建和使用都非常高效,并能实现快速收敛。卓越的性能: 在Scene Flow、KITTI、Middlebury和ETH3D等多个极具挑战性的基准测试中取得了 SOTA 性能,尤其是在处理巨大视差和病态区域方面,优势尤为明显。开源贡献: 论文作者公开了代码和预训练模型,为社区的研究和应用提供了宝贵的资源。总而言之,IGEV++ 为立体匹配领域提供了一个强大而高效的解决方案,其核心思想和技术细节对未来的研究具有重要的启发意义。
了解最新 AI 进展,欢迎关注公众号:我爱计算机视觉投稿寻求报道请发邮件至:amos@52cv.net欢迎点赞、分享、收藏、评论。
