导读
这篇论文针对红外小目标检测提出风车形卷积 (PConv) 和尺度动态损失 (SD Loss) ,有效提升特征提取能力和检测稳定性,并在新构建数据集SIRST-UAVB上验证了显著性能提升。
近年来,基于卷积神经网络(CNN)的红外小目标检测方法取得了卓越的性能。然而,这些方法通常采用标准卷积,忽略了红外小目标像素分布的空间特性。因此,我们提出了一种新颖的风车形卷积 (PConv) ,用于替代骨干网络较低层中的标准卷积。PConv更符合暗淡小目标的高斯空间像素分布,增强了特征提取能力,显著增大了感受野,并且只引入了极少的参数增加。 此外,虽然最近的损失函数结合了尺度损失和位置损失,但它们没有充分考虑这些损失在不同目标尺度下的敏感性变化,限制了在暗淡小目标上的检测性能。
为了克服这个问题,我们提出了一种基于尺度的动态(SD)损失,该损失根据目标大小动态调整尺度损失和位置损失的影响,从而提高了网络检测不同尺度目标的能力。
我们构建了一个新的基准数据集SIRST-UAVB,这是迄今为止最大且最具挑战性的实拍单帧红外小目标检测数据集。最后,通过将PConv和SD损失集成到最新的小目标检测算法中,我们在IRSTD-1K和我们的SIRST-UAVB数据集上取得了显著的性能提升,验证了我们方法的有效性和泛化能力。
论文标题:
Pinwheel-shaped Convolution and Scale-based Dynamic Loss for Infrared Small Target Detection
论文 链接 :
本文的贡献总结如下:
- 基于IRST的高斯空间分布,我们提出了一种新颖的即插即用卷积模块PConv,它增强了CNN分析IRST底层特征的能力。我们引入了SD损失,它动态调整尺度损失和位置损失的影响系数,提高了神经网络在不同尺度目标上的回归能力和检测性能。我们构建了SIRST-UAVB,这是最大的公开可用实拍IRSTDS数据集,涵盖了全面的空间域挑战。我们将PConv和SD损失应用于IRSTDS方法中的BBox和掩码标签格式,在公共数据集和我们自己的数据集上验证了它们的有效性和泛化能力。实验结果表明了显著且一致的性能提升。
值得一提的是,对于希望复现或进一步探索此类模型的研究者,可以借助如Coovally这样的高效AI开发平台,Coovally不仅提供了丰富的开源数据资源和算法组件,更在开发体验和训练效率上进行了全面优化。
研究者可以在平台上使用自己熟悉的开发工具(如 VS Code、Cursor 等),通过 SSH 协议直连云端算力,享受如同本地一样的实时开发与调试体验,同时调用高性能 GPU 环境,极大地加速了实验迭代与模型训练进程。
新颖的风车形卷积 PConv
新颖的风车形卷积 PConv模块的结构如图3所示。
与普通卷积(Conv)不同,PConv采用非对称填充来为图像的不同区域创建水平和垂直卷积核。这些卷积核向外扩散,其中h1、w1和c1分别表示输入张量X(h1,w1,c1)的高度、宽度和通道大小。为了增强训练的稳定性和速度,我们在每次卷积后应用批归一化(BN)和SiLU激活函数。PConv的第一层执行并行卷积,具体如下:
图2的右上角显示,基于IoU的损失(Sloss)波动可达86%。较小的目标在IoU损失中经历更大的不稳定性,这对模型的稳定性和回归性能产生了负面影响。然而,我们观察到无论边界框(BBox)的大小如何,质心坐标与目标的重心偏差不超过1个像素。因此,我们根据目标尺度动态调整Sloss和Lloss的影响系数,以减少标签不准确对损失函数稳定性的影响。
如图5(a)所示,较小的目标在BBox标签的Sloss中获得较低的关注权重。掩码标签可以提高检测精度,特别是对于较小或形状不规则的目标。然而,如图2左下角所示,IRST的模糊边界导致了62%的Sloss波动。较小的目标进一步增加了这种不稳定性。此外,掩码标签的Lloss考虑了图像中所有物体的平均位置,这使得当错过一个物体时难以收敛,从而导致更多的误报。因此,如图5(b)所示,我们增强了掩码标签Sloss的影响,以确保模型更加关注Sloss。
实验结果
- 卷积模块的比较
如表1所示,我们将PConv与各种卷积模块进行了比较。在YOLOv8n-p2检测模型中,除了MixConv外,大多数替代模块并未持续提升性能。然而,MixConv需要更多参数,但仍未超越我们提出的PConv。这些实验清楚地表明,与其他卷积模块相比,PConv因其设计而脱颖而出,该设计与IRST灰度的高斯分布特性相符,并有效扩大了卷积感受野。 这增强了网络提取IRST底层特征的能力,且仅带来可忽略不计的参数增加。
- 损失函数的比较
表2和表3总结了各种损失函数在IRST检测和分割中的性能。在表2中,我们比较了几种基于边界框的损失,包括CIoU、DIoU、GIoU、IoU、NWD、SAFit和我们提出的SDB(δ)损失。虽然SAFit在SIRST-UAVB数据集上表现良好,但其在IRSTD-1K数据集上的性能显著下降。相比之下,我们的SDB损失在两个数据集上都提供了一致且均衡的改进,这对于目标尺寸和分布多变的实际应用非常重要。此外,NWD和SAFit损失涉及指数运算,增加了计算复杂度和时间,而SDB更简单、更高效。
表3展示了各种基于掩码的损失函数的结果。我们的SDM(δ=0.5)损失不仅取得了最佳的整体性能,而且在不同数据集间保持了良好的平衡。
从表2和表3的消融实验中我们观察到,在检测模型中,SDB损失中较小的δ在IRSTD-1K上带来更好的性能,而较大的δ则提升了SIRST-UAVB的性能。这很可能是因为标签的性质:边界框比掩码具有更大的IoU波动,使其对δ的变化更敏感。较大的δ也扩大了动态影响系数β的波动范围,这通过减少尺度损失(S loss)的波动和提高准确性,特别有利于小目标(如SIRST-UAVB)。因此,在检测模型中,应根据目标大小选择δ,而在分割模型中,δ=0.5始终能提供最佳平衡。
- 多个模型的消融实验
如表4所示,我们提出的PConv和SDB损失在一系列检测和分割网络中持续提升了性能,这些网络包括EFLNet、YOLOv5n、YOLOv8n-p2、DNANet、ISNet和MSHNet。在分割模型中,PConv与SDM损失的组合 consistently 带来了显著改进,尤其是在DNANet中,在ISNet和MSHNet中也观察到了明显的增益。
我们进一步分析了PConv和SD损失的定性结果。如图6和图7所示,PConv减少了漏检,而SD损失增强了弱信号检测。 两者共同作用,减少了虚警并提高了鲁棒性。
Coovally平台还可以直接查看“实验日志” 。在每一个实验详情页中,用户都可以实时查看训练日志、输出信息或报错内容,无需额外配置、无缝集成于工作流中!
不论是模型调参、错误排查,还是过程复现,这项新功能都将大幅提升你的实验效率。
- 从实验到落地,全程高速零代码
无论是学术研究还是工业级应用,Coovally均提供云端一体化服务:
- 免环境配置:直接调用预置框架(PyTorch、TensorFlow等);免复杂参数调整:内置自动化训练流程,小白也能轻松上手;高性能算力支持:分布式训练加速,快速产出可用模型;无缝部署:训练完成的模型可直接导出,或通过API接入业务系统。
!!点击下方链接,立即体验Coovally!!
平台链接: www.coovally.com
无论你是算法新手还是资深工程师,Coovally以极简操作与强大生态,助你跳过技术鸿沟,专注创新与落地。访问官网,开启你的零代码AI开发之旅!
结论
在本文中,我们提出了一种即插即用的PConv模块,利用IRST的高斯分布特性,以最少的参数实现了高效、更大的感受野。我们还引入了一种简单而有效的SD损失函数来解决标签的IoU波动问题。通过与现有卷积模块和损失函数的广泛比较,我们的方法 consistently 优于最先进的方法,展示了卓越的准确性和鲁棒性。我们在多个模型中验证了我们方法的有效性和强大的泛化能力,展示了其在推进IRSTDS方面的潜力。
