我爱计算机视觉 09月12日
点云预训练模型微调新范式:PointGST在谱域实现高效适配
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

针对大规模点云预训练模型微调成本高昂的瓶颈,华中科技大学团队提出了一种名为PointGST(Point cloud Graph Spectral Tuning)的参数高效微调(PEFT)方法。该方法创新性地将微调过程转移至“谱域”,通过图傅里叶变换将特征解耦并融入点云内在结构信息。仅使用0.67%的可训练参数,PointGST在ScanObjectNN数据集上将分类精度首次突破99%,达到99.48%,并能泛化至点云分割、检测等多种任务,展现了极高的效率和泛化能力。

🌟 **谱域微调新范式:** PointGST将参数高效微调(PEFT)的核心从传统的空间域转移到谱域。通过图傅里叶变换(GFT)将冻结预训练模型的空间域特征映射到谱域,利用谱基的正交性实现特征解耦,有效解决了空间域微调中常见的特征混淆问题,并能更自然地融入下游任务的点云内在几何结构信息。

🚀 **极致的参数效率与性能突破:** 该方法仅需训练极少量的参数(例如,在PointGPT-L模型上仅占0.67%),便能在ScanObjectNN等最具挑战性的点云学习基准上取得SOTA性能。在ScanObjectNN数据集上,PointGST首次将分类精度推至99.48%,显著超越了现有方法,几乎达到了该数据集的性能饱和。

🌐 **卓越的泛化能力与数据高效性:** PointGST不仅在多种点云任务(如分类、分割、检测、补全)上表现优异,还能成功应用于多种不同架构和规模的预训练模型(如Point-BERT, Point-MAE等),展现了强大的跨模型泛化能力。此外,在小样本学习场景下,PointGST同样表现出色,证明了其在数据稀缺情况下的巨大潜力。

💡 **解决核心挑战,赋能实际应用:** 传统点云预训练模型的完全微调面临模型体积大、微调成本高、部署困难等瓶颈。PointGST通过参数高效微调,在保持甚至超越现有性能的同时,大幅降低了计算资源和存储需求,为点云模型在实际场景中的快速迭代和落地应用提供了切实可行的解决方案。

52CV 2025-09-06 11:38 江苏

近年来,大规模点云预训练模型已成为3D视觉领域的基石,但其巨大的模型体积和高昂的微调成本,正逐渐成为研究和应用落地的一大瓶颈。如何在保持卓越性能的同时,将微调的“开销”降到最低?

近日,一项已被计算机视觉顶刊 IEEE TPAMI 接收的工作——PointGST (Point cloud Graph Spectral Tuning),为这一问题提供了全新的解决方案。这项由华中科技大学团队提出的全新参数高效微调(PEFT)方法,创新性地将视角落在了“谱域(Spectral Domain)”,仅用0.67%的可训练参数,就在ScanObjectNN数据集上,将分类精度首次突破99%,达到了惊人的99.48%,建立了全新的SOTA,几乎宣告了该数据集的性能饱和。此外,该方法还可泛化到点云分割,点云检测,甚至点云补全任务中,并取得优异表现。

论文标题: Parameter-Efficient Fine-Tuning in Spectral Domain for Point Cloud Learning

论文链接: https://ieeexplore.ieee.org/abstract/document/11106720/

代码链接: https://github.com/jerryfeng2003/PointGST

图1 数据集上的性能和可训练参数的直观比较一、 挑战:空间域微调的“迷雾”

预训练+微调(Pre-train, Fine-tune)已是当前AI领域的主流范式。然而,在点云领域,传统的完全微调(Full Fine-tuning)策略需要更新模型的所有参数,这不仅消耗海量的GPU显存和存储资源,也让模型的快速部署和迭代变得异常困难 。为了解决这个问题,学术界提出了多种参数高效微调(PEFT)方法 ,如IDPT、DAPT等 。这些方法通过冻结主干网络、仅训练少量可学习模块来降低成本 。然而,它们普遍存在一个核心局限:所有操作都在空间域(Spatial Domain)进行 。这会带来两大挑战:

特征混淆(Token Confusion):预训练模型学习的是通用知识,在面对下游具体任务时,从冻结模型中提取的特征可能会产生混淆 。例如,即使点云上两个几何结构相似的区域,其输出特征也可能差异巨大 ,这给后续的微调带来了困难。

内在信息缺失(Missing Intrinsic Information):下游任务点云自身独特的几何结构和拓扑关系(即内在信息)对于精准分析至关重要 。现有的PEFT方法很少能显式地利用这些宝贵信息 。

图2:现有空间域微调方法 vs. 该研究提出的谱域微调新范式二、 破局:从“空间”到“谱域”的跃迁

面对空间域的瓶颈,该研究的作者团队敏锐地发现,谱域为解决上述问题提供了绝佳的思路 。

核心思想: 将点云特征从复杂的空间域,通过图傅里叶变换(GFT)转换到信息更纯粹、结构更清晰的谱域进行微调 。这就像处理一段嘈杂的音频信号,直接在时域(相当于空间域)上分析可能一团乱麻,但通过傅里叶变换到频域(相当于谱域)后,各种频率成分一目了然,处理起来就得心应手了。

图3 PointGST流程图

PointGST正是基于这一洞察,设计了轻量级的点云谱域适配器(PCSA) 。其工作流程可以概括为:

构图与谱分解:将下游任务的原始点云构建成多尺度的图,并通过拉普拉斯矩阵的特征分解,得到一组能够反映点云内在几何结构的正交谱基 。这组基是数据原生的,包含了任务的“先验知识”。

信号上图,谱域转换:将冻结的预训练模型输出的特征视为图上的信号 ,利用第一步得到的谱基,通过图傅里叶变换(GFT)将其投影到谱域 。

谱域微调:在谱域中,混淆的特征信号被正交的谱基自然地解耦(de-correlated) ,优化过程变得更加轻松高效。PCSA仅需一个共享线性层,就能在谱域上对特征进行精准适配 。

返回空间域:微调完成后,通过逆图傅里叶变换(iGFT)将特征送回空间域,与主干网络无缝衔接 。

通过这一系列操作,PointGST巧妙地利用正交性化解了特征混淆 ,并将下游点云数据的内在结构信息融入微调过程 ,实现了知识的高效、精准迁移。

三、 实验结果

PointGST的性能到底有多卓越?一表胜千言!

该研究在多个权威数据集和任务上进行了详尽的实验,结果全面超越了现有方法 :

登顶性能之巅:在最具挑战性的ScanObjectNN数据集上,PointGST将PointGPT-L模型的精度从97.2%提升至98.97% (OBJ_BG),甚至在Voting设置下达到了99.48%,成为首个在该榜单上突破99%大关的方法 。在ModelNet40、ShapeNetPart等八个主流数据集上均取得了SOTA或极具竞争力的表现 。

极致的参数效率:达到上述惊人性能,PointGST的可训练参数量仅为2.4M,占PointGPT-L(360.5M)完全微调参数的0.67% 。相比其他PEFT方法,PointGST在参数更少的情况下,性能依然遥遥领先 。

卓越的泛化能力:PointGST被应用于Point-BERT、Point-MAE、ACT、RECON等多种不同结构和大小的预训练模型上,均表现出稳定且显著的性能提升。这解决了现有PEFT方法在不同模型上表现不一,甚至性能下降的痛点。

数据高效,无惧小样本:在少样本学习场景下,PointGST同样表现出色。仅使用2%的训练数据,其性能就远超其他PEFT方法,展现了在数据稀缺场景下的巨大潜力 。

图4 小样本场景下,提升更为明显图5:t-SNE特征可视化。相较于其他方法(c, d),PointGST(e)产生的特征簇间分离度更高,类别更清晰,证明了其强大的表征学习能力 。四、 总结与展望

本文提出了一种名为PointGST的点云参数高效微调方法。通过将微调过程从传统的空间域转换到谱域,该方法能够有效缓解冻结模型中的特征混淆问题,并融入下游数据自身的内在结构信息。大量的实验结果表明,PointGST在显著降低微调成本的同时,可以在多项基准测试上取得具有竞争力的性能。

总体而言,这项工作为点云模型的参数高效微调探索了一条在谱域中进行的新路径,为解决大模型落地应用中的效率与性能平衡问题提供了一个有益的思路。希望该研究能为社区在3D视觉及相关领域的发展带来一些参考和启发。

了解最新 AI 进展,欢迎关注公众号:aicvml投稿寻求报道请发邮件至:amos@52cv.net欢迎点赞、转发、评论。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

点云 预训练模型 参数高效微调 谱域 Point cloud Pre-trained models Parameter-efficient fine-tuning Spectral domain PointGST 3D视觉 AI 计算机视觉 3D Vision AI Computer Vision
相关文章