CV君 2025-10-28 16:24 江苏
单图重建,姿态先行。
和聊一篇3D视觉领域的有趣工作,它关于如何从单张图片快速、精准地重建出三维模型。这项技术来自香港大学等机构的研究者们,他们提出的新方法名叫 CUPID,全称是 “Pose-Grounded Generative 3D Reconstruction from a Single Image”。
简单来说,CUPID能够看一张图,就“脑补”出这个物体的完整3D样貌,同时还能准确告诉你拍摄这张照片时相机的位置和角度。整个过程只需要几秒钟,效果非常惊艳。
上图展示了CUPID的强大能力。无论是物体的缩放、摆放位置变化,还是光照不同,它都能稳健地重建出精细的3D模型,甚至还能支持多物件场景的部件对齐重建。
研究背景与动机从一张图片重建三维模型,是计算机视觉里一个经典但又充满挑战的难题。你想,一张2D照片本身就丢失了深度信息,机器需要“想象”出那些看不见的部分。
过去的方法大致可以分为两类:
直接回归法:这类方法试图直接从图片预测出3D模型的几何形状,但通常只能恢复可见部分,对于被遮挡或看不见的区域就无能为力了。生成式方法:比如结合了3D GAN或扩散模型,这类方法能够生成完整的3D形状,但常常难以保证生成的三维模型和输入图片在视角、纹理上完全对齐,有时会产生“幻觉”,生成一些不符合实际的细节。一个核心的痛点在于,大部分生成模型在创造3D内容时,并没有显式地、准确地利用输入图像的“视角”信息,也就是相机姿态。如果姿态估计错了,那么模型就不知道应该把图像中的哪个像素贴到3D模型的哪个表面,自然就容易出错。
CUPID的作者们认为,相机姿态估计不应该是3D重建的后续步骤,而应该与3D内容的生成联合、协同进行。
CUPID的核心方法CUPID的解决思路非常巧妙,它把单图3D重建任务重新定义为一个“姿态引导”的条件生成过程。整个流程可以概括为两个阶段。
如上图所示,CUPID的流程非常清晰:
1. 第一阶段:姿态解耦与估计给定一张输入图像,模型首先会生成两个中间产物:一个表示物体占据空间的占用立方体(occupancy cube)和一个UV立方体(UV cube),它们都在一个标准化的“范式空间”(canonical space)中。接着,通过一个经典的 PnP (Perspective-n-Point) 算法,模型可以反解出输入图像对应的相机姿态。这一步是关键,它将姿态估计从一个模糊的神经网络预测问题,变成了一个有几何约束的优化问题,大大提升了准确性。2. 第二阶段:姿态引导的3D生成一旦获得了准确的相机姿态,模型就知道输入图像是从哪个角度拍摄的了。然后,它会利用这个姿态信息,从2D图像中提取出“姿态对齐”的条件特征,包括高层的语义特征和底层的视觉特征(如颜色、纹理)。这些特征会作为精确的引导信号,注入到一个3D生成器中,最终产出高质量的 3D高斯溅射(3D Gaussian splats) 和网格模型(Mesh)。上图的对比实验也证明了这种姿态对齐条件的重要性。与其他条件注入方式相比,CUPID的方法(e)在颜色保真度和细节还原上都达到了最佳效果。
场景与多视角扩展CUPID不止能处理单个物体,对于包含多个物体的复杂场景,它也有一套解决方案。
它可以先对每个物体进行单独重建,然后通过一个3D到3D的相似性变换,将它们严丝合缝地“拼”回原来的场景中。
此外,如果有多张不同视角的输入图像,CUPID还能像MultiDiffusion那样,融合多视角信息,进一步优化相机姿态、几何和纹理,得到更精细的重建结果。
CUPID在多个基准上都取得了当前最佳(SOTA)的性能。
定性对比从上图的定性对比中可以直观地看到,相比于LRM、LaRa、OnePoseGen等其他先进方法,CUPID生成的几何和外观都最为逼真。LRM会产生错误的细节,LaRa因为2D扩散模型的不一致性导致结果模糊,而OnePoseGen则经常在姿态估计上失败。
定量对比在定量指标上,CUPID同样表现出色。
上表展示了单目几何重建的准确度。CUPID在F-Score等指标上全面超越了所有3D重建和生成的基线方法。
而在输入视图一致性方面(上表),CUPID在姿态、几何和外观对齐的各项指标上也达到了最优水平,这证明了其姿态引导机制的有效性。
生成多样性与保真度CUPID作为一个生成模型,不仅要建得准,还得有合理的“想象力”。
给定一张图,CUPID能够生成多种对于未见区域的合理假设(上图中的不同随机种子结果),同时保持可见区域的高度一致性。
上图进一步区分了CUPID所做的“生成式重建”和传统的“3D生成”。后者的目标是创造新物体,而CUPID的目标是忠实地复现输入图像中的特定物体,这使得它在颜色和纹理上的一致性远超传统3D生成器。
总结总的来说,CUPID通过一个设计精巧的“姿态估计+引导生成”框架,很好地解决了单图3D重建中的核心痛点,在保证重建速度的同时,也实现了非常高的保真度和几何准确性。
你觉得这个技术未来会用在哪些场景?一起来聊聊吧!
