我爱计算机视觉 10月29日 17:05
CUPID:单图三维重建新方法,姿态先行
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

香港大学等机构的研究者们提出了一种名为CUPID的新方法,用于从单张图片快速、精准地重建三维模型。CUPID能够“脑补”出物体的完整3D样貌,并准确估计相机位置和角度,整个过程仅需几秒钟。该方法将姿态估计与3D内容生成联合进行,通过姿态解耦与估计,再进行姿态引导的3D生成,利用2D图像的姿态对齐特征,最终产出高质量的3D高斯溅射和网格模型。CUPID在多个基准上均取得了SOTA性能,并在几何和外观上表现出高度逼真性,为单图三维重建带来了显著的进步。

✨ **姿态先行,精准引导**:CUPID的核心创新在于将相机姿态估计作为3D重建的关键前提,而非后续步骤。通过将姿态估计转化为几何约束的优化问题,并与3D内容生成协同进行,确保了模型在视角和纹理上的精确对齐,有效解决了传统方法中姿态不准导致的“幻觉”问题。

💡 **两阶段高效流程**:CUPID采用两阶段流程:首先,从输入图像生成占用立方体和UV立方体,并利用PnP算法反解出相机姿态。接着,基于准确的相机姿态,提取姿态对齐的条件特征,注入3D生成器,产出高质量的3D模型。整个过程高效,可在几秒内完成。

🚀 **卓越的重建性能**:在多个基准测试中,CUPID均达到了当前最佳(SOTA)的性能。无论是几何的准确性还是外观的逼真度,CUPID都显著优于现有方法,能够稳健地处理物体缩放、位置变化和光照差异,并支持多物件场景的部件对齐重建。

🌐 **多场景与多视角扩展**:CUPID不仅能处理单体物体,还能通过部件对齐重建复杂的多物件场景。当有多张不同视角的输入图像时,CUPID能够融合多视角信息,进一步优化姿态、几何和纹理,生成更精细的重建结果。

CV君 2025-10-28 16:24 江苏

单图重建,姿态先行。

和聊一篇3D视觉领域的有趣工作,它关于如何从单张图片快速、精准地重建出三维模型。这项技术来自香港大学等机构的研究者们,他们提出的新方法名叫 CUPID,全称是 “Pose-Grounded Generative 3D Reconstruction from a Single Image”。

简单来说,CUPID能够看一张图,就“脑补”出这个物体的完整3D样貌,同时还能准确告诉你拍摄这张照片时相机的位置和角度。整个过程只需要几秒钟,效果非常惊艳。

论文标题: CUPID: Pose-Grounded Generative 3D Reconstruction from a Single Image

作者: Binbin Huang, Haobin Duan, Yiqun Zhao, Zibo Zhao, Yi Ma, Shenghua Gao

机构: 香港大学、Transcengram、Tencent

论文地址: https://arxiv.org/abs/2510.20776

项目主页: https://cupid3d.github.io/

上图展示了CUPID的强大能力。无论是物体的缩放、摆放位置变化,还是光照不同,它都能稳健地重建出精细的3D模型,甚至还能支持多物件场景的部件对齐重建。

研究背景与动机

从一张图片重建三维模型,是计算机视觉里一个经典但又充满挑战的难题。你想,一张2D照片本身就丢失了深度信息,机器需要“想象”出那些看不见的部分。

过去的方法大致可以分为两类:

直接回归法:这类方法试图直接从图片预测出3D模型的几何形状,但通常只能恢复可见部分,对于被遮挡或看不见的区域就无能为力了。

生成式方法:比如结合了3D GAN或扩散模型,这类方法能够生成完整的3D形状,但常常难以保证生成的三维模型和输入图片在视角、纹理上完全对齐,有时会产生“幻觉”,生成一些不符合实际的细节。

一个核心的痛点在于,大部分生成模型在创造3D内容时,并没有显式地、准确地利用输入图像的“视角”信息,也就是相机姿态。如果姿态估计错了,那么模型就不知道应该把图像中的哪个像素贴到3D模型的哪个表面,自然就容易出错。

CUPID的作者们认为,相机姿态估计不应该是3D重建的后续步骤,而应该与3D内容的生成联合、协同进行。

CUPID的核心方法

CUPID的解决思路非常巧妙,它把单图3D重建任务重新定义为一个“姿态引导”的条件生成过程。整个流程可以概括为两个阶段。

如上图所示,CUPID的流程非常清晰:

1.  第一阶段:姿态解耦与估计给定一张输入图像,模型首先会生成两个中间产物:一个表示物体占据空间的占用立方体(occupancy cube)和一个UV立方体(UV cube),它们都在一个标准化的“范式空间”(canonical space)中。

接着,通过一个经典的 PnP (Perspective-n-Point) 算法,模型可以反解出输入图像对应的相机姿态。这一步是关键,它将姿态估计从一个模糊的神经网络预测问题,变成了一个有几何约束的优化问题,大大提升了准确性。

2.  第二阶段:姿态引导的3D生成一旦获得了准确的相机姿态,模型就知道输入图像是从哪个角度拍摄的了。

然后,它会利用这个姿态信息,从2D图像中提取出“姿态对齐”的条件特征,包括高层的语义特征和底层的视觉特征(如颜色、纹理)。

这些特征会作为精确的引导信号,注入到一个3D生成器中,最终产出高质量的 3D高斯溅射(3D Gaussian splats) 和网格模型(Mesh)。

上图的对比实验也证明了这种姿态对齐条件的重要性。与其他条件注入方式相比,CUPID的方法(e)在颜色保真度和细节还原上都达到了最佳效果。

场景与多视角扩展

CUPID不止能处理单个物体,对于包含多个物体的复杂场景,它也有一套解决方案。

它可以先对每个物体进行单独重建,然后通过一个3D到3D的相似性变换,将它们严丝合缝地“拼”回原来的场景中。

此外,如果有多张不同视角的输入图像,CUPID还能像MultiDiffusion那样,融合多视角信息,进一步优化相机姿态、几何和纹理,得到更精细的重建结果。

实验结果与分析

CUPID在多个基准上都取得了当前最佳(SOTA)的性能。

定性对比

从上图的定性对比中可以直观地看到,相比于LRM、LaRa、OnePoseGen等其他先进方法,CUPID生成的几何和外观都最为逼真。LRM会产生错误的细节,LaRa因为2D扩散模型的不一致性导致结果模糊,而OnePoseGen则经常在姿态估计上失败。

定量对比

在定量指标上,CUPID同样表现出色。

上表展示了单目几何重建的准确度。CUPID在F-Score等指标上全面超越了所有3D重建和生成的基线方法。

而在输入视图一致性方面(上表),CUPID在姿态、几何和外观对齐的各项指标上也达到了最优水平,这证明了其姿态引导机制的有效性。

生成多样性与保真度

CUPID作为一个生成模型,不仅要建得准,还得有合理的“想象力”。

给定一张图,CUPID能够生成多种对于未见区域的合理假设(上图中的不同随机种子结果),同时保持可见区域的高度一致性。

上图进一步区分了CUPID所做的“生成式重建”和传统的“3D生成”。后者的目标是创造新物体,而CUPID的目标是忠实地复现输入图像中的特定物体,这使得它在颜色和纹理上的一致性远超传统3D生成器。

总结

总的来说,CUPID通过一个设计精巧的“姿态估计+引导生成”框架,很好地解决了单图3D重建中的核心痛点,在保证重建速度的同时,也实现了非常高的保真度和几何准确性。

你觉得这个技术未来会用在哪些场景?一起来聊聊吧!

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

3D重建 单图三维 计算机视觉 CUPID 姿态估计 生成模型 3D Reconstruction Single-Image 3D Computer Vision Pose Estimation Generative Models
相关文章