智源社区 08月01日
随手拍照片就能VR云旅游!无位姿、稀疏图像条件下实现稳定3D重建和新视角合成|港科广
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

香港科技大学(广州)的研究团队提出了一种名为RegGS的新算法,能够将稀疏且缺乏精确相机位姿信息的2D图片高效重建为厘米级精度的3D数字模型,效果可直接用于VR体验。该方法巧妙地结合了前馈式高斯表示与结构级配准机制,解决了传统方法在鲁棒性和灵活性上的矛盾。RegGS通过局部3D高斯混合模型的注册与融合,利用熵正则化的Mixture Wasserstein-2距离(MW2)进行结构对齐,并在Sim(3)空间中联合优化尺度、旋转和平移,实现了尺度自适应。该框架无需SfM初始化,也不依赖大量图像输入,极大地拓宽了3D重建在个人视频3D化、无人机航拍建图、历史图像还原等实际应用场景中的可行性。RegGS在RE10K和ACID数据集上的实验结果表明,在多种输入帧数下,其PSNR、SSIM和LPIPS等指标均优于现有主流方法。

🌟 RegGS算法的核心创新在于其“注册与融合”机制,通过对局部3D高斯混合模型进行结构配准,逐步构建全局3D场景。这解决了传统方法在稀疏、无位姿图像重建中的挑战,实现了对不理想输入数据的鲁棒处理。具体而言,它引入了熵正则化的Mixture Wasserstein-2距离(MW2)作为衡量高斯分布间结构对齐度的指标,并在Sim(3)空间中联合优化尺度、旋转和平移,实现了尺度的自适应。

🚀 RegGS的设计巧妙地克服了传统3D重建方法的局限性。它摆脱了对SfM(Structure from Motion)初始化过程的依赖,并且不要求输入图像数量庞大,这使得它能够适应更宽松、更现实的数据采集环境。通过融合MW2距离、颜色一致性和深度一致性,RegGS实现了一个由粗到细的稳定配准模块,确保了重建的准确性和有效性,尤其是在实际应用中常见的“非理想输入”场景。

💡 RegGS在多个数据集的实验中展现了优越的性能,其在不同输入帧数下的PSNR、SSIM和LPIPS等评估指标上全面超越了现有主流方法。这证明了RegGS在处理稀疏且缺乏位姿信息图像进行3D重建方面的强大能力,为个人用户视频的3D化、无人机航拍建图以及历史图像/文档的还原等应用提供了切实可行的解决方案。

⚠️ 尽管RegGS取得了显著进展,研究团队也坦诚了其局限性。目前,算法的性能和效率在一定程度上受到上游前馈模型生成质量的影响,同时MW2距离计算也带来一定的计算开销。这些方面为未来的研究和优化提供了明确的方向,预示着该技术未来仍有进一步提升的空间。

想象一下,你随便用手机拍了几张家里的照片,没有精确的相机位置,甚至照片之间重叠都很少。

现在,一个新算法能把这些零散的2D图片,“拼”成一个厘米级精度的3D数字模型,效果好到可以直接放进VR头显里“云旅游”。

在许多实际场景中,图像间的重叠有限、拍摄角度跨度大,且往往缺乏准确的相机姿态信息。

传统NeRF虽能联合优化位姿和辐射场,但计算代价高、难以收敛;而NoPose类的feed-forward模型虽然高效,却只能处理极少张图片,无法泛化到大规模场景。

这就引出了一个核心矛盾:基于优化的方法不够鲁棒,前馈式的方法不够灵活。

那么能否鱼与熊掌兼得?来自香港科技大学(广州)的一项研究工作RegGS,通过对局部3D高斯表示进行注册与融合,为这一挑战提供了新的解决方案。

方法核心机制:高斯之间的结构配准(Registration)

港科广团队提出了一种面向稀疏无位姿图像的三维重建方法——RegGS,结合前馈式的高斯表示与结构级配准机制,探索了在实际数据约束下实现可用3D重建的一种新路径。一套新的配准框架:

图:RegGS整体流程图

RegGS的核心机制是对局部3D高斯混合模型进行配准(registration),并逐步构建全局3D场景:

    引入熵正则化的Mixture Wasserstein-2距离(MW2)作为高斯分布间的结构对齐度量;
    在Sim(3)空间中对尺度、旋转和平移联合优化,尺度自适应;
    融合MW2距离、颜色一致性和深度一致性联合3DGS配准模块,由粗到细稳定配准;

这种设计避免了依赖 SfM 的初始化过程,也不要求图像输入数量较多,适用于更宽松、现实的数据环境。

实验与开放资源

在RE10K和ACID两个数据集上,RegGS在不同输入帧数(2×/8×/16×/32×)下,PSNR、SSIM和LPIPS等指标全面领先现有主流方法。

图:RegGS新视角合成结果
图:RegGS定量的评估结果

应用潜力:适配多种“非理想输入”重建任务

RegGS 所解决的“稀疏+无位姿”问题在多个应用中极具现实意义:

    个人/UGC视频的3D化:
    用户拍摄的短视频通常没有相机参数,但RegGS可以实现从少量画面中直接还原空间结构;
    - 无人机航拍建图:相比多视图几何和SLAM,RegGS对于视角跨度大、帧率低的航拍视频更鲁棒;
    - 历史图像/文档还原:博物馆、新闻档案等场景中仅存几张不同角度照片,RegGS有望在没有精确姿态的情况下进行三维重建;

与传统基于SfM或Bundle Adjustment的重建方法相比,RegGS不需要全局可视性或特征匹配,结构性要求更低,在“非结构化输入”的应用中更具可行性。

同时,研究团队也分析了方法的局限性,当前方法的性能和效率在一定程度上受限于上游前馈模型的生成质量,以及MW_2距离计算带来的开销,这些都是未来值得继续优化的方向。

总之,RegGS 提供了一种将最优传输、可微配准与高斯表示相结合的稀疏3D重建框架,不仅拓展了3DGS方法在无位姿/稀疏数据下的应用能力,也为更多现实场景下的空间理解任务提供了新思路。

论文链接:arxiv.org/abs/2507.13285
项目主页:https://3dagentworld.github.io/RegGS/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

🌟 点亮星标 🌟

科技前沿进展每日见

内容中包含的图片若涉及版权问题,请及时与我们联系删除

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

RegGS 三维重建 稀疏图像 无位姿 高斯表示
相关文章