本期报告聚焦ICCV2025最佳论文奖(马尔奖)得主邓康乐博士关于3D内容创作的研究。报告探讨了如何通过数据先验,如照片、草图或文本,降低3D内容创作门槛。研究涵盖了利用深度先验实现3D场景数字化,通过2D输入进行交互式3D编辑,以及端到端的文本到3D生成流程,同步生成3D资产的几何与纹理。在几何生成方面,采用了基于八叉树的自适应标记方案以提高保真度和效率。在外观建模上,利用扩散模型生成可重新打光的纹理。特别地,BrickGPT能够根据文本提示生成物理结构稳定、可实际搭建的积木结构,将数字设计与现实世界连接。这些研究系统性地解决了3D内容创作中的核心挑战。
✨ **降低3D内容创作门槛**:通过利用照片、草图或文本等多种模态的数据先验,显著简化了3D内容创作的流程,使得普通用户也能轻松创建3D内容,而无需繁琐的手动操作或专业设备。
🎨 **多模态3D生成与编辑**:研究展示了如何利用深度先验实现3D场景的数字化,并支持通过草图等2D用户输入进行交互式3D编辑和生成,实现了从高层用户意图到可用3D内容的转化。
🧱 **端到端的文本到3D生成与物理稳定性**:提出了一种端到端的文本到3D生成流程,能够同时生成3D资产的几何与纹理。特别之处在于BrickGPT能够根据文本提示生成物理结构稳定且可实际搭建的积木结构,确保数字设计与现实世界的兼容性。
⚙️ **高效几何与外观建模**:在几何生成方面,采用基于八叉树的自适应标记方案,根据形状复杂度分配表示能力,实现高保真度和高效率的3D形状重建与生成。在外观建模方面,利用数据与扩散模型先验,生成可重新打光的纹理,使其在下游生产流程中直接可用。

报告主题:ICCV2025最佳论文「马尔奖」从文本生成物理稳定且可搭建的积木结构
报告日期:10月30日(周四) 10:30-11:30
随着虚拟现实(VR)、增强现实(AR)及其他3D应用的普及,开发能让普通用户创建自有3D内容的技术,已变得至关重要。然而,当前的3D创作流程往往需要繁琐的手动操作或专业的捕捉设备。此外,生成的模型资产也常存在光照烘焙、表示不一致与物理合理性缺失等问题,从而限制了其在下游应用中的使用。本报告将讨论利用数据先验的方法显著降低3D内容创作的门槛。通过利用来自其他模态、大规模数据集及预训练生成模型的信息,本研究将用户输入的负担降至仅需随意拍摄的照片、简单草图或文本提示。我们首先展示了如何利用深度先验,使用户无需密集数据采集即可实现3D场景的数字化,并探讨了如何通过草图等2D用户输入实现交互式3D编辑与生成。随后,我们提出了一个端到端的文本到3D生成流程,能够同时生成3D资产的几何与纹理。在几何生成方面,我们提出了一种基于八叉树的自适应标记方案,它能根据形状复杂度分配表示能力,从而实现更高保真度且更高效的3D形状重建与生成。在外观建模方面,我们利用数据与扩散模型先验,通过文本输入在网格上生成可重新打光的纹理,确保生成的3D对象能在下游生产流程中直接使用。最后,为了使数字设计与现实世界接轨,我们引入了BrickGPT,它融合了制造与物理约束,能够根据文本提示生成物理结构稳定且可实际搭建的积木结构。总而言之,这些研究系统性地攻克了几何、外观与物理生成中的核心挑战,从而实现了从高层用户意图创建可用、可编辑且符合物理规律的3D内容。邓康乐(Kangle Deng),卡内基梅隆大学(CMU)博士,师从Deva Ramanan与朱俊彦(Jun-Yan Zhu)教授。他的研究工作荣获2025年ICCV最佳论文奖(Marr Prize),并获得微软博士奖学金(Microsoft Research Fellowship Award)支持。本科毕业于北京大学,在校期间凡符合评选资格年份,均荣膺国家奖学金(共三次,获奖比例前1%)。其主要研究方向为3D生成,在CVPR、ICCV、ECCV、NeurIPS、ICLR等国际顶级会议上发表论文10余篇。扫码报名
更多热门报告


内容中包含的图片若涉及版权问题,请及时与我们联系删除