我爱计算机视觉 09月07日
SSGaussian:三维风格迁移的新范式
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

浙江大学团队提出SSGaussian,一种创新的3D风格迁移方法,解决了现有技术在理解和传递艺术“灵魂”、保持场景结构清晰度方面的不足。该方法利用2D扩散模型先验,通过两阶段管线实现语义感知和结构保持,将风格的“神韵”与场景的“筋骨”完美结合,生成兼具艺术美感与结构清晰度的3D风格化世界。其核心创新包括跨视角风格对齐(CVSA)和实例级风格迁移(IST),显著提升了多视角一致性和场景结构清晰度,在实验中全面超越了现有SOTA方法。

🌟 **语义感知与结构保持的融合**:SSGaussian 旨在解决现有3D风格迁移方法在理解风格图像的高层次艺术“灵魂”(如梵高《星夜》中的漩涡)和保持三维场景结构清晰度方面的不足。通过引入“语义感知”(Semantic-Aware)和“结构保持”(Structure-Preserving)的概念,SSGaussian 能够更准确地传递风格的精髓,并确保风格化后的三维场景物体边界清晰,层次分明。

🎨 **创新的两阶段管线与2D扩散模型先验**:该方法并未直接在复杂三维场景上进行风格化,而是采用了“先降维,后升维”的策略。首先,从3D高斯场景中提取关键2D视角,利用强大的预训练2D扩散模型进行高质量风格化;随后,将风格化的2D图像信息精准迁移回完整的三维高斯表示。这种策略巧妙地借助了2D扩散模型强大的先验知识。

🔄 **跨视角风格对齐(CVSA)**:为解决独立风格化不同视角可能导致风格不一致的问题,SSGaussian 在扩散模型的U-Net结构中引入了跨视角注意力机制。这使得模型在生成某个视角图像时,能够参考其他视角的信息,从而确保所有关键视角的风格化结果在语义和细节上保持高度一致性,避免了风格错配。

🧩 **实例级风格迁移(IST)**:为了在将2D风格迁移回3D场景时保持物体的独立性和结构感,SSGaussian 提出了实例级风格迁移。该方法能够识别并利用不同关键视角中相同的物体实例,并将风格作为一个整体应用到该三维物体上,避免风格“溢出”到邻近物体,从而保证了最终3D场景结构清晰、层次分明。

🏆 **卓越的实验结果与用户认可**:SSGaussian 在各种场景下与现有SOTA方法进行了全面的定性和定量比较。结果表明,SSGaussian 生成的场景在艺术表现力、风格贴合度以及结构清晰度上均远超其他方法。定量指标和用户研究均证实了其在多视角一致性、渲染质量以及主观视觉感受上的巨大优势。

CV君 2025-09-07 11:41 江苏

将梵高的《星夜》“画”在一个三维场景上,是一种怎样的体验?近年来,随着NeRF和3D高斯溅射(3D Gaussian Splatting)等三维神经表示技术的兴起,3D风格迁移成为了一个热门研究方向。然而,现有的方法往往只能机械地“粘贴”纹理,却难以理解和传递风格图像中高层次的艺术“灵魂”——比如,天空应该有漩涡,而不是简单地涂成蓝色。同时,风格化后的三维场景常常显得模糊混乱,物体与物体之间界限不清。

为了解决这些问题,来自浙江大学的研究团队提出了一种全新的3D风格迁移管线——SSGaussian。这个名字本身就揭示了其核心目标:Semantic-Aware (语义感知) 和 Structure-Preserving (结构保持) 。通过巧妙地利用强大的2D扩散模型先验,SSGaussian成功地将风格的“神韵”与场景的“筋骨”完美结合,生成了前所未有的、兼具艺术美感与结构清晰度的3D风格化世界。

研究背景:3D风格迁移的“形似”与“神似”之困

当前的3D风格迁移方法,虽然能够将风格图像的颜色、笔触等低级模式应用到三维场景中,并保持多视角的一致性,但它们往往在两个更深层次的方面表现不佳:

    缺乏语义理解:模型无法真正“看懂”风格图像。它不知道梵高的《星夜》中,漩涡状的笔触是用来描绘天空的,因此可能会错误地将这种风格应用到建筑或地面上,导致风格错配。

    破坏场景结构:风格化过程常常会模糊场景中不同物体之间的边界,使得整个场景看起来像一锅“五彩粥”,失去了原有的结构感和深度感,难以分辨独立的物体实例。

SSGaussian正是为了解决“神韵不准”和“筋骨不清”这两大痛点而设计的。

SSGaussian:两阶段“升维”的艺术创作法

SSGaussian的核心是一种创新的两阶段管线,它没有直接对复杂的三维场景进行风格化,而是采取了一种更聪明的“先降维,后升维”的策略。

SSGaussian 整体管线示意图

第一阶段:利用扩散模型,对2D关键视角进行高质量风格化。首先,从原始的3D高斯场景中选取几个有代表性的“关键视角”,渲染出它们的2D图像。然后,借助强大的预训练2D扩散模型(如Stable Diffusion),将参考风格应用到这些2D图像上。

第二阶段:将风格化的2D关键视角“升维”迁移回3D高斯表示。在获得了一组高质量、风格一致的2D图像后,再将这些图像上的风格信息精准地迁移回完整的三维高斯场景中。

两阶段风格化流程图解

为了实现这一流程,作者设计了两大核心创新模块:

创新一:跨视角风格对齐 (Cross-View Style Alignment, CVSA)

在第一阶段,如何保证多个关键视角的风格化结果是相互一致的?如果独立地对每张图进行风格化,很可能出现“左边视角的天是蓝色,右边视角的天是绿色”的矛盾情况。为此,作者在扩散模型的U-Net结构中引入了跨视角注意力机制。这使得在为某个视角生成图像时,模型能够“参考”其他视角的信息,从而确保所有关键视角的风格化结果在语义和细节上都保持高度一致。

CVSA模块显著提升了多视角间的风格一致性

创新二:实例级风格迁移 (Instance-level Style Transfer, IST)

在第二阶段,如何将2D风格迁移回3D场景,同时保持物体的独立性和结构感?作者提出了实例级风格迁移。该方法能够识别并利用不同关键视角中相同的物体实例(例如,同一栋建筑在不同视角下的样子),并将风格作为一个整体应用到这个三维物体上。这保证了风格不会“溢出”到邻近的物体上,从而使得最终的3D场景结构清晰,层次分明。

IST方法有效减少了模糊和视觉伪影,使场景结构更清晰

实验结果:全方位超越SOTA

SSGaussian在各种场景(包括前视场景和更具挑战性的360度场景)下,与现有的SOTA方法进行了全面的定性和定量比较。

从定性结果来看,SSGaussian生成的场景不仅风格更贴近参考图的“神韵”,而且物体边缘清晰,结构感强,艺术表现力远超其他方法。

在前视场景(LLFF数据集)上的定性对比

在360度场景(Tanks and Temples数据集)上的定性对比

定量指标也同样印证了其优越性。无论是在衡量多视角一致性的LPIPS和RMSE指标上,还是在衡量风格/内容损失的指标上,SSGaussian都取得了最佳或接近最佳的成绩。

一致性指标定量对比

渲染质量指标定量对比

此外,用户研究表明,认为SSGaussian的风格化结果在整体上优于其他方法也居于多数,显示了其在主观视觉感受上的巨大优势。

用户研究结果

写在最后

SSGaussian为3D风格迁移领域带来了一股清新的空气。它没有沿着老路去直接优化三维表示,而是巧妙地借助了2D扩散模型强大的先验知识,通过“2D生成->3D迁移”的两阶段管线,成功地解决了语义感知和结构保持两大核心难题。

其提出的 跨视角风格对齐(CVSA) 和 实例级风格迁移(IST) 两个创新模块,为保证多视角一致性和场景结构清晰度提供了行之有效的解决方案。

这项工作不仅显著提升了3D风格迁移的艺术表现力和视觉质量,也为未来如何将强大的2D生成先验知识应用于三维内容创作提供了宝贵的思路和范例。

了解最新 AI 进展,欢迎关注公众号:aicvml投稿寻求报道请发邮件至:amos@52cv.net欢迎点赞、转发、评论。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

3D风格迁移 SSGaussian 三维神经表示 3D Gaussian Splatting NeRF 2D扩散模型 计算机视觉 人工智能 3D Style Transfer SSGaussian 3D Neural Representations 2D Diffusion Models Computer Vision Artificial Intelligence
相关文章