机器之心 10月22日 17:08
ICCV 2025 颁奖:CMU 团队获最佳论文,多项前沿技术获认可
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

国际计算机视觉大会 ICCV 2025 揭晓了本年度各项大奖。来自卡耐基梅隆大学(CMU)朱俊彦教授团队的论文《Generating Physically Stable and Buildable Brick Structures from Text》荣获最佳论文奖,该研究提出了 BrickGPT,能够根据文本生成物理稳定的积木结构。此外,CMU 的另一项关于空间可变景深成像的研究获得最佳论文提名。以色列理工学院的研究团队凭借《FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models》荣获最佳学生论文奖,该方法实现了无需反演的文本驱动图像编辑。大会还颁发了 Helmholtz Prize、Everingham Prize、Significant Researcher Award 以及 Azriel Rosenfeld Award,表彰了在目标检测、图像分类、人体模型、多模态 AI、研究方法和终身成就等领域的杰出贡献。

🏆 **最佳论文奖:CMU 的 BrickGPT 创新生成稳定积木结构** 卡耐基梅隆大学(CMU)朱俊彦教授团队荣获 ICCV 2025 最佳论文奖,其论文《Generating Physically Stable and Buildable Brick Structures from Text》提出了 BrickGPT。该方法是首个能够根据文本提示生成物理稳定且可搭建的积木结构模型。研究团队构建了大规模数据集,并训练了自回归大型语言模型,通过引入有效的有效性检查和基于物理约束的回滚机制,确保生成设计的稳定性和多样性。该模型不仅能生成美观的结构,还能支持人类手动或机械臂组装,并公开了包含 47,000 多个积木结构的 StableText2Brick 数据集。

🌟 **最佳学生论文奖:FlowEdit 实现无反演文本图像编辑** 以色列理工学院的研究团队凭借《FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models》摘得最佳学生论文奖。FlowEdit 提出了一种新颖的图像编辑方法,它创新地绕开了传统图像编辑中常见的「图像 → 噪声图 → 编辑后图像」的反演路径。通过构建常微分方程,FlowEdit 直接在源图像分布和目标图像分布之间建立映射,从而在编辑过程中最大程度地保留原始图像的结构和内容,实现了更高保真度的编辑。该方法在 Stable Diffusion 3 和 FLUX 等先进模型上进行了验证,并在各类复杂编辑任务中取得了 SOTA 效果。

💡 **多项领域贡献获表彰:Helmholtz、Everingham、Significant Researcher 及 Azriel Rosenfeld 奖项** ICCV 2025 还颁发了其他重要奖项,以表彰对计算机视觉领域的广泛贡献。Helmholtz Prize 测试方法奖授予了 Fast R-CNN 和 Delving Deep into Rectifiers 等在目标检测和图像分类领域具有里程碑意义的工作。Everingham Prize 严谨评估奖表彰了在人体 3D 模型 SMPL 和 VQA 数据集方面的贡献。Significant Researcher Award 颁给了 David Forsyth 和 Michal Irani,以表彰他们在物体识别、动作分析、图像-语言交叉研究以及视觉推断与学习等方面的开创性工作。Azriel Rosenfeld Award 终身成就奖则授予了 Rama Chellappa,以表彰其在人脸识别、运动分析等领域的奠基性贡献和持续影响力。

机器之心报道

机器之心编辑部


10 月 22 日凌晨,国际计算机视觉大会 ICCV(IEEE International Conference on Computer Vision)揭幕了本年度最佳论文等奖项。


来自卡耐基梅隆大学(CMU)的研究获得了最佳论文奖,以色列理工学院(Technion)的研究获得最佳学生论文奖。



ICCV 是全球计算机视觉三大顶会之一,每两年举办一次,今年的会议在美国夏威夷举行。数据显示,今年大会共收到了 11239 份有效投稿,程序委员会推荐录用 2699 篇论文,最终录用率为 24%,相比上一届论文数量又有大幅增长。


最佳论文


最佳论文奖是来自卡耐基梅隆大学,AI 领域知名青年学者朱俊彦带领团队的论文《Generating Physically Stable and Buildable Brick Structures from Text》。



朱俊彦,清华大学校友,卡耐基梅隆大学计算机科学学院助理教授,前 Adobe 研究科学家。主要研究方向是计算机视觉、图形学、计算摄影和生成模型。



论文标题:Generating Physically Stable and Buildable Brick Structures from Text

论文链接:https://arxiv.org/pdf/2505.05469

开源代码与模型:https://avalovelace1.github.io/BrickGPT/


这篇论文提出了 BrickGPT,是首个能够根据文本提示生成物理稳定的相互连接的积木装配模型的方法。



为实现这一目标,研究团队构建了一个大规模、物理稳定的积木结构数据集,并为每个结构配备了对应的文本描述。随后,研究团队训练了一个自回归大型语言模型,通过「预测下一个 token」的方式来预测应添加的下一块积木。


为了提高生成设计的稳定性,研究者在自回归推理过程中引入了高效的有效性检查(validity check)和基于物理约束的回滚机制(physics-aware rollback),利用物理定律与装配约束来剪枝不可行的 token 预测。


实验结果表明,BrickGPT 能够生成稳定、多样且美观的积木结构,并且与输入的文本提示高度契合。我们还开发了一种基于文本的积木贴图方法,用于生成带有颜色和纹理的设计。


此外,这些设计既可以由人类手动装配,也可以由机械臂自动组装。同时,研究者公开了新的数据集 StableText2Brick,其中包含 47,000 多个积木结构、超过 28,000 个独特的三维对象及其详细描述文本。



该论文的方法流程如图所示。


首先,系统将一个积木结构离散化为一串文本 token 序列,按自下而上、逐行扫描(raster-scan)的顺序排列。


随后,研究者们构建了一个指令数据集,将积木序列与相应的文本描述配对,用于对 LLaMA-3.2-Instruct-1B 进行微调。


最后在推理阶段,BrickGPT 根据输入的文本提示,逐块预测生成积木结构。


对于每一个生成的积木,我们都会执行一系列有效性检查,以确保该积木:


格式正确;

存在于积木库中;

不与已有积木发生碰撞。


在完成整体设计后,研究者们会对其物理稳定性进行验证。若检测到结构不稳定,系统会回滚至最近的稳定状态,即删除所有不稳定的积木及其后续部分,并从该位置继续生成。



将该论文方法与多种基线模型进行对比评估,评价指标包括:有效性(validity):是否存在超出积木库、越界或相互碰撞的积木;稳定性(stability);基于 CLIP 的文本相似度以及基于 DINOv2 的图像相似度。其中,稳定性、CLIP 相似度和 DINO 相似度的计算仅针对有效结构进行。对于 LLaMA-Mesh ,有效性要求其生成的 OBJ 文件格式正确。


实验结果表明,该论文的方法在采用拒绝采样(rejection sampling)与回滚机制(rollback)后,在有效性与稳定性上全面优于所有基线模型及其消融设置,同时仍保持较高的文本相似度。



结果展示与基线对比。该论文方法能够根据给定的文本提示,生成高质量、多样化且具有新颖性的积木结构。其中,黑色积木表示发生碰撞的部分。


在该研究之外,同样来自 CMU 的论文《Spatially-Varying Autofocus》获得了 ICCV 2025 最佳论文提名奖。



论文地址:https://imaging.cs.cmu.edu/svaf/static/pdfs/Spatially_Varying_Autofocus.pdf


传统镜头只能在单一平面上成像清晰;因此,位于该焦平面之外的场景部分会因离焦而模糊。那么,能否打破这一成像规律,构建一种能够任意调整景深的「镜头」?


本研究探讨了这种具备空间选择性聚焦能力(spatially-selective focusing)的计算镜头的设计与实现。研究者采用了一种由 Lohmann 镜头与仅相位空间光调制器(phase-only SLM)组成的光学结构,使得每个像素都能聚焦在不同的深度平面上。在此基础上,我们将经典的自动对焦方法扩展到空间可变聚焦场景中,通过对比度与视差线索迭代估计深度图,从而使相机能够逐步调整景深形状以匹配场景深度分布。


通过这种方式,我们能够在光学层面上直接获得全清晰图像。与以往研究相比,本方法在两方面实现了突破:能够同时使整个场景清晰成像;能够保持最高的空间分辨率。


最佳学生论文


最佳论文奖是来自以色列理工学院(Technion)的论文《FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models》。



这篇论文介绍了一种名为 FlowEdit 的新型图像编辑方法。



论文地址:https://arxiv.org/abs/2412.08629

项目主页:https://matankleiner.github.io/flowedit/

Code&Data:https://github.com/fallenshock/FlowEdit

HuggingFace:https://huggingface.co/spaces/fallenshock/FlowEdit



研究者指出,使用预训练的文本到图像(T2I)扩散或流模型编辑真实图像时,通常需要将图像「反演」为其对应的噪声图。然而,单独的反演往往无法很好地保留原图的结构与细节,因此许多现有方法会在采样过程中额外进行干预。尽管这些方法提升了效果,但却无法在不同模型架构之间无缝迁移。


FlowEdit 创新地绕开了「图像 → 噪声 → 编辑后图像」的传统路径。它通过构建一个常微分方程(ODE),直接在源图像分布(由源提示词定义)与目标图像分布(由目标提示词定义)之间建立了一条直接映射路径。



这条直接路径实现了更低的传输成本,这意味着在编辑过程中能够最大程度地保留原始图像的结构和内容,从而实现更高保真度的编辑。


研究团队在 Stable Diffusion 3 和 FLUX 这两个先进的 T2I 流模型上对 FlowEdit 进行了广泛的实验验证。结果表明,该方法在各类复杂的编辑任务中均取得了 SOTA 效果,证明了其高效性和优越性。



此外,来自德州大学奥斯丁分校的论文《RayZer: A Self-supervised Large View Synthesis Model》获得了最佳学生论文提名奖。



论文地址:https://arxiv.org/abs/2505.00702


研究人员提出了一个名为 RayZer 的自监督多视图 3D 视觉模型。该模型最核心的特点是,它在训练时无需任何 3D 监督信息(如相机位姿或场景几何),便能学习并展现出涌现的 3D 感知能力。


具体而言,RayZer 能够处理来自未标定相机、位姿未知的图像集合,并从中恢复相机参数、重建场景的 3D 表示,以及合成全新的视角。其创新之处在于,模型在训练过程中完全依赖自我预测的相机位姿来渲染目标视图进行学习,从而摆脱了对真实位姿标注的依赖,仅需 2D 图像即可完成训练。


实验结果表明,RayZer 在新视角合成任务上的表现,与那些在训练和测试中都依赖精确位姿标注的 「神谕」 方法相比,性能相当甚至更优,充分证明了该方法的有效性和潜力。


其他奖项


Helmholtz Prize


测试方法奖,表彰在计算机视觉基准测试中的贡献,该奖项有两篇获奖论文。


一篇是 Ross Girshick 的《Fast R-CNN》,该论文提出了一种用于目标检测的快速区域卷积网络 (Fast R-CNN)。该方法在前人研究基础上,利用深度卷积网络高效分类候选区域,并通过多项创新显著提升了训练、测试速度和检测精度。



论文地址:https://arxiv.org/abs/1504.08083


另一篇是何恺明等人于 2015 年在 ICCV 发表的论文《Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification》。这篇工作引入了后来被广泛使用的 PReLU 激活函数 和 He 初始化方法,并首次在 ImageNet 上达到了「超越人类水平」的分类性能。



论文地址:https://arxiv.org/abs/1502.01852


Everingham Prize


严谨评估奖,表彰对社区有重大贡献的研究者,该奖项有两个获奖团队。


一个是人体 3D 模型 SMPL 的团队。SMPL 是一种由人体扫描数据训练的三维可变形人体模型,它以参数化方式精准表示人体姿态与形状,被广泛应用于动画、虚拟人、动作捕捉、AR/VR 及生成式 AI 中,对计算机视觉与数字人领域的进步具有里程碑式影响。



项目主页:https://smpl.is.tue.mpg.de/


另一个是 VQA 数据集团队。VQA 数据集是一种将图像理解与自然语言问答结合的大规模基准数据集,它推动了多模态 AI 在视觉理解、语言推理和跨模态语义对齐等方向的研究与突破。



Significant Researcher Award


该奖项旨在表彰那些其研究贡献「显著地推动了计算机视觉领域进展」的研究人员,颁给了 David Forsyth 和 Michal lrani。



David Forsyth 是计算机视觉领域的领军人物,他早期提出颜色恒常性方法、形状变化不变测量,并推动人体动作识别与追踪技术的发展,从而在物体识别、动作分析与图像–语言交叉研究方面产生了深远影响。


Michal Irani 是著名计算机视觉学者,她开创了 「图像内部自相似性」 与 「空间 - 时间视频形状」 研究范式,通过无监督或单样本方法解决超分辨、盲去模糊、视频结构分析等核心问题,从而丰富了视觉推断与学习的理论基础。


Azriel Rosenfeld Award


该奖项是计算机视觉领域极具荣誉的「终身成就奖」之一,专门用于表彰那些不仅在其研究生涯中取得重大成果,而且其成果在学术界与 / 或工业界都具有持续影响、推动整个领域发展的研究者,颁给了 Rama Chellappa。



Rama Chellappa 是计算机视觉与模式识别领域的先驱之一,在人脸识别、运动分析、3D 建模和生成式视觉理解等方面作出奠基性贡献,其研究深刻影响了视觉 AI 的发展路径与应用实践。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com



文章原文

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

ICCV 2025 最佳论文 计算机视觉 人工智能 BrickGPT FlowEdit 积木结构生成 文本到图像编辑 AI 奖项
相关文章