ICCV 2025最佳论文：BRICKGPT，从文本生成可拼搭的积木结构

我爱计算机视觉 10月22日 16:52

ICCV 2025 最佳论文揭晓，卡内基梅隆大学团队凭借 BRICKGPT 系统脱颖而出。该系统能够直接从文本描述生成物理上稳定且可动手拼搭的积木结构，解决了现有文本到3D生成技术忽视物理规则的难题。BRICKGPT 通过构建 StableText2Brick 数据集，并利用微调的大语言模型，结合逐块拒绝采样和物理感知回滚机制，实现了对积木结构生成过程的精确控制。该技术不仅在有效性和稳定性上表现出色，还为3D内容创作、教育和原型制作等领域开辟了新可能，标志着AI在理解和应用物理世界方面迈出了重要一步。

🧱 **BRICKGPT：从文本到物理可搭建的积木结构** BRICKGPT 是一项创新性的AI系统，能够将自然语言描述转化为物理上稳定且可实际拼搭的积木3D结构。它解决了传统3D生成模型无法落地的问题，使得AI生成的模型能够从虚拟走向现实，实现“AI版乐高大师”的功能。该系统可以生成带有特定颜色和纹理的结构，并且生成的步骤清晰，便于手动或机器人搭建。

📊 **StableText2Brick 数据集：为“搭积木”而生** 为支持 BRICKGPT 的训练，研究团队构建了一个大规模、高质量的 StableText2Brick 数据集。该数据集包含超过47000个稳定的积木结构，覆盖28000多种独特3D物体。数据集的构建过程包括将现有3D模型转换为积木块，进行结构增强以增加多样性，通过物理模拟过滤不稳定结构，并最终为每个结构生成详细的文本描述，为AI学习“搭积木”提供了坚实的“教材”。

🧠 **BRICKGPT 方法：融合LLM与物理约束** BRICKGPT 的核心是一个经过微调的大语言模型（LLaMA-3.2-Instruct-1B），它将积木搭建过程“文本化”，使其成为语言模型擅长的序列生成任务。在生成过程中，BRICKGPT 引入了“逐块拒绝采样”和“物理感知回滚”两个关键的物理约束机制。前者确保每生成一块积木的合法性，后者则在生成完毕后进行整体稳定性检查，若不稳定则回滚至上一个稳定状态进行调整，确保最终结构的稳固性。

🚀 **卓越性能与广泛启发** BRICKGPT 在“有效性”和“稳定性”两大关键指标上取得了近乎完美的成绩，有效率达到100%，稳定性高达98.8%，远超现有方法。消融实验证明了其核心机制的重要性。BRICKGPT 的成功不仅在于其亮眼的结果，更在于它赋予了AI“工程直觉”和“物理常识”，为所有需要与物理世界交互的生成任务提供了重要的启发，引领AIGC研究向着更真实、更实用的方向发展。

CV君 2025-10-22 10:58 江苏

刚刚ICCV 2025 大会公布了最佳论文和最佳学生论文，最佳论文由卡内基梅隆大学研究团队摘得，从11000多篇投稿论文中被选中，该论文有哪些值得关注的点，我们一起来看看。

最近，生成式AI在3D内容创作领域可以说是遍地开花，但大家有没有想过，我们用AI生成的那些酷炫模型，有多少能真正从虚拟走向现实，亲手搭建出来呢？很多模型虽然看起来很美，但可能结构不稳定，甚至组件之间互相“打架”，根本无法组装。ICCV 2025 最佳论文就是漂亮地解决了这个问题。

研究者们推出了一个名为 BRICKGPT 的神奇系统，可以直接从文本描述中，生成物理上稳定、并且真正可以动手拼搭的积木结构。没错，就像AI版的乐高大师！

论文信息标题: Generating Physically Stable and Buildable Brick Structures from Text

作者: Ava Pun, Kangle Deng, Ruixuan Liu, Deva Ramanan, Changliu Liu, Jun-Yan Zhu

机构: 卡内基梅隆大学 (Carnegie Mellon University)

会议：ICCV 2025 Oral

论文终稿地址: https://openaccess.thecvf.com/content/ICCV2025/papers/Pun_Generating_Physically_Stable_and_Buildable_Brick_Structures_from_Text_ICCV_2025_paper.pdf

项目主页: https://avalovelace1.github.io/BrickGPT/

Demo: https://huggingface.co/spaces/cmu-gil/BrickGPT-Demo

数据集: https://huggingface.co/datasets/AvaLovelace/StableText2Brick

代码仓库（超过1.3K星标）: https://github.com/AvaLovelace1/BrickGPT/

ps.下载该论文并所有ICCV 2025 论文，请在“我爱计算机视觉”公众号后台回复“顶会论文”(小写)。

上图直观展示了BRICKGPT的强大能力：输入一句“一个流线型的长船体船只”，系统就能一步步生成积木搭建的步骤，最终的成品不仅可以用手拼装，甚至还能由机器人手臂自动完成。更酷的是，它还能根据描述生成带有特定颜色和纹理的结构。

研究背景：从“好看”到“好用”的鸿沟

传统的文本到3D生成技术，大多致力于生成几何形状和外观逼真的模型，比如点云或三角网格（Mesh）。这些数字模型在游戏、VR/AR里很棒，但它们很少考虑物理世界的规则。一个模型可能看起来很酷，但实际上重力不稳，或者各个部分是分离、悬浮的，这在现实中是无法存在的。

而BRICKGPT的研究，正是要填补这一鸿沟，它的目标是生成由离散模块（积木）构成的、物理上稳定且可建造的3D结构。这不仅是个有趣的技术挑战，也为教育、创意设计、快速原型制作等领域打开了新的大门。

StableText2Brick：为“搭积木”量身打造的数据集

要教会AI搭积木，首先得有好的“教材”。为此，研究团队构建了一个全新的大规模数据集，名为 StableText2Brick。这个数据集包含了超过47000个稳定的积木结构，覆盖了28000多种独特的3D物体。

数据集的构建过程也相当有意思：

从网格到积木 (Mesh-to-Brick): 从现有的3D模型库（ShapeNetCore）出发，通过体素化，将连续的3D网格转换成离散的积木块。

结构增强: 为了增加多样性，算法会随机改变积木布局，同时保持整体形状，为同一个物体创造出多种搭建方案。

物理稳定性分析: 最关键的一步！利用物理模拟，过滤掉那些会倒塌的不稳定结构。

生成文本描述: 渲染出积木模型的多角度视图，然后用GPT-4o为每个稳定的结构生成详细的文字描述。

这样一来，模型就有了图文并茂的“积木搭建指南”可以学习了。

BRICKGPT方法：LLM的“积木直觉”是如何炼成的？

BRICKGPT的核心是一个经过微调的大语言模型（LLaMA-3.2-Instruct-1B）。研究者们巧妙地将“搭积木”这个过程，转化为了一个语言模型擅长的“文本生成”任务。

具体来说，整个流程分为三步：

积木结构“文本化”: 他们设计了一种特殊的文本格式来表示每一块积木，包含其尺寸和三维坐标，如“4x2 (1,7,17)”。整个积木结构就变成了一长串这样的文本序列，模型学习的就是根据用户输入的描述，来续写这个序列。

模型微调: 使用前面提到的StableText2Brick数据集，对LLaMA模型进行指令微调，让它理解“看图说话”和“按图索骥”的逻辑，即建立文本描述和积木序列之间的联系。

带物理约束的推理生成: 这是BRICKGPT的精髓所在。在生成过程中，它不是盲目地预测下一个积木，而是加入了两个关键的约束机制：

逐块拒绝采样 (Brick-by-Brick Rejection Sampling): 每生成一块积木，系统都会检查它是否合法（例如，积木类型是否存在、是否与其他积木碰撞）。如果是非法操作，就“拒绝”这次生成，重新尝试。

物理感知回滚 (Physics-Aware Rollback): 在整个结构生成完毕后，系统会进行一次总的物理稳定性检查。如果发现结构不稳定（比如某些积木会掉下来），它不会直接放弃，而是会“回滚”到第一个不稳定积木出现之前的那个稳定状态，然后从那里开始，尝试用新的方式继续搭建。

为了实现物理稳定性的判断，研究者们建立了一个精细的力学模型，考虑了重力、积木之间的支撑力、以及连接栓产生的摩擦力等，通过求解静态平衡来判断每一块积木是否稳固。

实验效果：又稳又准，远超前辈

那么，BRICKGPT的实际效果如何呢？答案是：非常惊艳。

从上方的量化结果表格中可以看到，BRICKGPT在“有效性”（生成的结构没有不合规的积木或碰撞）和“稳定性”两个关键指标上，都取得了近乎完美的成绩。它的有效率达到100%，稳定性更是高达98.8%，远远超过了之前那些先生成网格再转成积木的方法，也显著优于没有物理回滚机制的简化版模型。

上图的定性比较结果也同样直观。对于同样的文本输入，其他方法生成的结构要么不稳定，要么存在积木碰撞（黑色部分），而BRICKGPT的生成结果总是既稳定又符合逻辑。

消融实验进一步证明了“拒绝采样”和“物理回滚”的重要性。没有这两个模块，模型生成的结构质量会大幅下降，充满了碰撞和不稳定的部分。

此外，BRICKGPT还能玩出“花活”。通过在文本中加入外观描述，它可以为同一个基本形状生成不同纹理和颜色的版本，极大地丰富了创作的可能性。

CV君认为，BRICKGPT最核心的贡献在于，它不仅仅是让AI学会了“生成形状”，而是真正赋予了AI一种“工程直觉”和“物理常识”。这种“物理感知回滚”的思路，就像一个经验丰富的工程师在检查设计图纸，发现问题后退回上一步重新修改，而不是推倒重来。这种思想对于所有需要与物理世界交互的生成任务，都具有非常重要的启发意义。

可以想见，ICCV 2025 将最佳论文颁给BRICKGPT既表彰该工作优秀的设计、亮眼的结果（甚至直接工业可用），也是为了引领AIGC研究社区向着遵循物理规律、真实世界可用的方向迈进。

作者介绍

该文共三位第一作者：

Ava Pun

本科毕业于 University of Waterloo，CMU 在读博士。