卡耐基梅隆大学团队研发的BrickGPT技术,首次实现了从文本提示端到端生成物理稳定且可建造的积木装配模型。该方法将搭积木过程类比为写句子,利用大型语言模型理解和生成装配指令。为了解决现有模型忽视物理约束的问题,BrickGPT在生成过程中引入显式物理属性分析,将积木的物理特性转化为优化问题,确保生成的结构在现实中可行。团队还构建了StableText2Brick数据集,并利用GPT-4o模型为积木结构匹配文本描述,极大地丰富了数据多样性。这项技术为AI在实体制造、创意设计和教育领域的应用打开了新思路,旨在降低设计与制造门槛,实现“生成式制造”。
🧱 **文本驱动的积木模型生成:** BrickGPT创新性地将复杂的积木装配过程转化为简单的文本描述,用户只需用文字描述期望的物体,AI即可生成详细的装配模型和步骤说明。这种方法将搭积木的创造过程类比为“写句子”,使得AI能够理解并执行物理世界的组装任务,实现从概念到实体模型的快速转化。
⚖️ **物理稳定性与可建造性:** 与以往侧重视觉效果的3D生成方法不同,BrickGPT着重于解决积木组装的物理约束问题。它通过将积木的物理属性转化为优化问题,并引入显式的物理分析,确保生成的结构不仅在视觉上完整,而且在现实中能够稳定存在且易于组装,避免了模型在物理世界中无法实现的缺陷。
📚 **数据集与多模态融合:** 为支撑该技术的实现,研究团队构建了全新的StableText2Brick数据集,包含大量稳定的积木结构,并利用GPT-4o模型为每个结构生成高质量的文本描述。这种多模态数据处理方式,不仅提升了模型的泛化能力,也为AI理解和生成物理世界中的复杂结构提供了坚实基础。
🚀 **应用前景广阔:** BrickGPT的技术潜力巨大,不仅能激发儿童在教育领域的创造力和对物理原理的理解,还能帮助设计师和工程师将创意快速转化为可行的物理模型,极大地降低了设计和制造的门槛。其长远目标是推动“生成式制造”范式的形成,让AI驱动的创造和生产成为可能。
就在几天前,美国卡耐基梅隆大学(CMU)的团队获得了国际计算机视觉大会 ICCV 的年度最佳论文奖。
这项研究来自 CMU 朱俊彦助理教授、刘畅流副教授和德瓦·拉马南(Deva Ramanan)教授联合团队,他们提出了一种新方法 BrickGPT,
首次通过端到端的方式,从文本提示生成符合语义、物理稳定且实际可行的积木装配模型。简言之,他们将搭积木变成一个写句子的过程。比如,你只需要用文字描述“一把吉他”,BrickGPT 就可以生成模型结构,并提供详细的步骤说明,这样你可以按照这些指导用积木一步步搭建出这把吉他。值得关注的是,这些设计不是虚拟创意而是真正能够实现现实制造。除了能够通过手工组装,还可以让机器人自动组装。相关论文题目为《从文本生成物理稳定且可建造的积木结构》(Generating Physically Stable and Buildable Brick Structures from Text)[1]。

图丨相关论文(来源:
https://arxiv.org/abs/2505.05469)
那么,这种新方法有哪些独特的创新呢?现有大多数 3D 生成方法主要关注视觉效果,包括形状的逼真程度、外观细节等,同时更多聚焦在单个整体,如 3D Mesh。尽管也有一些工作中加入了物理约束,但往往聚焦整体结构性质,如质心位置。这类物理约束相对容易表达且可以被现有的物理引擎模拟出来,因此较容易融入到模型学习过程中。在 BrickGPT 的工作中,研究团队更多聚焦在拼装结构的物理约束,即单个物体不再是一个整体,而是由多个部件组装而成。这类结构在生活中更普遍存在,如制造、家居、电器等无处不在。如果忽略物理世界的组装限制,一个看起来完美的模型,在现实中很可能没办法组装,甚至无法存在——要么是结构部位容易倒塌,要么是某些部分悬空没有支撑。这些组装件的物理限制往往更复杂,不容易表示且很难被现有的仿真器模拟出来。为解决物理分析限制的问题,研究团队借助积木,希望通过拼装结构来探索物理稳定性和可实现性。他们提出一种核心思路:
把搭积木变成一个写句子的过程。
图丨BrickGPT 概览(来源:
https://avalovelace1.github.io/BrickGPT/)
该论文共同第一作者、CMU 博士生邓康乐对 DeepTech 表示:“只要你知道要把哪块积木放到哪个具体的地方,搭积木的每个步骤都可以用文本清晰地表达出来。这样我们就可以用大模型学习如何用语言的形式来表达搭积木的过程。”但是,要让模型能够理解物理世界,仅靠模型学习是不够的。因此,研究人员在生成过程中还用到了
显式物理属性。由于现有物理引擎无法模拟拼装积木的物理特性,他们将积木的物理属性公式转变为一个优化问题,通过求解受力分布,直接把物理属性嵌入到模型中,从而让模型理解积木的物理属性。需要了解的是,语言模型在写句子的过程中可能会犯错,因为它对物理事实知之甚少,其并不理解搭出来的积木结构背后的物理性质和物理规律。因此,它可能会生成一些在物理世界中不可能存在的积木结构,例如飘在空中的积木或在空间上交叠的积木。为解决该问题,研究团队首先将搭建积木的过程用
结构化表示,即尽可能精简地表达积木块的尺寸,包括长、宽和它的物理空间位置,以让模型可以更好地理解空间上的位置关系。然后,他们还引入了
物理约束,用显式的物理分析方法明确告诉模型,所生成的结构是否稳定或在物理世界中是否可能存在。具体而言,如果模型生成的结构是不稳定的、可能会倒塌的,就需要去掉其中不稳定的结构,让模型更改并重新生成一个能够通过物理判别的结构。通过这样的强制性策略,使模型的结果能够符合物理世界的规律。

图丨StableText2Brick 数据集(来源:
https://avalovelace1.github.io/BrickGPT/)
为确保数据的多样性,研究人员还构建了一个全新数据集 StableText2Brick,
包含 4.7 万个稳定的积木结构,涵盖 2.8 万个来自 ShapeNet 数据集的不同 3D 物体。基于该数据集,能够生成不同的积木布局,即便形状相同,也可以通过不同的积木组合来实现。此外,他们还会对每个不同的结构进行稳定性分析,并只保留稳定的结构。另一方面,由于基于文本来生成积木结构,只有积木结构数据是不够的。所以研究团队使用了 GPT-4o 模型来为每个积木结构匹配高质量文本信息。他们把积木渲染成多角度的 2D 图片,然后利用该多模态的语言模型根据这些图片生成符合的描述文本。“在这个过程中,我们让语言模型尽可能生成不同长度及维度的描述,比如 10 个词以内、20 个词以内的描述。这样,我们的数据集在文本多样性方面也得到了补充和提升。”该论文共同第一作者、CMU 博士生刘瑞轩告诉 DeepTech。

图丨机器人组装积木(来源:该团队)
该技术为 AI 在实体制造和创意设计的应用提供了新的思路,可应用于创意、设计、教育领域等多个领域。在教育领域,孩子们可基于 BrickGPT 用语言来描述一个积木模型,并自动生成这个积木模型。不仅能激发其创造力和想象力,还可以同时学习到物理知识和空间结构原理。
在创意设计领域,可能一些人经常会产生不错的机械装置设计创意,但受限于不会画机械图纸,也无法确认这些图纸在物理上是否可行,BrickGPT 便可作为一种高效的工具。需要了解的是,生成模型并不是要取代人类的创意,而是帮助人们显著降低门槛、更高效地实现设计想法。