华为推出WorldGrow：高效生成大型真实室内场景

AI 大 house 真来了。

华为联合上海交通大学、华中科技大学推出了世界模型 WordGrow，可以生成 1800㎡超大室内场景（19x39 块），单卡 30 分钟就跑了 272㎡。

里面的虚拟人还能顺畅导航，不带迷路的。（小声说：大平层确实需要导航）

并且场景具备连贯的几何拓扑和照片级真实感外观，智能体的导航则是在复杂空间布局中自主规划路径。

这可以说是走到哪建到哪了，那场景是怎么搭的？

具备连贯的几何拓扑和照片级真实感外观

以前想造个像样的 3D 大场景，坑不少。

比如有些技术先靠 2D 模型画张图，再硬掰成 3D，结果换完视角一看，沙发腿歪了、墙壁纹理断了……

还有一些方法最多只能造单个房间，扩展成套房就卡壳；更离谱的是没有布局逻辑 —— 出现冰箱塞进卧室，床摆在厨房的情况。

现在，WorldGrow 来搞装修了（bushi），用三个核心技术填坑。

第一步是先做数据精准预处理，从 3D-FRONT 这类大规模数据集里提取优质样本，用 Blender 执行场景切片，通过布尔交集对场景进行区块切分，再靠 occupancy 检测确保区块内容密度（可见内容≥95%）。

同时，构建了粗、细两个数据集，粗块来确定宏观布局，细块保留纹理细节。

第二步靠 3D 块补全机制实现了无缝拼接，在生成新区块时，先让结构生成器确定 3D 结构框架，再让 latent 生成器重建结构化潜变量（SLAT）特征，保证外观风格统一。

并且，在输入模型时，会把带噪潜变量、补全区域二进制掩码、已掩码的已知区域特征打包融合，让模型依据现有区块的上下文信息精准生成，消除边缘断裂、纹理错位等拼接缝。

第三步是粗到精生成策略，把场景扩展变成了补全缺失块的任务。

先通过粗结构模型敲定整体规划，比如窗户朝向、走廊连接等布局；随后对粗结构进行三线性插值上采样，将分辨率匹配至细块级别，再调用细结构生成器补全家具、纹理等细节。

对比可以看出，WorldGrow 能够生成高分辨率、连续的室内场景，且场景具有真实且连贯的纹理。

实验数据显示，在 3D-FRONT 数据集上，它的几何重建指标 MMD、COV 均达 SOTA，FID（用于评估生成质量的核心指标，越低越优）低至 7.52，大幅优于 SynCity、BlockFusion 等主流方法；

即便扩展到 7×7 块的超大场景，边缘质量仍然稳定。

在效率上，单张 A100 显卡，30 分钟即可生成 10×10 区块（约 272㎡）的室内场景，速度是同类技术的 6 倍。

本文一作是来自上海交通大学的 Sikuang Li 和 Chen Yang，研究完成于他们在华为实习期间。

Chen Yang 目前仍为华为研究实习生，研究聚焦于计算机视觉和计算机图形学，导师之一就是这项研究的通讯作者、AI 大牛田奇。

田奇，华为终端 BG 首席科学家，国际欧亚科学院院士，ACM / IEEE Fellow。

本文来自微信公众号：量子位（ID：QbitAI），作者：闻乐，原标题《华为世界模型来了！单卡 30 分钟生成 272㎡场景》