AI 驱动的 3D 世界生成工具 Marble 问世

超 15000 人的「AI 产品市集」社群！不错过每一款有价值的 AI 应用。

邀请从业者、开发人员和创业者，飞书扫码加群：

进群后，你有机会得到：

最新、最值得关注的 AI 新品资讯；

不定期赠送热门新品的邀请码、会员码；

最精准的AI产品曝光渠道

01 Marble 能做什么：

任意模态生成 3D 世界

Marble 是 World Labs 推出的第一款产品，核心是一个多模态世界模型（Multimodal World Model）。

简单来说，就是能通过一张图、一句话、一个视频，直接生成一个完整的 3D 世界。

针对普通用户和专业用户，Marble 提供了免费版和 Pro 版。Marble Pro 主要是针对游戏开发、电影特效、建筑设计和机器人研究等领域的专业人士。

根据官方博客文章介绍，Marble 的主要能力包括以下几点。

多模态 3D 世界生成

这是 Marble 最基础也是最核心的能力。通过一句话描述，或者上传一张图片，Marble 能够以此为基础，生成一个完整、可以探索的 3D 世界。在这个过程中，Marble 能「脑补」出描述中没有提到或者图片中看不到的所有细节，比如场景的背面和侧面。

text prompt：一个细致的、居住的霍比特人厨房，里面摆满了编织篮子和铜水壶，沐浴在平静的淡蓝色日光和柔和的环境阴影中。

同时，Marble 还支持多图像输入功能。用户可以提供从不同角度拍摄的几张照片，Marble 将它们无缝地拼接、融合成一个统一的 3D 空间。

与单点输入不同的是，多图像输入功能，能让最终生成的场景更贴近创作者的构想。

编辑能力升级

Marble 内置了一个 AI 编辑工具，可以对生成的 3D 世界进行各种修改。编辑功能包括微调和大改。

局部微调：用户可以移除一个不想要的物体或修改某个区域的细节；

全局调整：也可以进行大刀阔斧的改动，比如改变整个场景的艺术风格（从现代风变为复古风），或者用文字指令直接改变场景的结构，比如，「把后墙变成一个舞台，桌子换成面向舞台的长凳」。

一种全新的编辑模式 Chisel

Chisel 是针对高级用户设计的一个实验性工具，能够让用户对世界的空间布局有更精细的控制，直接以 3D 形式塑造 Marble 世界。

核心思路是将世界的「结构」和「风格」完全分离，能让创作者更准确地生成 3D 世界。

先用一些简单的 3D 几何形状（如方块、平面）搭建出世界的「骨架」，确定物体的基本位置和大小；

然后，再通过文字描述来为这个「骨架」填充上材质、细节和风格。

通过扩展和组合可以构建更大的世界

如果生成单个生成的世界不够大，Marble 还提供了两种方法来创建更大规模的空间场景。

扩展：可以选择世界的某个区域，让 Marble 自动向外生成更多内容，扩大世界的边界或增加特定区域的细节。

组合：可以在「组合模式」下，像搭积木一样，将多个独立生成的世界拼接在一起，创造出一个规模宏大、内容丰富的复杂世界。

3D 模型、视频，多种格式导出

创作者使用 Marble 创作生成后，可以用多种格式导出，方便在其他专业软件和平台中使用。

Gaussian Splats 是一种能最高保真度还原视觉效果的格式。通过大量半透明粒子来构建 3D 场景。创作者可以使用与 THREE.js 集成的开源渲染器 Spark 在浏览器中进行渲染。

同时，Marble 世界也支持导出为三角网格（Mesh），方便创作者将创作内容导入到 Unity、Unreal Engine、Blender 等主流 3D 软件和游戏引擎中。

此外，Marble 提供了视频渲染功能。创作者可以通过精确的镜头控制，将 3D 世界渲染成视频。以及视频增强功能，模型可以在渲染视频时为静态场景自动添加动态元素，比如烟雾、火焰和水流等，同时保持像素级的运镜精度。

三天前，李飞飞在 Substack 写了一篇长文《From Words to Worlds: Spatial Intelligence is AI's Next Frontier》来介绍，空间智能到底是什么，以及空间智能为什么很重要。

读下来，一共传递了这几个重要信息点。

空间智能才是人工智能的下一个前沿方向。

「空间智能将彻底改变我们创造和交互现实与虚拟世界的方式——它将重塑叙事、创意、机器人学、科学发现等领域。这正是 AI 的下一个前沿。」

为什么？

因为像 GPT-4 这样强大的 LLM，本质上依然还像个「黑暗中的文匠」，能说、知识丰富，但理解不了现实的物理世界。简单说，大模型没有像人一样的实际经验，它的知识和现实是脱节的。

李飞飞认为，AI 的下一步，必须要从文字世界走向物理世界。

ChatGPT 很强，但没有空间概念。

AI 发展的很快，但和人类能力相比，还相差很远。

多模态模型，在现实世界中的能力还很「笨拙」。

李飞飞在文章中举了几个例子。

最先进的多模态模型连基本的估算都做不好，在估算距离、方向和大小等任务上，表现仅仅是略高于随机水平。

缺乏空间想象力。在「心智旋转」（从不同角度重新生成物体）的测试中表现极为有限，说明现在的 AI 对物体的三维形态还没有一个稳定的概念。

AI 生成的视频内容缺乏连贯性。本质上，是因为 AI 还不能理解一个持续存在的三维世界应该是什么样的。

总结下来，ChatGPT 在语言世界里很强，但在实际的物理世界中，能力还差得很远。

空间智能非常重要，但现在的 AI 能力还远远达不到，她所在的 World Labs 是领先的探索者。

为什么空间智能这个事非常重要？

李飞飞从实际落地角度做了引证。

空间智能可以将三维世界的创造门槛大大降低，让普通人也能像专业人士一样构建、体验虚拟世界。

World Labs 的 Marble 平台正把前所未有的空间创造力与编辑控制力交到电影制作人、游戏设计师、建筑师以及各类叙事创作者手中，使他们能够快速创建并迭代可自由探索的三维世界，无需承担传统 3D 设计软件所带来的复杂成本。

同时，空间智能也是实现具身智能，让机器人在现实生活之真正能用的前提。机器人要走出实验室，进入真实家庭场景和工作场所，就必须能够理解并能与物理世界安全互动。

缺乏高质量训练数据，是目前机器人领域最大的难题。世界模型的能够快速缩小模拟与现实之间的差距，来帮助机器人在无数状态、交互与环境的仿真中进行训练。

此外，空间智能能够让 AI 处理和模拟超越人类直观感知能力的多维度、复杂空间问题，在科学研究、医疗、教育等领域发挥作用。比如，

在科学研究中，具备空间智能的系统能够模拟实验、并行检验假设、探索人类难以到达的环境，从深海到遥远的行星。这项技术将重塑气候科学、材料研究等领域的计算建模方式。

总结一下，核心要传达的一点是，空间智能之所以重要，是因为它直接关系到 AI 能不能在物理世界中真正地帮助人类，来解决现实问题。

但是，李飞飞也坦言，构建空间智能，是一件非常难的事情，比训练语言模型要困难得多，包括需要新的算法、处理更复杂的数据等等。

01

Marble 能做什么：

任意模态生成 3D 世界

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签