MindJourney 是一种新框架,帮助AI代理探索无法直接感知的三维空间,解决视觉-语言模型(VLMs)在理解2D图像背后互动3D世界方面的局限。尽管VLM擅长识别静态图像中的物体,但在涉及空间推理的问题上表现不足,例如判断坐下后厨房位于左侧还是右侧。人类通过心理探索、想象移动并整合空间快照来定位物体,MindJourney 模拟这一过程,让AI在虚拟空间中“漫游”后再回答空间问题。该方法提升了AI的空间导航与推理能力,有助于理解和操作复杂三维环境。

本专栏通过快照技术转载,仅保留核心内容

内容中包含的图片若涉及版权问题,请及时与我们联系删除