斯坦福大学提出PSI：可控、可提示的世界模型新框架

CV君 2025-09-16 13:38 江苏

通过“概率预测 → 结构提取 → 整合”的循环，模型能够持续地自我提升

本文将为大家介绍一篇来自斯坦福大学的最新研究，该研究提出了一种名为 概率结构集成（Probabilistic Structure Integration, PSI） 的新系统。简单来说，PSI是一个可以从海量数据中学习并构建“世界模型”的框架。这个模型不仅能深刻理解世界的运作方式，还非常“听话”，可以被灵活地控制和提示，就像与大语言模型（LLM）对话一样。其核心思想是通过一个“预测-提取-整合”的自增强循环，让模型在持续学习中变得越来越强大。

论文标题：World Modeling with Probabilistic Structure Integration

作者：Klemen Kotar, Wanhee Lee, Rahul Venkatesh, Honglin Chen, Daniel Bear, Jared Watrous, Simon Kim, Khai Loong Aw, Lilian Naing Chen, Stefan Stojanov, Kevin Feigelis, Imran Thobani, Alex Durango, Khaled Jedoui, Atlas Kazemian, Dan Yamins

机构：斯坦福大学 NeuroAI 实验室

论文地址：https://arxiv.org/abs/2509.09737

研究背景与意义

当前，构建能够理解并预测物理世界如何变化的“世界模型”是人工智能领域的一大热点。然而，现有的世界模型大多缺乏足够的“可控性”和“可查询性”。与可以被任意提示的语言模型不同，很难对视觉世界模型进行精细的操作，比如“轻轻推一下这个物体”或“从另一个角度看看这个场景”。

为了解决这一挑战，研究者们希望创建一个既能生成高质量预测，又能像LLM一样提供丰富交互接口的统一模型。PSI框架应运而生，它旨在通过一个自循环、自增强的机制，让模型不仅能从原始像素数据中学习，还能逐步构建起对场景中“结构”（如运动、深度、物体）的理解，并利用这些结构来反哺和提升模型自身，最终形成一个功能强大且高度可控的“通用”世界模型。

PSI：三步走的自增强循环方法

PSI的核心是一个由三步构成的循环过程，研究者将其命名为 Ψ（Psi） 模型。

第一步：概率预测 (Probabilistic Prediction)

首先，研究团队构建了一个概率图模型Ψ，它本质上是一个可以随机访问的自回归序列模型。与传统的按固定顺序（如从左到右）生成内容不同，Ψ模型可以基于任意给定的、无序的图像补丁（patch）集合，来预测任何未知补丁的内容分布。

为了实现这种“随机访问”能力，研究者设计了 局部随机访问序列（Local Random-Access Sequence, LRAS） 架构。该架构通过引入“指针 token”来显式指定要生成或关注的图像区域，从而摆脱了固定的生成顺序。同时，它采用分层局部量化器（HLQ）对图像块进行编码，确保了编码的局部性，使得对单个补丁的修改不会影响到远处不相关的区域。

这种设计使得Ψ模型具备了强大的灵活性，可以支持多种多样的推理方式：

无条件预测：仅给定第一帧，模型可以生成多种符合物理规律的、合理的未来画面。

无条件预测生成的多种未来画面

补丁条件预测：给定未来帧的少数几个关键补丁，模型就能“脑补”出完整的、高度确定的场景。甚至可以人为修改这些补丁，实现对物体的“反事实”编辑。通过稀疏补丁进行条件预测和反事实编辑

相机条件预测：给定相机的位姿变换参数，模型能够合成新视角的图像，即“新视角合成”。相机条件预测实现新视角合成

此外，模型还能通过分析预测中的熵（不确定性）来管理和逐步降低场景的不确定性。

第二步：结构提取 (Structure Extraction)

拥有了强大的Ψ模型后，第二步是通过“因果推断”的方式，从模型中零样本（zero-shot）地提取出有意义的“中间结构”。这里的核心思想是：通过设计巧妙的“反事实”提示来“拷问”模型，观察其反应，从而揭示出场景中潜在的物理结构。

光流提取：通过在一个像素点上施加一个微小的“扰动”，然后观察这个扰动在下一帧“传播”到了哪里，就可以计算出像素的运动轨迹，即光流。光流提取流程：扰动并计算KL散度

对象分割：通过假设场景中的一小块区域发生了移动，并让模型预测整个场景会如何“连贯地”变化。那些“跟随”这一小块区域一起运动的像素，很可能属于同一个物体。对象分割流程：通过假设运动来分割物体

深度提取：通过假设相机发生了平移，模型会生成一个具有运动视差的新视角图像。通过计算新旧图像之间的位移，就可以反推出场景的深度信息。深度提取流程：通过假设相机运动来估计深度

第三步：整合 (Integration)

提取出的光流、分割、深度等结构信息本身就是一种更高级、更凝练的场景描述。第三步是将这些结构信息“token化”，然后将它们与原始的RGB图像token混合在一起，作为新的训练数据，送回给Ψ模型进行持续训练。

这个整合步骤至关重要，它相当于为模型引入了一种新的“语言”。模型不仅要学会从RGB预测未来，还要学会理解和预测光流、深度等结构。这使得模型：

拥有了更强的控制能力：可以直接给定光流信息来控制视频的生成，实现对物体运动的精确操控。

提取出更准的结构：模型可以直接预测光流等结构，避免了从RGB间接推断带来的误差。

实现更好的基础预测：通过将复杂的视频预测任务分解为“先预测运动（光流），再根据运动渲染画面”，模型有效避免了在模糊运动场景下直接预测RGB时容易出现的“运动坍塌”（motion collapse）问题，即生成静止的画面。

通过光流token实现更强的生成控制

集成光流后，模型能成功预测动态场景，而仅用RGB的模型则预测失败（运动坍塌）

CV君认为，这个“预测-提取-整合”的循环是一个非常优雅的自举（bootstrapping）过程。它让模型从一个只能理解像素的基础模型，逐步成长为一个能够理解和操作运动、几何、对象等高级概念的强大世界模型，并且这个过程是持续不断的，模型的潜力可以随着循环的迭代而无限增长。

实验与结果

研究团队在一个包含 1.4万亿 视频token的大规模数据集上训练了一个7B参数的Ψ模型。实验结果表明，PSI框架在多项任务上都取得了非常出色的表现。

结构提取性能

在没有经过任何监督训练的情况下，Ψ模型提取出的结构在多个基准测试中达到了SOTA（State-of-the-Art）水平。

光流：在TAP-Vid基准上，Ψ的性能超越了包括有监督方法在内的基线模型。TAP-Vid光流跟踪任务结果

对象分割与深度估计：在整合了光流token后，Ψ在SpelkeBench（对象分割）和NYUD、BONN（深度估计）等多个自监督基准上均取得了SOTA性能。整合光流后在分割和深度估计任务上的结果

可控生成与视频预测新视角合成与物体操纵：在WildRGB-D（新视角合成）和3DEditBench（物体操纵）任务上，整合了光流的Ψ模型性能远超专门的扩散模型和编辑方法，展现了其对场景3D结构和物理规律的深刻理解。新视角合成与物体操纵任务结果

视频预测质量：在DAVIS和YouTube视频数据集上，集成了光流的Ψ模型在单帧视频预测任务上的表现显著优于其仅使用RGB的“前身”以及COSMOS基线模型，有效缓解了运动模糊和坍塌问题。视频预测质量对比

更多应用

论文还展示了PSI在物理视频编辑（如改变保龄球轨迹）、视觉Jenga游戏（判断移除哪个木块不会导致坍塌）以及机器人运动规划（从静态图像预测物体可动性）等方面的应用潜力。

物理视频编辑：干预保龄球轨迹

机器人应用：从单张静态图像预测物体的可操纵性

总结与贡献

这篇论文提出了 概率结构集成（PSI），一个用于学习可控、可提示世界模型的通用框架。其主要贡献可以总结为：

提出一个自增强的循环框架：通过“概率预测 → 结构提取 → 整合”的循环，模型能够持续地自我提升，从简单的像素预测器进化为能够理解和操作高级结构（如运动、深度、对象）的强大世界模型。

实现零样本结构提取：展示了如何通过对一个统一的生成模型进行因果推断式提示，在没有任何标签的情况下提取出高质量的视觉结构。

构建了统一且可扩展的模型：通过巧妙的token化和序列混合机制，PSI可以在不改变模型架构的情况下，持续集成新的知识和控制能力，向着类似LLM的“通用提示语言”迈出了坚实的一步。

验证了卓越的性能：在 1.4万亿 token的视频数据上训练的模型，在多项视频理解、生成和控制任务上取得了SOTA结果，证明了该框架的可扩展性和有效性。

总而言之，PSI为构建下一代通用人工智能，特别是能够与物理世界进行丰富交互的具身智能，提供了一个极具前景和启发性的研究方向。

了解最新 AI 进展，欢迎关注公众号:我爱计算机视觉感谢点赞支持。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签