我爱计算机视觉 09月16日
斯坦福大学提出PSI:可控、可提示的世界模型新框架
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

斯坦福大学NeuroAI实验室提出了一种名为概率结构集成(PSI)的新框架,旨在构建能够深刻理解并预测物理世界运作方式的“世界模型”。该框架通过“概率预测 → 结构提取 → 整合”的自增强循环,使模型能够持续自我提升。PSI模型不仅能生成高质量的预测,还能像大语言模型一样被灵活控制和提示,通过零样本结构提取技术,能从原始像素数据中学习并理解运动、深度、物体等高级结构,从而实现更精细的场景控制和生成,为具身智能的发展提供了新方向。

✨ **PSI框架的创新循环机制**:PSI核心在于其“预测-提取-整合”的自增强循环。模型首先通过概率图模型进行预测,然后利用因果推断技术零样本提取出光流、对象分割和深度等有意义的结构信息,最后将这些结构信息token化并整合回模型进行持续训练。这一过程使得模型能够从最初的像素理解者,逐步演变为能够理解和操作高级物理概念的强大世界模型,实现了模型能力的持续迭代和提升。

💡 **零样本结构提取能力**:PSI框架能够通过巧妙设计的“反事实”提示,直接从生成模型中提取出场景的物理结构,而无需任何监督训练。例如,通过模拟像素扰动来计算光流,通过假设物体运动来完成对象分割,以及通过模拟相机位移来推断深度信息。这种能力极大地增强了模型对世界的理解深度,并为后续的可控生成奠定了基础。

🚀 **强大的可控性与可提示性**:PSI模型通过整合提取出的结构信息(如光流token),能够实现对视频生成过程的精细控制,例如精确操控物体运动、实现新视角合成以及进行反事实的物体编辑。这种类LLM的交互方式,使得用户能够以前所未有的方式与视觉世界模型进行对话和操作,极大地扩展了AI在理解和交互物理世界方面的能力。

📊 **卓越的实验性能与泛化能力**:在1.4万亿视频token的数据集上训练的PSI模型,在光流跟踪、对象分割、深度估计、新视角合成、物体操纵和视频预测等多个基准测试中取得了SOTA(State-of-the-Art)水平。尤其是在缓解运动模糊和运动坍塌问题上表现突出,证明了该框架在处理复杂动态场景时的有效性和可扩展性。

CV君 2025-09-16 13:38 江苏

通过“概率预测 → 结构提取 → 整合”的循环,模型能够持续地自我提升

本文将为大家介绍一篇来自斯坦福大学的最新研究,该研究提出了一种名为 概率结构集成(Probabilistic Structure Integration, PSI) 的新系统。简单来说,PSI是一个可以从海量数据中学习并构建“世界模型”的框架。这个模型不仅能深刻理解世界的运作方式,还非常“听话”,可以被灵活地控制和提示,就像与大语言模型(LLM)对话一样。其核心思想是通过一个“预测-提取-整合”的自增强循环,让模型在持续学习中变得越来越强大。

论文标题:World Modeling with Probabilistic Structure Integration

作者:Klemen Kotar, Wanhee Lee, Rahul Venkatesh, Honglin Chen, Daniel Bear, Jared Watrous, Simon Kim, Khai Loong Aw, Lilian Naing Chen, Stefan Stojanov, Kevin Feigelis, Imran Thobani, Alex Durango, Khaled Jedoui, Atlas Kazemian, Dan Yamins

机构:斯坦福大学 NeuroAI 实验室

论文地址https://arxiv.org/abs/2509.09737

研究背景与意义

当前,构建能够理解并预测物理世界如何变化的“世界模型”是人工智能领域的一大热点。然而,现有的世界模型大多缺乏足够的“可控性”和“可查询性”。与可以被任意提示的语言模型不同,很难对视觉世界模型进行精细的操作,比如“轻轻推一下这个物体”或“从另一个角度看看这个场景”。

为了解决这一挑战,研究者们希望创建一个既能生成高质量预测,又能像LLM一样提供丰富交互接口的统一模型。PSI框架应运而生,它旨在通过一个自循环、自增强的机制,让模型不仅能从原始像素数据中学习,还能逐步构建起对场景中“结构”(如运动、深度、物体)的理解,并利用这些结构来反哺和提升模型自身,最终形成一个功能强大且高度可控的“通用”世界模型。

PSI:三步走的自增强循环方法

PSI的核心是一个由三步构成的循环过程,研究者将其命名为 Ψ(Psi) 模型。

第一步:概率预测 (Probabilistic Prediction)

首先,研究团队构建了一个概率图模型Ψ,它本质上是一个可以随机访问的自回归序列模型。与传统的按固定顺序(如从左到右)生成内容不同,Ψ模型可以基于任意给定的、无序的图像补丁(patch)集合,来预测任何未知补丁的内容分布。

为了实现这种“随机访问”能力,研究者设计了 局部随机访问序列(Local Random-Access Sequence, LRAS) 架构。该架构通过引入“指针 token”来显式指定要生成或关注的图像区域,从而摆脱了固定的生成顺序。同时,它采用分层局部量化器(HLQ)对图像块进行编码,确保了编码的局部性,使得对单个补丁的修改不会影响到远处不相关的区域。

这种设计使得Ψ模型具备了强大的灵活性,可以支持多种多样的推理方式:

无条件预测:仅给定第一帧,模型可以生成多种符合物理规律的、合理的未来画面。

无条件预测生成的多种未来画面

补丁条件预测:给定未来帧的少数几个关键补丁,模型就能“脑补”出完整的、高度确定的场景。甚至可以人为修改这些补丁,实现对物体的“反事实”编辑。通过稀疏补丁进行条件预测和反事实编辑

相机条件预测:给定相机的位姿变换参数,模型能够合成新视角的图像,即“新视角合成”。相机条件预测实现新视角合成

此外,模型还能通过分析预测中的熵(不确定性)来管理和逐步降低场景的不确定性。

第二步:结构提取 (Structure Extraction)

拥有了强大的Ψ模型后,第二步是通过“因果推断”的方式,从模型中零样本(zero-shot)地提取出有意义的“中间结构”。这里的核心思想是:通过设计巧妙的“反事实”提示来“拷问”模型,观察其反应,从而揭示出场景中潜在的物理结构。

光流提取:通过在一个像素点上施加一个微小的“扰动”,然后观察这个扰动在下一帧“传播”到了哪里,就可以计算出像素的运动轨迹,即光流。光流提取流程:扰动并计算KL散度

对象分割:通过假设场景中的一小块区域发生了移动,并让模型预测整个场景会如何“连贯地”变化。那些“跟随”这一小块区域一起运动的像素,很可能属于同一个物体。对象分割流程:通过假设运动来分割物体

深度提取:通过假设相机发生了平移,模型会生成一个具有运动视差的新视角图像。通过计算新旧图像之间的位移,就可以反推出场景的深度信息。深度提取流程:通过假设相机运动来估计深度

第三步:整合 (Integration)

提取出的光流、分割、深度等结构信息本身就是一种更高级、更凝练的场景描述。第三步是将这些结构信息“token化”,然后将它们与原始的RGB图像token混合在一起,作为新的训练数据,送回给Ψ模型进行持续训练。

这个整合步骤至关重要,它相当于为模型引入了一种新的“语言”。模型不仅要学会从RGB预测未来,还要学会理解和预测光流、深度等结构。这使得模型:

拥有了更强的控制能力:可以直接给定光流信息来控制视频的生成,实现对物体运动的精确操控。

提取出更准的结构:模型可以直接预测光流等结构,避免了从RGB间接推断带来的误差。

实现更好的基础预测:通过将复杂的视频预测任务分解为“先预测运动(光流),再根据运动渲染画面”,模型有效避免了在模糊运动场景下直接预测RGB时容易出现的“运动坍塌”(motion collapse)问题,即生成静止的画面。

通过光流token实现更强的生成控制

集成光流后,模型能成功预测动态场景,而仅用RGB的模型则预测失败(运动坍塌)

CV君认为,这个“预测-提取-整合”的循环是一个非常优雅的自举(bootstrapping)过程。它让模型从一个只能理解像素的基础模型,逐步成长为一个能够理解和操作运动、几何、对象等高级概念的强大世界模型,并且这个过程是持续不断的,模型的潜力可以随着循环的迭代而无限增长。

实验与结果

研究团队在一个包含 1.4万亿 视频token的大规模数据集上训练了一个7B参数的Ψ模型。实验结果表明,PSI框架在多项任务上都取得了非常出色的表现。

结构提取性能

在没有经过任何监督训练的情况下,Ψ模型提取出的结构在多个基准测试中达到了SOTA(State-of-the-Art)水平。

光流:在TAP-Vid基准上,Ψ的性能超越了包括有监督方法在内的基线模型。TAP-Vid光流跟踪任务结果

对象分割与深度估计:在整合了光流token后,Ψ在SpelkeBench(对象分割)和NYUD、BONN(深度估计)等多个自监督基准上均取得了SOTA性能。整合光流后在分割和深度估计任务上的结果

可控生成与视频预测新视角合成与物体操纵:在WildRGB-D(新视角合成)和3DEditBench(物体操纵)任务上,整合了光流的Ψ模型性能远超专门的扩散模型和编辑方法,展现了其对场景3D结构和物理规律的深刻理解。新视角合成与物体操纵任务结果

视频预测质量:在DAVIS和YouTube视频数据集上,集成了光流的Ψ模型在单帧视频预测任务上的表现显著优于其仅使用RGB的“前身”以及COSMOS基线模型,有效缓解了运动模糊和坍塌问题。视频预测质量对比

更多应用

论文还展示了PSI在物理视频编辑(如改变保龄球轨迹)、视觉Jenga游戏(判断移除哪个木块不会导致坍塌)以及机器人运动规划(从静态图像预测物体可动性)等方面的应用潜力。

物理视频编辑:干预保龄球轨迹

机器人应用:从单张静态图像预测物体的可操纵性

总结与贡献

这篇论文提出了 概率结构集成(PSI),一个用于学习可控、可提示世界模型的通用框架。其主要贡献可以总结为:

提出一个自增强的循环框架:通过“概率预测 → 结构提取 → 整合”的循环,模型能够持续地自我提升,从简单的像素预测器进化为能够理解和操作高级结构(如运动、深度、对象)的强大世界模型。

实现零样本结构提取:展示了如何通过对一个统一的生成模型进行因果推断式提示,在没有任何标签的情况下提取出高质量的视觉结构。

构建了统一且可扩展的模型:通过巧妙的token化和序列混合机制,PSI可以在不改变模型架构的情况下,持续集成新的知识和控制能力,向着类似LLM的“通用提示语言”迈出了坚实的一步。

验证了卓越的性能:在 1.4万亿 token的视频数据上训练的模型,在多项视频理解、生成和控制任务上取得了SOTA结果,证明了该框架的可扩展性和有效性。

总而言之,PSI为构建下一代通用人工智能,特别是能够与物理世界进行丰富交互的具身智能,提供了一个极具前景和启发性的研究方向。

了解最新 AI 进展,欢迎关注公众号:我爱计算机视觉感谢点赞支持。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

概率结构集成 PSI 世界模型 斯坦福大学 AI 具身智能 Probabilistic Structure Integration PSI World Model Stanford University AI Embodied AI
相关文章