原创 让你更懂AI的 2025-10-26 20:05 北京
我们用视频生成模型画出世界,但是真的理解世界吗?
我们用视频生成模型画出世界,但是真的理解世界吗?

物理规律缺失是当前视频生成模型的普遍难题:尽管如CogVideoX等大型模型能生成高分辨率、多样化的视频,但普遍存在物体悬空、穿透、流体违背重力等物理不一致现象,限制了其在仿真、机器人等领域的应用。
视频理解模型在物理推理上优于生成模型:研究发现,参数量远小于生成模型的视频理解模型VideoMAEv2-B,在物理一致性任务上的表现却优于CogVideoX,揭示了现有生成模型只学会了“画面”而非“物理”的核心问题。
VideoREPA框架通过关系蒸馏赋能生成模型:该框架创新性地利用视频理解模型作为“物理教师”,通过令牌关系蒸馏(TRD)损失函数,引导生成模型学习时空关系,实现对物理规律的“软对齐”,从而在保持创造性的同时内化物理结构。
VideoREPA显著提升视频生成物理一致性:实验结果表明,VideoREPA在物理常识评测基准VideoPhy上,相比基线模型CogVideoX取得了高达+24.1%的物理一致性提升,生成的视频在运动轨迹、交互过程及因果关系上更符合动力学规律。
原创 让你更懂AI的 2025-10-26 20:05 北京
我们用视频生成模型画出世界,但是真的理解世界吗?
当前的视频生成模型看似能生成逼真场景,但实际上并不理解物理世界:物体会悬空不落、流体会违背重力、碰撞没有反馈。
本文发现,一个拥有 20 亿参数的生成模型 CogVideoX,在物理一致性任务上的表现,竟然输给了仅 9000 万参数的视频理解模型 VideoMAEv2-B。这揭示出一个核心问题:现有生成模型只学会了“画面”,却没有学会“物理”。
为了解决这一问题,本文提出 VideoREPA——首个利用视频理解模型反向指导生成模型学习物理规律的框架。它不是继续堆参数,而是让生成模型“理解”运动与因果关系。
结果表明,VideoREPA 显著提升了生成视频的物理一致性,为构建真正可信的世界模型迈出了关键一步。
论文标题:
VideoREPA: Learning Physics for Video Generation through Relational Alignment with Foundation Models
论文链接:
https://arxiv.org/abs/2505.23656
项目代码:
https://github.com/aHapBean/VideoREPA
当前的大规模文本生成视频模型(如 Wan、CogVideoX)虽然在视觉质量上取得突破,能够生成高分辨率、多样化的视频画面,但仍普遍存在违背物理规律的现象,例如物体在空中悬浮而不下落、固体之间发生明显穿透、液体形变不连续或与重力方向相悖。
这些问题不仅降低视频的真实感,更使其难以用于仿真训练、机器人感知、数字孪生等对物理一致性要求严格的应用场景。
研究动机
作者利用了物理理解测评 benchmark(Physion),对比了当前主流视频生成模型与视频理解模型的物理推理能力。
实验结果发现,大型视频生成模型 CogVideoX(参数规模 2B)在物理理解上的表现,竟显著弱于参数量只有 0.09B 的视频理解模型 VideoMAEv2-B。
具体来说,在评估弹跳、下落、碰撞等基础物理现象时,CogVideoX 模型往往只能捕捉到视觉外观,而无法正确预测物体随时间的运动趋势和作用结果,表现出缺乏内在动力学建模的能力。
这一结果揭示出一个关键问题:当前视频生成模型依赖的仅是大规模数据和模型参数的堆叠,它们学习到的是“生成看起来像视频的像素模式”,而非“符合物理世界规律的时空结构”。
也就是说,参数规模的扩大并不会自动带来物理知识的涌现,物理规律并非模型规模的自然副产物,而需要被显式建模或引导学习。
基于这一发现,本文提出一个核心问题:能否将具备物理表征能力的视频理解模型作为“教师模型”,将其时空关系知识迁移到生成模型中,从而提升视频生成的物理一致性?这正是 VideoREPA 的研究动机所在。
论文方法
为了将视频理解模型里面的物理知识迁移到视频生成模型,从而提高生成视频的物理一致性,本文提出了 VideoREPA 框架,通过“关系对齐(Relational Alignment)”将理解模型中的物理知识迁移至生成模型。
原始的 REPA(Representation Alignment)方法首次将理解模型和生成模型联系在一起,但是其在视频生成中应用存在四大局限:
(1)只关注空间特征,忽视时序动态;
(2)原本为从零训练设计,不适用于微调;视频生成模型很难从头训练,需要一种适合微调的方法
(3)硬对齐易破坏原模型的语义结构;
(4)潜空间压缩与维度不匹配,难以对齐。
VideoREPA 突破了这些局限,提出了令牌关系蒸馏(Token Relation Distillation,TRD)损失函数:
不再直接对齐特征值,而是对齐特征间的关系结构(相似度矩阵);
引导生成模型学习理解模型中的空间与时间关系:
空间关系:帧内物体间的几何与语义联系;
时间关系:跨帧的运动连续性与动力学一致性。
其数学公式如下,首先计算帧内空间关系结构,包含帧内物体空间物理关系等:
然后计算帧间时间关系结构,包含物体动态信息,动力学信息等等:
最终汇成 TRD loss 的形式,从视频理解模型蒸馏时空知识到视频生成模型:
这种“软对齐”实现了温和且稳定的知识迁移,让模型在保持创造性的同时,内化物理世界的结构性偏置。
实验结果
从可视化结果可以看到,相比于基线方法CogVideoX,VideoREPA展现了优秀的物理合理性,生成的视频展现出更符合动力学规律的运动轨迹和更自然的交互过程。比如液体倒入时,自然的动效;铅笔滚动和金属圆筒时,自然的刚体运动;以及展示了很好的事件因果性。
在物理常识评测基准 VideoPhy 上,VideoREPA 相比视频生成基线模型 CogVideoX 取得了 +24.1% 的物理一致性提升。
VideoPhy 基准包含多个具有明确物理规律约束的测试场景,例如重力驱动下的物体下落、双物体弹性碰撞、液体流动连续性、动量守恒等。这些任务不仅评估生成结果的静态画面质量,更强调时序连续性、动力学趋势是否与真实世界一致。
总结与展望
VideoREPA 提出了一种让生成模型“学会物理”,或者说知识迁移的通用思路:以视频理解模型为“物理教师”,通过关系蒸馏将物理知识注入生成模型。这一方法为视频生成技术迈向更高的真实性、稳定性与可用性提供了新的方向。
未来的视频生成不应只追求视觉逼真,而要迈向物理可解释、因果一致的世界建模。VideoREPA 为这一转变提供了新的范式,也为视频生成在仿真、机器人和数字孪生等真实应用中的落地奠定了基础。
从“会生成画面”,走向“理解世界并生成合理结果”,这将是视频生成模型的下一个阶段。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·
AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。
鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑