VideoREPA提升视频生成物理一致性

原创让你更懂AI的 2025-10-26 20:05 北京

我们用视频生成模型画出世界，但是真的理解世界吗？

当前的视频生成模型看似能生成逼真场景，但实际上并不理解物理世界：物体会悬空不落、流体会违背重力、碰撞没有反馈。

本文发现，一个拥有 20 亿参数的生成模型 CogVideoX，在物理一致性任务上的表现，竟然输给了仅 9000 万参数的视频理解模型 VideoMAEv2-B。这揭示出一个核心问题：现有生成模型只学会了“画面”，却没有学会“物理”。

为了解决这一问题，本文提出 VideoREPA——首个利用视频理解模型反向指导生成模型学习物理规律的框架。它不是继续堆参数，而是让生成模型“理解”运动与因果关系。

结果表明，VideoREPA 显著提升了生成视频的物理一致性，为构建真正可信的世界模型迈出了关键一步。

论文标题：

VideoREPA: Learning Physics for Video Generation through Relational Alignment with Foundation Models

论文链接：

https://arxiv.org/abs/2505.23656

项目代码：

https://github.com/aHapBean/VideoREPA

研究背景

当前的大规模文本生成视频模型（如 Wan、CogVideoX）虽然在视觉质量上取得突破，能够生成高分辨率、多样化的视频画面，但仍普遍存在违背物理规律的现象，例如物体在空中悬浮而不下落、固体之间发生明显穿透、液体形变不连续或与重力方向相悖。

这些问题不仅降低视频的真实感，更使其难以用于仿真训练、机器人感知、数字孪生等对物理一致性要求严格的应用场景。

研究动机

作者利用了物理理解测评 benchmark（Physion），对比了当前主流视频生成模型与视频理解模型的物理推理能力。

实验结果发现，大型视频生成模型 CogVideoX（参数规模 2B）在物理理解上的表现，竟显著弱于参数量只有 0.09B 的视频理解模型 VideoMAEv2-B。

具体来说，在评估弹跳、下落、碰撞等基础物理现象时，CogVideoX 模型往往只能捕捉到视觉外观，而无法正确预测物体随时间的运动趋势和作用结果，表现出缺乏内在动力学建模的能力。

这一结果揭示出一个关键问题：当前视频生成模型依赖的仅是大规模数据和模型参数的堆叠，它们学习到的是“生成看起来像视频的像素模式”，而非“符合物理世界规律的时空结构”。

也就是说，参数规模的扩大并不会自动带来物理知识的涌现，物理规律并非模型规模的自然副产物，而需要被显式建模或引导学习。

基于这一发现，本文提出一个核心问题：能否将具备物理表征能力的视频理解模型作为“教师模型”，将其时空关系知识迁移到生成模型中，从而提升视频生成的物理一致性？这正是 VideoREPA 的研究动机所在。

论文方法

为了将视频理解模型里面的物理知识迁移到视频生成模型，从而提高生成视频的物理一致性，本文提出了 VideoREPA 框架，通过“关系对齐（Relational Alignment）”将理解模型中的物理知识迁移至生成模型。

原始的 REPA（Representation Alignment）方法首次将理解模型和生成模型联系在一起，但是其在视频生成中应用存在四大局限：

（1）只关注空间特征，忽视时序动态；

（2）原本为从零训练设计，不适用于微调；视频生成模型很难从头训练，需要一种适合微调的方法

（3）硬对齐易破坏原模型的语义结构；

（4）潜空间压缩与维度不匹配，难以对齐。

VideoREPA 突破了这些局限，提出了令牌关系蒸馏（Token Relation Distillation，TRD）损失函数：

不再直接对齐特征值，而是对齐特征间的关系结构（相似度矩阵）

引导生成模型学习理解模型中的空间与时间关系

空间关系：帧内物体间的几何与语义联系；

时间关系：跨帧的运动连续性与动力学一致性。

其数学公式如下，首先计算帧内空间关系结构，包含帧内物体空间物理关系等：

然后计算帧间时间关系结构，包含物体动态信息，动力学信息等等：

最终汇成 TRD loss 的形式，从视频理解模型蒸馏时空知识到视频生成模型：

这种“软对齐”实现了温和且稳定的知识迁移，让模型在保持创造性的同时，内化物理世界的结构性偏置。

实验结果

从可视化结果可以看到，相比于基线方法CogVideoX，VideoREPA展现了优秀的物理合理性，生成的视频展现出更符合动力学规律的运动轨迹和更自然的交互过程。比如液体倒入时，自然的动效；铅笔滚动和金属圆筒时，自然的刚体运动；以及展示了很好的事件因果性。

在物理常识评测基准 VideoPhy 上，VideoREPA 相比视频生成基线模型 CogVideoX 取得了 +24.1% 的物理一致性提升。

VideoPhy 基准包含多个具有明确物理规律约束的测试场景，例如重力驱动下的物体下落、双物体弹性碰撞、液体流动连续性、动量守恒等。这些任务不仅评估生成结果的静态画面质量，更强调时序连续性、动力学趋势是否与真实世界一致。

总结与展望

VideoREPA 提出了一种让生成模型“学会物理”，或者说知识迁移的通用思路：以视频理解模型为“物理教师”，通过关系蒸馏将物理知识注入生成模型。这一方法为视频生成技术迈向更高的真实性、稳定性与可用性提供了新的方向。

未来的视频生成不应只追求视觉逼真，而要迈向物理可解释、因果一致的世界建模。VideoREPA 为这一转变提供了新的范式，也为视频生成在仿真、机器人和数字孪生等真实应用中的落地奠定了基础。

从“会生成画面”，走向“理解世界并生成合理结果”，这将是视频生成模型的下一个阶段。

我们用视频生成模型画出世界，但是真的理解世界吗？

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签