英伟达发布Cosmos物理世界AI基础模型

CV君 2025-11-04 20:16 江苏

世界模型赛道日趋拥挤

NVIDIA的研究团队再次惊艳了我们，今天他们推出了最新的物理AI世界基础模型——Cosmos。这个系列包含两个重量级成员：Cosmos-Predict2.5 和 Cosmos-Transfer2.5，它们为机器人和自动驾驶等具身智能领域带来了强大的世界模拟能力。简单来说，这些模型能够根据文本、图片或视频，预测和生成一个虚拟世界接下来会发生什么，是构建物理AI的重要基石。

论文标题: World Simulation with Video Foundation Models for Physical AI

作者/机构: NVIDIA

论文地址: https://arxiv.org/abs/2511.00062

项目地址:

https://github.com/nvidia-cosmos/cosmos-predict2.5

https://github.com/nvidia-cosmos/cosmos-transfer2.5

走向物理AI的基石：世界模型

在训练机器人或自动驾驶汽车时，我们都希望它们能理解物理世界并预测未来。但真实世界的测试成本高、风险大。世界模型（World Model）就是为了解决这个问题而生的。它像一个虚拟的“模拟器”，可以在数字世界里模拟物理规律和交互，让我们安全、高效地生成合成数据、评估AI策略。然而，要构建一个既真实又能听懂指令的世界模型，挑战巨大。NVIDIA的Cosmos系列就是朝着这个目标迈出的重要一步。

Cosmos-Predict2.5：统一的多模态世界模型

Cosmos-Predict2.5是这次发布的核心，它是一个强大的视频生成模型，能够将文本、图像和视频统一输入，生成高质量、符合物理规律的视频。

核心架构：基于流的统一生成

Cosmos-Predict2.5 建立在一个基于流（flow-based）的架构之上，这种架构能够在一个模型中统一处理 Text2World（文本到世界）、Image2World（图像到世界）和 Video2World（视频到世界）的生成任务。为了让模型更好地理解指令，它还利用了另一个强大的视觉语言模型 Cosmos-Reason1 作为文本编码器，实现了更精细的仿真控制。

上图展示了Cosmos-Predict2.5的整体架构。模型在潜空间中，通过自注意力、交叉注意力和前馈网络等模块，对时序信息进行处理，并利用Cosmos-Reason1来理解文本和视觉输入。

数据驱动：2亿精选视频与高质量机器人数据

模型的强大离不开海量优质数据的“喂养”。Cosmos-Predict2.5 在 2亿个精选视频片段 上进行了训练。NVIDIA设计了一套复杂的视频处理流水线，对来自不同真实世界来源的原始视频进行筛选、标注和去重，构建了一个为训练世界模型而优化的超大规模数据集。

此外，为了提升模型在机器人领域的专业能力，研究团队还整合了多个高质量的机器人视频数据集。

训练策略：渐进式预训练与强化学习微调

为了高效地训练模型，研究人员采用了渐进式预训练（progressive pretraining）的策略，从低分辨率、短时长的视频开始，逐步增加训练难度。

预训练之后，模型还通过基于强化学习（RL）的后训练进行了微调，使其生成的视频在质量和指令对齐方面都得到了显著提升。人类评估结果显示，经过RL微调后，模型的视频生成质量获得了明显的偏好。

量化指标也证实了RL微调的有效性，无论是在Text2World还是Image2World任务上，模型的各项奖励得分都得到了提升。

Cosmos-Transfer2.5：高效的Sim2Real与Real2Real迁移

除了从零生成世界，我们还经常需要将一个场景转换成另一个场景，比如将模拟环境的画面变得更真实（Sim2Real），或者改变真实视频的某些属性（Real2Real）。Cosmos-Transfer2.5 就是为此设计的，它是一个类似ControlNet的框架，可以实现世界之间的“转译”。

最令人印象深刻的是，尽管它的模型大小比上一代缩小了3.5倍，但在保真度和长视频生成的稳定性上却实现了反超。

在长视频生成任务中，随着时间的推移，模型误差会逐渐累积。下图显示，与前代模型相比，Cosmos-Transfer2.5（绿色曲线）的性能下降速度要慢得多，证明其在长时间序列任务中具有更好的稳定性。

实验效果：小模型也能有大作为

NVIDIA发布了2B和14B两种规模的Cosmos-Predict2.5模型。实验结果表明，即使是2B的小模型，其性能也足以媲美甚至超越其他更大参数的SOTA模型。

Cosmos-Predict2.5 vs SOTA

在与同类模型的对比中，Cosmos-Predict2.5-2B 的性能与5B和14B参数的Wan2.x模型不相上下。

而 Cosmos-Predict2.5-14B 的性能则与参数量两倍于它的Wan 2.2 27B模型相当，并且在人类评估中更受青睐。

下面是一些模型生成的样本，可以看到其生成的视频质量非常高，并且能准确遵循文本指令。

丰富的应用场景

Cosmos模型的价值在于其实际应用。

在 机器人领域，Cosmos-Transfer2.5可以用于数据增强，生成更多样的训练数据来提升机器人策略的泛化能力。实验表明，使用其增强数据训练的策略，在多种未见过的场景下成功率更高。

在 自动驾驶领域，模型可以生成多视角的驾驶场景视频，用于感知模型的评估和训练。评估指标显示，生成视频的视觉质量和多视角一致性都非常出色。

总结

CV君认为，NVIDIA这次的工作不仅在模型性能上取得了巨大突破，更重要的是，他们将代码、预训练权重和基准测试全部开源，极大地降低了研究和应用物理AI的门槛。这无疑会加速整个具身智能领域的发展。

如果你对物理AI、机器人或自动驾驶感兴趣，强烈建议去他们的GitHub项目看看。

大家对英伟达这次开源的世界模型怎么看？它会给物理AI带来多大的改变？欢迎在评论区留下你的看法！

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签