我爱计算机视觉 13小时前
英伟达发布Cosmos物理世界AI基础模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

NVIDIA研究团队推出了Cosmos系列物理AI世界基础模型,包括Cosmos-Predict2.5和Cosmos-Transfer2.5,旨在提升机器人和自动驾驶等具身智能领域的世界模拟能力。Cosmos-Predict2.5是一个多模态视频生成模型,能够根据文本、图像和视频输入,生成高质量且符合物理规律的视频,其核心是基于流的统一生成架构,并利用Cosmos-Reason1作为文本编码器。该模型在2亿精选视频片段和高质量机器人数据上进行训练,采用渐进式预训练和强化学习微调策略。Cosmos-Transfer2.5则是一个类似ControlNet的框架,用于实现模拟环境到真实环境以及真实视频属性之间的转换,其模型体积更小但性能更优。实验结果表明,即使是小规模的Cosmos-Predict2.5模型也能媲美甚至超越其他更大参数的模型。NVIDIA已开源相关代码、预训练权重和基准测试,预示着将加速具身智能领域的发展。

🚀 NVIDIA发布Cosmos物理AI世界基础模型,包含Cosmos-Predict2.5和Cosmos-Transfer2.5,为机器人和自动驾驶等具身智能提供强大的世界模拟能力,能够根据文本、图片或视频预测和生成虚拟世界的未来发展。

💡 Cosmos-Predict2.5是核心模型,采用基于流的统一生成架构,可以处理Text2World、Image2World和Video2World任务,并利用Cosmos-Reason1视觉语言模型增强对指令的理解和仿真控制,其训练数据包括2亿精选视频和高质量机器人数据,并通过渐进式预训练和强化学习进行优化。

🔄 Cosmos-Transfer2.5类似于ControlNet框架,专注于实现Sim2Real和Real2Real的场景转换,即把模拟环境变得更真实或改变真实视频属性,新版本模型体积缩小3.5倍,但在长视频生成稳定性上有所提升。

📊 实验结果显示,即使是参数量较小的2B Cosmos-Predict2.5模型,其性能也能与更大参数的SOTA模型媲美,而14B模型在性能上甚至可以与参数量更大的模型相当,并在人类评估中更受欢迎。

🌍 Cosmos模型的应用场景广泛,在机器人领域可用于数据增强,提升策略泛化能力;在自动驾驶领域,可生成多视角驾驶场景视频,用于感知模型的评估和训练,且NVIDIA已开源相关资源,有望加速物理AI领域的发展。

CV君 2025-11-04 20:16 江苏

世界模型赛道日趋拥挤

NVIDIA的研究团队再次惊艳了我们,今天他们推出了最新的物理AI世界基础模型——Cosmos。这个系列包含两个重量级成员:Cosmos-Predict2.5 和 Cosmos-Transfer2.5,它们为机器人和自动驾驶等具身智能领域带来了强大的世界模拟能力。简单来说,这些模型能够根据文本、图片或视频,预测和生成一个虚拟世界接下来会发生什么,是构建物理AI的重要基石。

论文标题: World Simulation with Video Foundation Models for Physical AI

作者/机构: NVIDIA

论文地址: https://arxiv.org/abs/2511.00062

项目地址:

https://github.com/nvidia-cosmos/cosmos-predict2.5

https://github.com/nvidia-cosmos/cosmos-transfer2.5

走向物理AI的基石:世界模型

在训练机器人或自动驾驶汽车时,我们都希望它们能理解物理世界并预测未来。但真实世界的测试成本高、风险大。世界模型(World Model)就是为了解决这个问题而生的。它像一个虚拟的“模拟器”,可以在数字世界里模拟物理规律和交互,让我们安全、高效地生成合成数据、评估AI策略。然而,要构建一个既真实又能听懂指令的世界模型,挑战巨大。NVIDIA的Cosmos系列就是朝着这个目标迈出的重要一步。

Cosmos-Predict2.5:统一的多模态世界模型

Cosmos-Predict2.5是这次发布的核心,它是一个强大的视频生成模型,能够将文本、图像和视频统一输入,生成高质量、符合物理规律的视频。

核心架构:基于流的统一生成

Cosmos-Predict2.5 建立在一个基于流(flow-based)的架构之上,这种架构能够在一个模型中统一处理 Text2World(文本到世界)、Image2World(图像到世界)和 Video2World(视频到世界)的生成任务。为了让模型更好地理解指令,它还利用了另一个强大的视觉语言模型 Cosmos-Reason1 作为文本编码器,实现了更精细的仿真控制。

上图展示了Cosmos-Predict2.5的整体架构。模型在潜空间中,通过自注意力、交叉注意力和前馈网络等模块,对时序信息进行处理,并利用Cosmos-Reason1来理解文本和视觉输入。

数据驱动:2亿精选视频与高质量机器人数据

模型的强大离不开海量优质数据的“喂养”。Cosmos-Predict2.5 在 2亿个精选视频片段 上进行了训练。NVIDIA设计了一套复杂的视频处理流水线,对来自不同真实世界来源的原始视频进行筛选、标注和去重,构建了一个为训练世界模型而优化的超大规模数据集。

此外,为了提升模型在机器人领域的专业能力,研究团队还整合了多个高质量的机器人视频数据集。

训练策略:渐进式预训练与强化学习微调

为了高效地训练模型,研究人员采用了渐进式预训练(progressive pretraining)的策略,从低分辨率、短时长的视频开始,逐步增加训练难度。

预训练之后,模型还通过基于强化学习(RL)的后训练进行了微调,使其生成的视频在质量和指令对齐方面都得到了显著提升。人类评估结果显示,经过RL微调后,模型的视频生成质量获得了明显的偏好。

量化指标也证实了RL微调的有效性,无论是在Text2World还是Image2World任务上,模型的各项奖励得分都得到了提升。

Cosmos-Transfer2.5:高效的Sim2Real与Real2Real迁移

除了从零生成世界,我们还经常需要将一个场景转换成另一个场景,比如将模拟环境的画面变得更真实(Sim2Real),或者改变真实视频的某些属性(Real2Real)。Cosmos-Transfer2.5 就是为此设计的,它是一个类似ControlNet的框架,可以实现世界之间的“转译”。

最令人印象深刻的是,尽管它的模型大小比上一代缩小了3.5倍,但在保真度和长视频生成的稳定性上却实现了反超。

在长视频生成任务中,随着时间的推移,模型误差会逐渐累积。下图显示,与前代模型相比,Cosmos-Transfer2.5(绿色曲线)的性能下降速度要慢得多,证明其在长时间序列任务中具有更好的稳定性。

实验效果:小模型也能有大作为

NVIDIA发布了2B和14B两种规模的Cosmos-Predict2.5模型。实验结果表明,即使是2B的小模型,其性能也足以媲美甚至超越其他更大参数的SOTA模型。

Cosmos-Predict2.5 vs SOTA

在与同类模型的对比中,Cosmos-Predict2.5-2B 的性能与5B和14B参数的Wan2.x模型不相上下。

而 Cosmos-Predict2.5-14B 的性能则与参数量两倍于它的Wan 2.2 27B模型相当,并且在人类评估中更受青睐。

下面是一些模型生成的样本,可以看到其生成的视频质量非常高,并且能准确遵循文本指令。

丰富的应用场景

Cosmos模型的价值在于其实际应用。

在 机器人领域,Cosmos-Transfer2.5可以用于数据增强,生成更多样的训练数据来提升机器人策略的泛化能力。实验表明,使用其增强数据训练的策略,在多种未见过的场景下成功率更高。

在 自动驾驶领域,模型可以生成多视角的驾驶场景视频,用于感知模型的评估和训练。评估指标显示,生成视频的视觉质量和多视角一致性都非常出色。

总结

CV君认为,NVIDIA这次的工作不仅在模型性能上取得了巨大突破,更重要的是,他们将代码、预训练权重和基准测试全部开源,极大地降低了研究和应用物理AI的门槛。这无疑会加速整个具身智能领域的发展。

如果你对物理AI、机器人或自动驾驶感兴趣,强烈建议去他们的GitHub项目看看。

大家对英伟达这次开源的世界模型怎么看?它会给物理AI带来多大的改变?欢迎在评论区留下你的看法!

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Cosmos NVIDIA 物理AI 世界模型 具身智能
相关文章