昆仑万维在其SkyWork AI技术发布周上,发布了自研世界模型Matrix系列中的Matrix-Game 2.0,实现了通用场景下的交互式实时长序列生成。该模型全面开源,号称是业内首个在通用场景上实现实时长序列交互式生成的世界模型开源方案。Matrix-Game 2.0在低延迟、高帧率的长序列交互性能上实现了“质的飞跃”,能够以25 FPS的速度稳定生成分钟级的连续视频内容,同时保持对物理规律和场景语义的精准理解,支持用户通过简单指令操控虚拟环境。此外,昆仑万维还开源了Matrix-3D大模型,可从单图像生成高质量、轨迹一致的全景视频并还原可漫游的三维空间。
🌟 **Matrix-Game 2.0:交互式实时长序列生成世界模型**
昆仑万维发布的Matrix-Game 2.0是业内首个在通用场景上实现实时长序列交互式生成的世界模型开源方案。它在低延迟和高帧率方面实现了重大突破,能够以25 FPS的速度稳定生成长达数分钟的连续视频,极大地提升了生成内容的连贯性和实用性。该模型能够精准理解物理规律和场景语义,允许用户通过简单指令自由操控和实时构建虚拟环境,为交互式内容创作提供了强大支持。
🚀 **Matrix-3D:从图像到全景视频与三维空间**
昆仑万维同步开源的Matrix-3D大模型,能够从单张图像出发,生成高质量且轨迹一致的全景视频,并直接还原出可供漫游的三维空间。该模型通过轨迹引导的全景视频生成模块,利用场景Mesh渲染图作为条件,训练视频扩散模型来生成符合相机轨迹的全景视频,从而提升了空间结构的一致性,并缓解了遮挡错误和图像伪影问题。
💡 **Matrix-3D 的核心技术与数据集**
Matrix-3D模型采用了双路径可选择的全景3D重建模块,包括优化路径(对生成视频进行超分与3DGS优化以获取高质量3D结构)和前馈网络路径(基于Transformer直接从生成视频Latent特征快速预测3D几何属性,实现高效重建)。为支撑模型的训练,昆仑万维还发布了Matrix-Pano数据集,这是一个包含116K条带有相机轨迹、深度图和文本注释的静态全景视频序列的大规模高质量合成数据集。
IT之家 8 月 12 日消息,昆仑万维 SkyWork AI 技术发布周于 8 月 11 日启动,连续五天每天发布一款模型,覆盖多模态 AI 核心场景。
今日,昆仑万维带来了自研世界模型 Matrix 系列中 Matrix-Game 交互世界模型的升级版本 ——「Matrix-Game 2.0」,号称是实现了通用场景下的交互式实时长序列生成的世界模型。
并且为促进交互式世界模型领域的发展,「Matrix-Game 2.0」全面开源,号称是业内首个在通用场景上实现实时长序列交互式生成的世界模型开源方案。

「Matrix-Game 2.0」号称在实时生成和长序列能力上实现了“质的飞跃”。相较于上一版本,2.0 版本更加侧重低延迟、高帧率的长序列交互性能,能够以 25 FPS 的速度,在多种复杂场景中稳定生成连续视频内容,且生成时长可扩展至分钟级,大幅提升了连贯性与实用性。
在推理速度显著提升的同时,模型依然保持了对物理规律与场景语义的“精准理解”,支持用户通过简单指令,自由探索、操控并实时构建结构清晰、细节丰富、规则合理的虚拟环境。

昆仑万维还开源了 Matrix-3D 大模型,从单图像出发,生成高质量、轨迹一致的全景视频,并直接还原可漫游的三维空间,对标李飞飞 WorldLabs 的生成效果,可实现更大范围的探索空间。

Matrix-3D 由以下核心部分组成:
轨迹引导的全景视频生成模块:利用场景 Mesh 渲染图作为条件输入,训练视频扩散模型生成符合给定相机轨迹的全景视频。提升生成视频在空间结构上的一致性,缓解遮挡错误与图像伪影问题。
双路径可选择的全景 3D 重建模块:优化路径,对生成的视频进行超分与 3DGS 优化,获取高质量 3D 结构。前馈网络路径:基于 Transformer 直接回归,从生成视频 Latent 特征快速预测 3D 几何属性,实现高效重建。
Matrix-Pano 数据集:大规模高质量合成数据集,包含 116K 条带有相机轨迹、深度图和文本注释的静态全景视频序列。
IT之家附两个模型的开源地址如下:
https://github.com/SkyworkAI/Matrix-Game
https://github.com/SkyworkAI/Matrix-3D