AI科技评论 10月31日 00:16
智源发布Emu3.5,刷新世界模型能力边界
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

北京智源人工智能研究院发布了大规模多模态世界模型“悟界·Emu3.5”,在逼真度上实现了对复杂动态物理世界的模拟。该模型基于单一Transformer架构,采用“下一状态预测”的自回归范式,并在海量多模态数据上进行训练。Emu3.5首次揭示了“多模态Scaling范式”,预示着世界模型研究正从“炼金术”转向“工程学”,为通往通用机器人和AGI提供了清晰的技术路径。模型展示了强大的具身操作、视觉故事生成与编辑能力,标志着世界模型领域进入新时代。

🌟 **原生多模态统一架构与核心目标:** 悟界·Emu3.5采用单一的34B稠密Transformer模型,将不同模态信息统一编码为离散Token序列。其核心训练目标是“预测下一状态(Next-State Prediction, NSP)”,迫使模型深入理解世界运行的内在因果与规律,如同LLM通过预测“下一个token”学习语言一样,Emu3.5通过预测“下一个状态”来学习物理世界的“语法”。

📊 **海量数据驱动与Scaling范式揭示:** 模型在超过10万亿Token的多模态数据集上训练,其中包含近790年的视频数据及其对应的语音转录文本。Emu3.5首次揭示了“多模态Scaling范式”,即随着预训练计算量的增加,模型在全新任务上的错误率呈现可预测的平滑下降。这预示着世界模型的进步将变得可预测,研究可从“炼金术”进入“工程学”时代。

🚀 **强大的具身操作与跨模态能力:** Emu3.5在具身操作和视觉指导方面展现出卓越能力。例如,在“如何制作虾仁芹菜饺子”的Prompt下,模型能按步骤、有逻辑地生成从原料到上菜的逼真过程。此外,它在视觉故事生成、图像编辑等方面也表现出色,证明了其对物理世界规律的深刻理解和跨模态的泛化能力。

🌐 **引领通用机器人与AGI发展:** 世界模型被视为通往通用机器人、L5自动驾驶乃至AGI的关键。Emu3.5提出的“原生多模态+单一自回归”技术范式,以及揭示的多模态Scaling范式,为该领域提供了清晰的进化路线。未来的竞争将不再局限于生成质量,而是模型规模、数据规模及对物理世界理解深度的全面比拼。

2025-10-30 17:33 广东

再次刷新世界模型天花板。

世界模型赛道又卷出了新高度。

今天,北京智源人工智能研究院(BAAI)发布大规模多模态世界模型悟界·Emu3.5”,它不仅能以惊人的逼真度模拟复杂的动态物理世界,还揭示了多模态Scaling范式的存在。

话不多说,让我们先看效果。

世界探索

具身操作

视觉指导

输入Prompt “如何制作虾仁芹菜饺子,模型输出从原料、拌馅儿、包饺子、煮饺子到最后上菜的过程,按步骤、有逻辑、符合事实,而且图像生动逼真。

视觉故事

图像编辑和生成

OpenAI SoraGoolge DeepMind Genie,从Yann LeCunJEPA到李飞飞团队的Marble,巨头菁英们纷纷入局,已经充分证明了世界模型的潜力。

然而,当视觉的逼真度趋于极限,一个更根本的问题浮出水面:

是否存在一条统一、简洁且可规模化扩展的路径,从第一性原理出发,让模型从海量的多模态数据中,自主学习到世界运行的内在因果与规律,让模型真正(以自己的方式)掌握我们这个物理世界运行的根本规律?

这正是智源研究院想要回答的问题。

01

悟界·Emu3.5:大道至简与规模化的力量

202410月,智源发布了原生多模态世界模型悟界·Emu3”,该模型基于单个Transformer模型进行下一个token预测,无需扩散模型或组合方法,实现了图像、文本、视频的大一统。模型一经上线便在技术社区引发热议。

不过,Emu3的成功也引出了更多值得探讨的议题——模型如何高效学习长视频?如何实现通用的多模态交互?如何在万亿乃至更多 token 下高效推理?

Emu3.5继承并深化了Emu3的技术哲学:基于一个极其简单、统一的自回归预测目标下一状态预测(Next-State PredictionNSP,加上一个足够通用的模型架构,并在海量的多模态数据上充分训练。

而答案,也自动涌现。

1.原生多模态统一架构

悟界·Emu3.5是一个单一的34B 稠密Transformer模型。不同模态的信息,从输入端开始便被统一编码为离散的Token序列。整个处理过程都是在一个端到端的、自回归框架内原生完成,实现了真正的模态统一。

2.预测下一状态的单一目标

Emu3.5的训练目标只有一个:预测交错的视觉-语言序列下一个最有可能的状态(State)。这个目标看似简单,却迫使模型学会洞察现实世界如何运行。正如 LLM通过预测下一个token”来学习人类语言,Emu3.5 通过预测下一个状态,学会了动态物理世界的语法

3. 10 万亿 Token 的多模态数据集

智源Emu团队构建了一个超过 10 万亿 token 的多模态数据集。其中,最关键的组成部分是训练时长总计约 790 年的视频,以及这些视频对应的语音转录文本,两者合在一起构成了视频-文本交错数据(Video-Text Interleaved Data)。

通过将视频帧与其对应的语音转录文本交错排列进行训练,模型能沉浸式地接触到时空、物理、因果等世界信息。

4.首次揭示多模态Scaling范式

Emu3.5的技术报告指出,随着预训练计算量的持续增加,模型在分布外(Out-of-DistributionOOD)的全新任务上的错误率呈现出可预测的、平滑的下降曲线。这意味着模型学到的世界知识,能够稳定地泛化至训练数据之外的未知领域。

悟界·Emu3.5 的优化过程平滑稳定,并在多个验证集上展现出强大且一致的泛化表现

 Emu3 到 Emu3.5,模型规模从 8B 增加到 34B,视频数据训练量从 15 年扩展至 790 年,研究人员观察到一系列核心指标,包括时序一致性、跨模态语义推理、具身交互规划等核心指标,均有了显著提升。

这一发现的重要性,不亚于当年GPT-3论文揭示语言模型Scaling Law的情景。

Scaling Law之所以重要,在于进步是可预测的,不再需要撞大运式地调整模型结构或训练技巧,只要持续增加投入,模型的性能就会稳定提升。

对于企业和研究机构而言,多模态Scaling范式的存在,意味着世界模型的研究也能够从炼金术时代进入工程学时代。

如果投入产出比是可计算的,无疑会极大地增强整个行业对大规模投入世界模型研发的信心。

02

开启多模态世界模型的新时代

世界模型之所以成为必争之地,在于其战略意义:谁掌握了最强的世界模型,谁就掌握了通往通用机器人、L5自动驾驶乃至AGI的钥匙。

Emu3.5提出的原生多模态+单一自回归的技术范式,以及其所揭示的多模态Scaling范式,为整个领域提供了一条清晰的进化路线。

这也预示着,接下来的世界模型竞赛,将不再仅仅是生成视频的质量比拼,而是模型规模、数据规模、对物理世界理解深度等等的全方位的竞争。

我们正站在一个新时代的门槛上。智源悟界·Emu3.5,或将成为推动机器从认知到行动、从虚拟走向现实的那座关键里程碑。

//

推荐阅读

从「悟道」到「悟界」,智源走进大模型的新时代

迈向群体智能 | 智源发布首个跨本体具身大小脑协作框架与开源具身大脑

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

悟界Emu3.5 世界模型 多模态AI Scaling范式 人工智能 Emu3.5 World Model Multimodal AI Scaling Paradigm Artificial Intelligence
相关文章