硅星人Pro 05月31日
视频实时生成可交互! 两位自动驾驶大牛创业世界模型:40毫秒/帧,无需任何游戏引擎,人人免费可玩
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

两位自动驾驶领域的资深人士Oliver Cameron和Jeff Hawke联合创立的Odyssey公司,在世界模型领域取得了新突破。Odyssey开发的AI系统无需游戏引擎,能够以40毫秒/帧的速度实时生成视频,并支持用户互动。这一技术突破得益于其独特的世界模型构建方法,通过从真实生活视频中学习,提升了模型的上限。Odyssey已获得2700万美元的投资,并吸引了大量用户体验。其技术团队主要来自Cruise、Wayve、Waymo和特斯拉等自动驾驶公司,具备深厚的行业经验。Odyssey的免费预览版已经上线,展示了其在实时视频生成和互动方面的巨大潜力。

💡Odyssey由两位自动驾驶大牛创立,致力于开发世界模型,旨在实现AI实时生成互动视频,无需游戏引擎。

🧠Odyssey的世界模型与传统视频模型不同,它能够根据当前状态和用户动作灵活预测下一个状态,支持实时交互,这对于交互式视频至关重要。

🚀Odyssey通过窄分布模型解决自回归建模的挑战,该模型在广泛的视频数据上进行预训练,然后在特定地点的密集视频数据上进行后训练,提高模型的稳定性和自回归生成的持久性。

💰Odyssey已获得2700万美元的投资,其技术团队主要来自Cruise、Wayve、Waymo和特斯拉等自动驾驶公司,具备深厚的行业经验。

2025-05-30 09:57 上海

李飞飞押注的世界模型领域,迎来两位自动驾驶大牛创业新成果!

文章转载于量子位(QbitAI)

作者:一水

李飞飞押注的世界模型领域,迎来两位自动驾驶大牛创业新成果!

无需任何游戏引擎,AI能以40毫秒/帧想象并实时生成视频。

40毫秒/帧啥概念?

人类眨一次眼都需要100~400毫秒,所以现在AI几乎可以一瞬间创造视频了。

而且无需高端显卡,玩家可以实时观看,并与AI生成的世界交互了。

就像是在探索一个平行宇宙的感觉~

而除了产品迅速引人关注,更值得说道的还是其背后研发公司。

两位联合创始人Oliver CameronJeff Hawke均在自动驾驶领域有着深厚从业背景,虽然公司成立不到2年,但一亮相就获得了资本青睐。

迄今为止,Odyssey已从EQT Ventures、谷歌GV和Air Street Capital等投资机构筹集了2700万美元(约合人民币1.9亿),皮克斯创始人/图灵奖得主Ed Catmull还是其董事会成员。

目前Odyssey发布即免费可用,网友们已经第一时间涌入服务器(官网始终显示排队中)

那么,新玩家Odyssey究竟有哪些亮点呢?

1

世界模型≠视频模型

一上来,Odyssey就在最新官方博客中解释:世界模型≠视频模型

他们认为,乍一看世界模型好像是视频生成模型的完美应用,但后者的架构、参数和数据集实际上并不适用于前者。

为此他们还提供了一个对比表格:

背后所反映的,其实是二者工作原理的不同。

视频模型通过构建结构化嵌入一次性生成固定帧,适合视频剪辑(中间无需更改)但不适合交互;

而世界模型则能够根据当前状态和用户动作灵活预测下一个状态,支持实时交互,这对于交互式视频至关重要。

以上差异也代表着世界模型的不同发展阶段。

早期阶段,大多数关于世界模型的研究主要集中在:从类似《我的世界》、《雷神之锤》这样的游戏中学习像素和动作。

由于局限于游戏范围内,这为世界模型可能实现的功能划定了一个“已知低上限”。

而Odyssey相信:

从几十年的真实生活视频中学习像素和动作有望提升这一上限。

由于真实世界的视频具有更丰富的视觉信息,以及全方位/不受限制的动作类型,因此世界模型能超越传统游戏逻辑,提升模型的上限。

不过Odyssey也承认,从开放式真实视频中学习相当困难,比如视频内容嘈杂多样、动作连续且不可预测等等。

他们表示,与语言、图像或视频模型相比,世界模型目前还处于起步阶段

当中最大的挑战是自回归建模,即根据先前状态预测未来状态。由于模型生成的输出会反馈到模型的上下文中,因此会影响后续的预测。

在语言模型中,由于状态空间相对有限,这种反馈问题不大。但在世界模型中,状态空间要复杂得多,这可能导致模型的不稳定性,因为模型可能会偏离其训练数据的分布范围。

尤其对于实时模型来说,这种不稳定性更为明显,因为它们在处理复杂的潜在动态时能力较弱。

针对上述问题,Odyssey开发了一种窄分布模型(narrow distribution model)。

这种模型首先在广泛的视频数据上进行预训练,然后在特定地点的密集视频数据上进行后训练。这种后训练方法虽然会牺牲一些模型的通用性,但可以提高模型的稳定性和自回归生成的持久性。

与此同时,为了提高模型的泛化能力,Odyssey爆料他们正在开发下一代世界模型。

虽然Odyssey自称当前这个还只是早期预览版,“可能相对粗糙”,但网友的第一波实测已经证明了其潜力。

提供实测的网友表示,对任何想要体验的人来说,这很酷!

而且,随着更大规模的算力集群支持,Odyssey的视频传输速度还会提升。

据悉,预览版当前由美国和欧盟的H100 GPU集群提供算力支持,传输速度为30 FPS,能输出5分钟甚至更长时间的连贯视频。

30 FPS啥概念?

游戏中这一配置仍处于入门阶段,属于相对能“流畅运行”的范畴,一些3A大作可能要求会更高。

不过,鉴于用户当前能免费体验(官方称每小时体验成本为1~2美元),还要啥自行车(doge)。

1

由两位自动驾驶大牛创立

Odyssey成立于2023年,他们创建之初就铁了心要做世界模型。

这不仅是因为他们将世界模型作为下一个AI前沿,更在于团队的“自动驾驶血统”在这方面拥有天然优势。

Odyssey官方博客中曾经写道:

事实上,我们90%以上的技术人员的大部分职业生涯都是在Cruise、Wayve、Waymo和特斯拉等公司从事自动驾驶汽车的开发工作。这种经历让我们对构建世界的模型的问题有了独特的见解。

联创兼CEO Oliver Cameron,十几年职业生涯都奉献给了自动驾驶。

而且,至今他还是无人驾驶飞行器Skyways的董事会成员。

联创兼CTO Jeff Hawke,创办Odyssey前在另一家明星自动驾驶公司Wayve干了5年。

任职Wayve技术副总裁时期,带领团队打造了业界首个用于公共道路自动驾驶汽车的学习型驾驶员系统,即利用深度学习和计算机视觉进行驾驶学习。

而在Wayve之前,他的研究更多和“机器人”挂钩。

从2008年到2017年,什么叉车机器人、医疗机器人等,通通都研究了个遍,后来还去了牛津机器人研究所读博。

以上二位这次也亲自参与了打造Odyssey预览版,其余技术人员的名单如下:

最后,除了Odyssey这家公司,目前已经有超过10家车企和自动驾驶公司提出了世界模型的概念,其中包括特斯拉、蔚来、理想、地平线、商汤、元戎启行、Momenta等。

可以预见,仍处于起步阶段的世界模型,或许就是下一个兵家必争之地。

而且自动驾驶车企,已经成为孕育世界模型的天然温床。

那么,你看好这家公司吗?

在线体验:https://experience.odyssey.world/

参考链接:[1]https://x.com/olivercameron/status/1927765618574385664[2]https://x.com/odysseyml/status/1927767196756853179[3]https://x.com/koltregaskes/status/1927779284615110829[4]https://odyssey.world/introducing-interactive-video

点个爱心,再走

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

世界模型 自动驾驶 AI视频生成 Odyssey
相关文章