MIT 科技评论 - 本周热榜 09月22日
英伟达投资20亿英镑支持英国AI 聚焦无人驾驶初创公司Wayve
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

英伟达宣布将在英国投资20亿英镑,以加速人工智能初创企业生态系统发展。其中,英国无人驾驶初创公司Wayve有望获得高达5亿美元的投资,并将在其下一代硬件平台中使用英伟达的DRIVE AGX Thor车载计算平台。Wayve以其独特的具身人工智能和端到端深度学习技术路线脱颖而出,旨在实现通用化、可全球扩展的自动驾驶。公司通过引入LINGO-2模型提升模型可解释性,并利用世界模型GAIA-2生成高质量合成数据以训练模型,尤其是在处理关键边缘案例方面。Wayve的技术不依赖高精地图和硬件,使其具备广泛的适应性和兼容性,并已与尼桑、Uber达成合作。

🚗 **英伟达巨额投资英国AI生态**: 英伟达计划在英国投资20亿英镑,旨在推动当地人工智能初创企业的发展,创造新的公司和就业机会,并加速人工智能技术的全球化变革。这项投资将重点支持那些有潜力引领行业发展的AI企业。

🤖 **Wayve的具身AI与端到端学习**: 英国无人驾驶初创公司Wayve是此次投资的焦点之一,有望获得高达5亿美元的投资。Wayve采用具身人工智能(Embodied AI)和端到端深度学习模型,致力于实现通用化、可全球扩展的自动驾驶。其技术路线不同于传统模块化系统,旨在让车辆像人类一样通过与环境互动来学习驾驶。

💡 **关键技术创新与挑战应对**: Wayve通过LINGO-2模型提升了其端到端模型的解释性,使其能够用自然语言解释驾驶行为。同时,为解决数据需求,Wayve开发了GAIA-2世界模型,能够生成逼真且可控的驾驶场景视频,特别是用于训练模型应对关键的边缘案例,这在缺乏真实驾驶数据的情况下尤为重要。

🌐 **技术优势与广泛合作**: Wayve的自动驾驶系统不依赖高精度地图和特定硬件,使其能够快速适应新环境并兼容多种车辆平台和传感器配置。这种灵活性促成了与尼桑和Uber等公司的合作,预示着其技术将在更广泛的场景中得到应用和验证。

20 亿英镑,是英伟达给英国送上的新礼物。

近日,英伟达首席执行官黄仁勋宣布,他们将在英国投资 20 亿英镑(约合 26 亿美元),催化英国的人工智能初创企业生态系统,并加速创造新公司、新工作和引领全球变革的人工智能业务。

Wayve,一家总部位于英国的无人驾驶初创公司,有望凭一己之力拿到其中的五分之一。该公司日前宣布,已与英伟达签署意向书,后者将在其下一轮融资中“评估 5 亿美元的投资”。同时,Wayve 即将推出的 Gen 3 硬件平台,将完全基于英伟达的 DRIVE AGX Thor 车载计算平台打造。

图 | Wayve 宣布与英伟达签署投资意向书(来源:Wayve)

英伟达曾在 2024 年 5 月参与了 Wayve 的 10.5 亿美元 C 轮融资,当时的投资者还包括软银和微软等。此次,在 Wayve 尚未披露 D 轮融资日程的情况下,英伟达就展现出了积极的意向,足见其对 Wayve 的青睐。

Wayve 联合创始人兼首席执行官亚历克斯·肯德尔(Alex Kendall)表示:“我们的 AV2.0 构建具身人工智能的方法拥有改变未来出行方式的巨大潜力,英伟达等全球技术领导者的持续支持,凸显了其对我们技术的信心。”

图 | 亚历克斯·肯德尔(Alex Kendall)个人主页(来源:肯德尔)

2017 年,怀着“用具身人工智能重新构想自主移动出行”的使命,肯德尔和阿玛尔·沙阿(Amar Shah,已于 2020 年离开公司)在英国剑桥大学附近的一栋住宅里创立了 Wayve。

当时,端到端(End-to-End)机器学习在机器人领域的应用还被许多人视为异想天开。但肯德尔坚定地认为,只有端到端深度学习才能最终实现通用化、可全球扩展的自动驾驶。

这种信念让 Wayve 走上了不同于主流自动驾驶公司的独特技术路线,他们致力于开发具身人工智能(Embodied AI)和端到端深度学习模型。如今,Wayve 已成为世界上首家在公共道路上部署端到端深度学习驾驶系统的公司。

(来源:Wayve)

所谓具身人工智能,指的是一个人工智能系统通过与物理环境的直接交互来学习执行任务,同时通过处理原始传感器数据来理解情境、因果关系和物理世界的基本规律。

简单来说,传统自动驾驶系统依赖人工编写的大量规则来应对特定场景,而具身人工智能则能像人类一样学习如何驾驶,通过观察、行动,并从行动的后果中学习。就像是让汽车拥有了类似人类的直觉,使其能够感知、预测并在真实世界环境中不断进步。

为了实现具身人工智能,Wayve 采用了纯粹的端到端学习架构。

据其介绍,该方法将深度神经网络与强化学习相结合,其核心系统是一个庞大的深度神经网络,可以将来自摄像头等传感器的原始数据(例如像素流)作为输入,然后输出对车辆的控制指令,如转向角度、油门和刹车力度。

作为对比,Waymo 等传统无人驾驶公司通常使用模块化系统。在“感知-规划-行动”(sense-plan-act)流程中,任务被分解为多个独立的、由人类手动设计的子模块,比如物体识别、轨迹预测、行为规划等等。

这种模块化流程被 Wayve 称为 AV1.0,而他们的端到端模型则是 AV2.0,即第二代自动驾驶汽车技术。

图 | Wayve 宣传的 AV2.0 架构(来源:Wayve)

从技术上来看,端到端模型可能会因其“黑箱”特性而更难调试和验证,其可解释性和透明度较差也会影响技术的安全认证。

但 Wayve 认为,“想要实现更流畅、更人性化、更具泛化能力的驾驶行为,这是唯一途径。而端到端模型带来的长期可扩展性和泛化优势,终将超过其在可解释性方面带来的短期挑战。”

为了解决可解释性问题,Wayve 开发了 LINGO-2 模型。它是一个闭环视觉-语言-动作驾驶模型,使用视觉和语言作为输入进行训练,可以输出驾驶行为并解释其行为背后的原因,甚至允许司机用自然语言进行驾驶指导。

图 | LINGO-2 架构:用于驾驶的多模态 Transformer(来源:资料图)

LINGO-2 由两个模块组成:Wayve 视觉模型和自回归语言模型。

视觉模型将连续时间戳的摄像头图像处理成一系列标记。这些标记以及其他条件变量(例如路线、当前速度和限速)被输入到语言模型中。

语言模型利用这些输入进行训练,以预测驾驶轨迹和生成文字。

(来源:资料图)

端到端模型带来的另一个挑战是海量的数据需求。在自动驾驶业内,特斯拉等其他使用了端到端模型的车企会基于真实车辆的行驶数据训练模型,但 Wayve 不具备这样的条件,因此他们开发了世界模型 GAIA,目前已迭代到 GAIA-2。

据介绍,GAIA-2 是一个专为自动驾驶设计的视频生成世界模型。它能根据文本描述和其他结构化输入,比如车辆行为、天气条件、其他车或人的动态等数据,生成逼真且可控的驾驶场景视频。

GAIA-2 的架构结合了视频分词器和潜在扩散模型,能够在语义层面理解和重建驾驶环境。

视频分词器将原始像素空间视频压缩成一个紧凑且语义清晰的潜在空间,可以高效地表征驾驶动态,同时保留重要细节。

潜在扩散世界模型能根据过往观测数据、车辆自身行为(例如速度、转向曲率)、动态代理行为(基于 3D 边界框)、环境因素(天气、时间)以及道路属性(例如车道数量、限速、自行车道和公交车道、斑马线、十字路口、交通信号灯)预测未来的潜在状态。

图 | GAIA-2 多模态模型(来源:Wayve)

GAIA-2 还支持来自外部模型的潜在条件反射,包括针对驾驶优化的专有模型,从而更好地适应各种合成数据应用。这种架构使 GAIA-2 能够以多种生成模式运行:它可以预测未来帧、合成全新场景或修改现有视频序列。

GAIA-2 基于一个大规模、精选的视频序列数据集进行训练,该数据集涵盖了英国、美国和德国等地不同的地理、环境和驾驶条件。数据收集涵盖了多种车辆平台、传感器配置和帧率。

利用结构化条件反射,GAIA-2 能够保证多个摄像头的时空一致性,支持长时间的稳定视频合成,还能处理多摄像头视角、多样化道路条件和不常见的情况。

比如下面的生成视频,就模拟了左转不让直行的情况:

以及对向车突然变道逆行的情况:

Wayve 表示,在缺乏真实驾驶数据的情况下,这些关键的高质量边缘案例有助于针对性地训练模型,而且无需让车辆在真实世界中跑上上万公里去偶遇这些场景,模型训练过程更具可扩展性。

这其实也是越来越多人关注世界模型的原因:高质量的合成数据,价值可能超过海量的、平淡无奇的真实世界数据。

(来源:Wayve)

Wayve 技术栈中的其他亮点是不依赖高精地图和硬件无关特性。

Wayve 的人工智能驾驶系统在运行时不需要预先构建的、厘米级精度的高精地图。理论上,其系统可以通过学习当地的驾驶数据,快速适应新的城市和交通规则,这一点已在其于英国、美国、德国和日本等地的测试中得到初步验证。

此外,Wayve 的人工智能系统具有硬件无关的特性,能够兼容不同类型的传感器套件和车辆平台。这意味着车企可以继续使用其现有的或偏好的硬件配置,而无需进行昂贵的定制化改造。

这种技术路线很像手机领域的安卓系统:创建一个通用的软件平台,授权给更广泛的硬件制造商使用。Wayve 在今年 4 月和 6 月分别与尼桑和 Uber 达成了合作,两家公司都将尝试其自动驾驶技术。

图 | 肯德尔的履历(来源:领英)

Wayve 联合创始人肯德尔来自新西兰,曾以第一名的成绩毕业于新西兰奥克兰大学工程系,后获得著名的伍尔夫·费舍尔奖学金进入剑桥大学深造,并获得深度学习与计算机视觉方向的博士学位。

他在剑桥的博士研究课题“如何利用端到端深度学习实现安全、实时的场景理解”直接构成了 Wayve 创立的科学基础。自 2020 年联合创始人阿玛尔·沙阿离开后,肯德尔接任 CEO,全面负责公司的战略方向,并成为其 AV2.0 使命的代言人。

图 | 肯德尔的论文引用数量(来源:谷歌学术)

最后,作为一家初创公司,Wayve 的高管团队也堪称豪华。

图 | Wayve 部分高管(来源:Wayve)

埃雷兹·达甘(Erez Dagan)在自动驾驶视觉技术巨头 Mobileye 拥有超过 20 年的经验,十分擅长将前沿技术转化为符合车规级标准的产品。首席财务官马克斯·沃伯顿(Max Warburton)曾是高盛和瑞银的顶级汽车行业分析师,并担任过戴姆勒/梅赛德斯的董事会顾问。

硬件和商务负责人丹·麦克洛斯基(Dan McCloskey)与凯蒂·费舍尔(Kaity Fischer)则来自自动驾驶行业领头羊 Waymo。

可预见的是,随着 Wayve 继续深化与英伟达等科技巨头的合作,我们将看到它在自动驾驶领域的更多进展。

参考资料:

https://alexgkendall.com/

https://scholar.google.co.uk/citations?user=hE2mTp4AAAAJ

https://techcrunch.com/2025/06/10/wayve-and-uber-plan-london-robotaxi-launch-after-uk-speeds-up-autonomous-vehicle-rollout/

https://wayve.ai/press/wayve-to-scale-deep-learning-for-autonomous-vehicles-with-microsoft-supercomputing-technologies/

https://wayve.ai/science/gaia/

https://wayve.ai/product/wayve-ai-driver/

https://wayve.ai/technology

排版:刘雅坤

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

英伟达 Nvidia Wayve 人工智能 AI 自动驾驶 Autonomous Driving 具身人工智能 Embodied AI 端到端学习 End-to-End Learning 世界模型 World Model 英国 UK
相关文章