36kr-科技 09月15日
AGI:科学的黄金时代与挑战
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

谷歌DeepMind CEO哈萨比斯在最新访谈中深入探讨了通用人工智能(AGI)的潜力与挑战。他认为,AGI的实现将开启科学的黄金时代,并在能源、健康等领域带来巨大福祉。然而,当前AI系统在“博士级智能”、真正创造力以及对物理世界的理解方面仍存在瓶颈。哈萨比斯介绍了DeepMind在世界模型(如Genie)、机器人技术和药物研发(Isomorphic Labs)方面的最新进展,并强调AGI需要具备理解物理世界和原始创造能力,而非仅仅优化现有体系。他预测AGI可能在未来5-10年内实现,并认为AI对能源消耗的回报将远超其消耗。

🚀 **AGI的实现将开启科学新纪元**:哈萨比斯预测,若在未来十年内实现完全的通用人工智能(AGI),将标志着一个科学的黄金时代,如同新的文艺复兴,为能源、健康等多个领域带来前所未有的进步和福祉。AGI被视为解决人类当前技术和认知瓶颈的终极工具。

🧠 **当前AI的瓶颈与AGI的必备能力**:哈萨比斯指出,当前AI系统并非真正的“博士级智能”,在某些领域表现出色但在其他方面仍会犯错,并且缺乏“真正的创造力”来提出新的猜想或假设。AGI的关键在于其必须真正理解我们所处的物理世界,而不仅仅是语言或数学的抽象领域,并具备原始的创造能力,而非仅仅优化现有体系。

💡 **DeepMind在世界模型与机器人领域的突破**:通过Genie等世界模型,DeepMind展示了AI通过学习海量视频数据自主领悟物理规律的能力,能够生成逼真的物理交互场景。这为机器人技术革命奠定了基础,目标是构建一个能够理解现实世界并安全导航的通用机器人操作系统层,实现语言指令到实际动作的转化。

💊 **加速药物研发与混合模型的重要性**:Isomorphic Labs正利用AI技术,特别是基于AlphaFold的突破,加速药物研发进程,目标是将周期从数年缩短至数周甚至数天。在模型构建方面,哈萨比斯强调了混合模型的必要性,即结合数据驱动的概率模型与已验证的物理化学规则,以更高效地解决复杂问题,如AlphaFold和AlphaZero的成功案例所示。

🌐 **AI的能耗与长远效益**:尽管AI模型训练消耗大量能源,但哈萨比斯认为,通过模型架构创新(如蒸馏)已显著提升了能效。他相信,AI系统在能源效率、材料设计、新能源开发等方面的贡献,将远远超过其消耗的能源,为解决气候变化问题带来长远益处。

Nano Banana如此火爆,让谷歌DeepMind CEO哈萨比斯在最新访谈中又一次聊起了AGI。

如果我们在未来十年内拥有完全的AGI,将开创一个科学的黄金时代,一种新的文艺复兴。

Nano Banana当然不是AGI,但它也体现了哈萨比斯认为AGI系统所需的一些关键能力和特征。

哈萨比斯曾经预测过我们可能会在2030年左右实现AGI,但亟待突破的瓶颈在于:目前AI系统并非真正的“博士级智能”,因为它们仅仅是在某些领域表现出色,但在其他方面仍会犯简单错误。

并且,今天的AI还没有“真正的创造力”,不能提出新的猜想或者假设。

要构建AGI,需要理解我们周围的世界和物理世界,而不仅仅是语言或数学的抽象世界。

虽然面对着上述挑战,但哈萨比斯依然坚信AGI的到来将开启一个“科学的黄金时代”,并在能源、健康等多个领域为人类带来巨大益处。

网友表示:迄今为止,这是关于通往AGI之路的挑战和机遇的最真实对话之一。

话不多说,量子位为大家翻译整理了这次访谈,让我们一起来看:

诺贝尔奖和谷歌DeepMind

主持人:首先,恭喜你获得诺贝尔奖。感谢X,感谢AlphaFold取得的惊人突破。也许你之前讲过,但我知道在座的各位都很想听你讲述一下,你获得诺贝尔奖时身在何处、当时的情景是怎样的? 

哈萨比斯:那是一个非常超现实的时刻(笑),这一切都太让人难以置信了。他们会在一切上线前大约10分钟通知你。当你接到来自瑞典的电话时,你会如遭雷击——这是每个科学家梦寐以求的电话。然后是几场仪式,在瑞典与皇室成员一起度过了整整一周,太神奇了。

最神奇的是,他们会从保险箱的金库中取出诺贝尔奖证书,然后你就可以在上面签名,与其他伟大的获奖者并列。这是一个相当不可思议的时刻,在其他页面你可以看到费曼和费恩、玛丽·居里、爱因斯坦和尼尔斯·玻尔,然后你继续往后翻,就可以把自己的名字也写进那本书里。

主持人:你是不是隐隐约约觉得自己被提名了,知道这件事可能就要降临到你头上? 

哈萨比斯:说到底,现在这个时代还能把消息封锁得这么严密,其实挺惊人的——但这项技术确实像瑞典的国宝一样被保护着。所以外界只能听到些风声,比如有人认为AlphaFold或许配得上这种级别的重视。但评奖标准既要看科学突破性,也要衡量现实影响力,而后者可能需要20、30年才能显现。所以谁都无法预料突破何时到来、甚至是否真能实现。这恰恰正是科研最迷人的地方。

主持人:真是太惊喜了,恭喜你。说到DeepMind。Alphabet作为庞大的集团旗下业务线众多,DeepMind在其中扮演着什么角色?主要承担哪些责任?

哈萨比斯:我们现在其实把DeepMind和谷歌DeepMind看作一个整体——几年前两家完成了合并,整合了谷歌和Alphabet旗下所有人工智能团队的力量。可以说,我们汇聚了各团队的优势资源,组建成了这个统一的部门。

我更愿意这样形容:我们就像是整个谷歌和Alphabet的“发动机舱”。我们不仅正在构建核心的Gemini模型,还开发包括视频模型、交互式世界模型在内的多种AI模型。现在这些模型已全面接入谷歌生态,几乎每款产品、每个交互界面都运行着我们研发的AI模型。

如今已有数十亿用户通过AI概览、AI模式或Gemini应用与我们的模型交互——而这仅仅是个开始。我们正在将AI深度集成到Workspace、Gmail等全线产品中。对我们来说,这是一个绝佳的机会:既能开展前沿研究,又可以立刻让全球用户体验到成果。 

主持人:你的团队有多少人,他们的情况如何?是科学家、工程师吗?你的团队构成是什么样的?

哈萨比斯:我们团队目前约有5000人,主要由工程师和博士研究员组成……我猜占比80%以上,算下来差不多有三四千名顶尖技术人才吧。

Genie 3世界模型

主持人:现在模型迭代特别快,不断有新模型甚至全新类别的模型出现,比如前几天发布的Genie世界模型。那么,Genie世界模型是什么呢?我们准备了演示视频,可以在现场直播的时候讨论一下。

演示视频:你看到的不只是游戏或者视频,它们是由Genie 3生成的完整虚拟世界。作为世界模型的新突破,现在你只需用文字描述一个场景,Genie 3就能即时生成可交互的沉浸式环境,让你真正“走进”自己创造的想象世界。

哈萨比斯:是的,你看到的所有这些动态画面和可交互世界——注意看,现在有人正在用方向键和空格键实时操控这个3D环境。关键点在于:所有这些像素都是即时生成的,在玩家探索到某个区域之前,那个地方根本不存在任何内容。

比如这个场景:有人正在房间里涂鸦墙面,玩家转头再回看时,刚才的涂鸦痕迹还在墙上,而这一部分以前是不存在的。更神奇的是,你随时可以输入“穿鸡仔服的人”或“水上摩托”之类的指令,AI就会实时把这些元素融入场景。我觉得这的确令人惊叹。

主持人:看到这一点是有些难以理解的,我们都玩过3D的沉浸式电子游戏,但目前还没有创建任何对象的功能。你没有用Unity或者Unreal这类3D引擎预先制作物体,看到的全是AI实时生成的2D图像,却产生了完全沉浸式的3D体验——这才是真正突破认知的地方。

哈萨比斯:这个模型本质上是在通过逆向工程学习物理规律。它分析了数百万段YouTube等平台的真实世界视频,从中自主推导出了现实世界的运行逻辑。虽然目前还不完美,但已经能生成持续一两分钟的高度一致性交互场景。特别值得注意的是:它的生成范围远超人类活动。你既可以操控沙滩上的小狗,也能与水母互动,真正实现了对多元世界的模拟还原。

主持人:传统3D渲染引擎的工作原理是程序员预先编写所有物理规则,比如光线如何反射、物体如何运动。你创建一个3D模型,引擎根据预设程序计算光影效果,最终渲染出画面。但Genie的突破在于它仅通过观看海量视频,就自主领悟了这些物理规律。没有任何人工编程的物理法则,纯粹通过观察学习就掌握了光影反射、物体运动等复杂原理。

哈萨比斯 :是的,它不仅用了真实视频数据,还结合了游戏引擎的合成数据进行训练。这个项目对我有特殊意义,真正让我震撼的是,上世纪90年代我刚入行时,曾亲手编写游戏AI和图形引擎,当时光是要手动编程实现多边形建模和物理引擎就难如登天。而现在看着Genie:水面的动态反光、材质的流动感、物体的物理行为等等,所有这些曾经需要呕心沥血编程的效果,现在都能开箱即用。

主持人:很难用语言形容这个模型究竟解决了多复杂的难题,这种突破性真的超乎想象。这项技术将带我们走向何方,如果我们把这个模型快进到……第五代? 

哈萨比斯:我们开发这类模型的初衷始终明确,虽然普通语言模型(如Gemini基础版)在不断进步,但从Gemini诞生第一天起,我们就立志打造真正的多模态系统——它能处理任意类型的输入,包括图像、音频、视频,并且生成任意形式的输出。

这关乎通用人工智能(AGI)的核心命题:真正的AGI必须理解我们的物理世界,而不仅仅是语言或数学的抽象领域。这种物理认知能力正是当前机器人技术缺失的关键一环,也是智能眼镜等日常AI助手真正实用化的前提——它们必须理解你所处的物理环境及其运行规律。

因此,Genie模型和我们的顶级文生视频系统Veo,本质上都是在构建“世界模型”。这些都是我们构建理解世界动态、世界物理规律的世界模型的体现,能生成逼真的物理交互场景,本身就是系统深度理解世界规律的证明

机器人技术革命

主持人:这项技术最终将通向机器人技术的革命性突破。虽然这只是其中一个应用方向,但也许我们可以探讨一下,目前视觉-语言-动作模型的最高水平是怎样的?

我们设想中的通用系统是这样的:一个具备摄像头观测能力的机器,我可以使用语言,可以用文字或语音告诉它,我希望你去做这件事。然后它就知道如何在现实世界中采取实际行动来做某件事。 

哈萨比斯 :没错。你可以看看我们的Gemini,也就是Gemini的实时版本,在这个版本中你可以举起手机,将其对准周围的世界——我建议你们任何人都去试试——它对现实世界的理解已经达到了一种神奇的程度。我们考虑下一步将其融入某种更便捷的设备中,比如眼镜,然后它将成为真正的日常助手,当你走在街上时,它就能向你推荐各种事物。我们还可以将其嵌入到谷歌地图中。

在机器人领域,我们构建了一个名为“Gemini机器人模型”的东西,它是在双子座模型基础上,利用额外的机器人数据进行微调的。在今年夏天发布的演示中,有两个机械手在桌面上操作物体,你可以直接和机器人对话,比如“把黄色的物体放进红色的桶里”,它就能将语言转化为精准的动作指令。

这就是多模态模型的力量,而不是仅仅是一个针对机器人的模型,它能将现实世界理解能力融入交互过程。最终你需要的不仅是人性化的交互界面(UI/UX),还有让机器人具备安全导航世界的认知能力。

主持人:我向桑达尔(谷歌CEO)提过这个问题,这是否意味着最终能构建出类似Unix或安卓系统的通用机器人操作系统层?到那时,如果这个系统能在足够多的设备上稳定运行,机器人设备、公司和产品将会大量涌现,在全球范围内突然蓬勃发展,因为通用的软件基础已经存在。

哈萨比斯:没错。我们确实在推行“安卓模式”的战略,如果你愿意这么说的话。我们正在打造跨机器人的通用操作系统层,同时也在探索垂直整合:将最新模型与特定机器人类型深度结合,实现端到端的学习优化。这两条路径都相当有趣,我们正在并行推进。

主持人:你认为人形机器人是一种好的外形设计吗?这方面存在一些争议,有的人认为人类环境本就为人形设计,但特定任务可能需要专用形态——比如叠衣服、洗碗或清洁,或许需要不同的结构设计。

哈萨比斯:我认为这两者都会有一席之地。其实在5-10年前,我曾坚信特定任务需要专用机器人,在工业领域尤其如此。实验室和生产线需要的机器人类型截然不同,都需要针对具体任务进行形态优化。

但对于通用或个人用途的机器人而言,人形形态可能至关重要,因为我们所处的物理世界本就是为人类设计的。台阶、门廊等所有设施都基于人体工学建造,与其改造世界,不如让机器人适配现有人类环境,这种设计思路显然更合理。

所以我认为有理由说,人形形态对日常任务极具价值,但专用机器人形态同样有其不可替代的应用场景。

主持人:你对未来五年、七年,数以千计的人有什么展望?我的意思是,你对机器人技术有什么愿景吗?

哈萨比斯:我有,而且我在这上面花了不少时间。我感觉我们在机器人技术领域还处于早期阶段,未来几年内会出现真正的“颠覆性时刻”,但当前算法仍需升级。这些机器人模型依赖的通用基础需要变得更可靠、更精准地理解世界,我相信这些突破将在未来两三年内实现。

然后还有硬件方面,关键问题在于规模化的时机选择。我认为最终我们会有数百万台机器人帮助社会并提高生产力,但当你与硬件专家交流时,要确定在什么阶段拥有合适的硬件水平才能选择扩展方案。当我们计划建造工厂生产数万乃至数十万台特定机器人时,硬件设计就会固化,很难快速迭代更新。

这就形成一个悖论:如果过早规模化,六个月后可能出现更可靠、更灵活的新一代设计。但最终目标仍是让数百万机器人服务社会提升生产力,因此必须在硬件成熟度与规模化需求间找到平衡点。 

主持人:听起来用计算机领域的类比来说,我们现在处于70年代的PC初期阶段。各种原型机涌现,但尚未形成统一标准。 

哈萨比斯:是的,有可能。我想也许这就是我们所处的情况,除了10年的变化可能在1年内发生。所以,没错,得快速更新。

主持人:1984年或许就是这样一个年份(指1年内发生10年的变化)。

哈萨比斯:没错,就是这样。

衡量AGI的方法

主持人:那么,让我们来谈谈其他应用,比如你最热爱的科学应用领域。我一直觉得AI最伟大的使命是解决人类当前技术和认知能力无法突破的难题,而我们可以释放所有这些潜力。你最感兴趣的科学领域和科学突破有哪些?我们需要怎样的模型来实现这些突破呢?

哈萨比斯:我毕生致力于AI研究的核心动力,就是希望用AI加速科学发现、改善人类健康——这无疑是AI最重要的使命。我觉得如果我们以正确的方式构建AGI,它将成为科学的终极工具。

DeepMind已经在这方面开辟了道路,除了最著名的AlphaFold,我们的AI系统还应用于材料设计、核聚变等离子体控制、天气预测、国际数学奥林匹克竞赛解题等多个科学领域。同样类型的系统再经过一些微调,基本上就能解决很多这类复杂问题。

但我认为我们只是触及了AI所能做到的事情的表面,还有一些东西是缺失的。我想说,如今的AI还不具备真正的创造力,因为它还无法提出新的猜想或新的假设。它或许能够证明你提供给它的某些东西,但它本身无法提出新的想法或理论。这实际上将成为衡量AGI是否成熟的关键测试之一。

主持人:作为人类,创造力是什么? 

哈萨比斯:我认为是直觉上的飞跃,让我们常常对历史上最杰出的科学家和艺术家们致以敬意。也许这是通过类比或类比推理来完成的,心理学和神经科学对此有多种理论解释,也有关于我们人类科学家如何开展研究的理论。一个有效的测试方法是,给AI设置1901年的知识截止点,看它能否像1905年的爱因斯坦那样提出狭义相对论。如果能够实现这种创造性跃迁,或许就意味着我们接近真正的AGI了。

以十年前击败世界冠军的AlphaGo为例:它不仅赢了比赛,还为围棋发明了前所未见的新策略,这一著名的第37手棋出现在第二局比赛中,如今已成为研究对象。但问题在于,AI系统能否想出像围棋一样优雅、令人满足、在美学上同样美丽的游戏,而不只是一种新策略呢?目前,对这些问题的答案是否定的。我认为这正是真正通用系统所缺失的:AGI应该具备这种原始创造能力,而不仅仅是优化现有体系。

主持人:你能分析一下缺少什么吗?也许与达里奥、萨姆等人分享的观点有关,即AGI在几年内就能实现,你是否认同这一观点?从系统架构的角度看,当前究竟缺乏哪些关键组件?

哈萨比斯:嗯,我认为这其中的根本问题在于,我们能否复制人类顶尖科学家那种直觉飞跃,而非渐进式进步?我常说,优秀科学家与伟大科学家的区别在于创造力,他们能从其他领域发现可类比模式,迁移到解决目标问题上。我认为有朝一日,AI将能够做到这一点,但它目前还不具备实现这种突破所需的推理能力和某些思维能力。此外,系统的一致性也是当前短板。

所以你经常听到我们的一些竞争对手谈论现有系统具备“博士智能水平”,我觉得那是一派胡言。它们确实在某些领域达到博士级能力,但整体远未达到通用智能应有的水平,真正的AGI应该在所有领域都保持博士级表现

事实上,众所周知,在与当今的聊天机器人互动时,如果你以某种特定方式提问,它们甚至会在高中数学和简单计数等方面犯简单错误。对于真正的AGI系统来说,这应该是不可能的。我觉得,我们距离拥有一个能够完成这些任务的AGI系统,大概还有5-10年的时间。

此外,持续学习能力也是一个关键的缺失:系统需要能实时吸收新知识、调整行为模式。或许规模扩大会带来突破,但我认为还需要一两个根本性的技术突破,这些可能会在未来5年左右出现。

Nano Banana与创意工具的未来

主持人:与此同时,一些报告和所使用的评分系统似乎正在表明两件事:其一,大型语言模型性能正在趋同;其二,代际性能提升速度正在放缓或趋于平缓。这两点观察大体上是正确的,还是并非如此呢?

哈萨比斯:不-不。我的意思是,我们内部并没有看到这种情况。我们仍在见证巨大的进步速度,但同时也在更广泛地审视事物。你看,我们有Genie模型和Veo模型,以及Nano Banana。 

主持人:对,这简直太疯狂了。像我这种从Adobe Photoshop、Kai’s Power Tools时代过来的人,现在看到Bryce 3D这样的图形系统能实现实时识别,这完全颠覆了我们当年的工作流程。 

哈萨比斯:嗯,我认为很多这类创意工具的未来就是,你只需与它们产生共鸣,或者直接和它们交流,它们就会足够稳定。Nano Banana的强大之处不仅在于它是顶尖图像生成器,更在于其惊人的一致性:它能够理解指令,按照你的要求进行更改,同时保持其他元素不变。这样你就可以用它进行迭代,最终得到你想要的输出结果。我认为,这就是许多这类创意工具的未来走向,也在一定程度上预示了发展方向,人们喜欢它,也喜欢用它进行创作。

主持人:我记得小时候得买关于Adobe Photoshop的书,然后通过阅读这些书来学习如何从图像中去除某些东西、如何填充、羽化以及诸如此类的操作。现在任何人都可以使用Nano Banana来做到这一点,他们只需向软件说明自己想做的事情,模型就会帮他们实现。 

哈萨比斯:我想你会看到两件事,一是这些工具让每个人都能使用和创作,而不必像我们过去那样学习极其复杂的用户体验(UX)和用户界面(UI)。另一方面,我认为我们会,而且我们也正在与电影制作人、顶级创作者和艺术家合作,他们正在帮助我们设计这些新工具应该是什么样子。

像我的朋友达伦·阿伦诺夫斯基(著名导演)团队正在用Veo和我们的其他一些工具制作电影,他们的反馈正在帮我们重塑下一代创作工具的功能设计。我们发现,它也能让最优秀的专业人士如虎添翼、火力全开,专业创作者能实现十倍百倍的效率提升,以极低成本尝试各种创意构想,最终精准实现理想效果。

这实际上形成双轨赋能效应:我们正在将其普及化,以供日常使用,供油管创作者等大众用户降低门槛,另一方面又为高端创作者提供放大器——但并非所有人都能获得相同输出质量,因为其中还涉及使用技巧、审美视野和叙事能力等专业素养。真正擅长这些工具的优秀创作者,能借此实现前所未有的迭代速度。

主持人:我们能进入一个每个人都能描述自己感兴趣的内容类型的世界吗?比如播放类似戴夫·马修斯的音乐或沉浸式体验《勇敢的心》电影中的游戏。未来我们会走向个性化内容定制,还是保持传统一对多的创作模式?从文化层面看——这或许有点哲学意味——我们是否会失去集体共享的叙事体验?当每个人都在虚拟世界中构建个人化故事时,由创作者主导的公共文化记忆是否会消失?

哈萨比斯:实际上,我预见了一个世界,作为一名在90年代就开始投身游戏行业的游戏设计师和程序员,我对此思考颇多,我认为未来娱乐将出现全新的艺术形式,即一种融合共创的体验。顶级创意先锋仍将主导创作,他们能用相同工具打造出比普通人更高质量的动态叙事体验。数百万人既可以沉浸在这些世界中,也能参与部分内容的共创。主创者可能扮演“世界编辑”的角色,协调整体叙事框架。这正是我预见的未来几年图景,也是我们希望通过Genie等技术探索的方向。

主持人:能否谈谈你目前的时间分配呢,是否主要专注于Isomorphic Labs?或许可以先简要说明Isomorphic的研究方向。你在这方面投入很多精力吗?

哈萨比斯:我确实在主导Isomorphic Labs。这家从我们团队分拆的公司,旨在依托我们的技术,彻底变革药物研发。基于AlphaFold的蛋白质结构突破,我们正在构建多个“相邻的AlphaFold”系统,比如设计能精准结合靶点且无副作用的化合物。我认为在未来10年内,药物研发周期有望从数年甚至十年缩短到几周甚至几天。

主持人:你觉得这个很快就能进入临床阶段,还是仍处于探索阶段? 

哈萨比斯:我们正在构建平台化系统,目前与礼来公司(Eli Lilly)——我想你之前应该有他们CEO的发言——还有诺华(Novartis)建立了重要合作,同时推进内部药物研发项目。我认为我们将在明年某个时候进入临床前阶段。

主持人 :那么,候选药物会被移交给制药公司,然后由他们推进后续流程吗? 

哈萨比斯:没错。我们正在开展癌症、免疫学和肿瘤学方面的研究,并且与MD安德森等机构展开了合作。

“科学的黄金时代”

主持人:我想回到你关于AGI的观点。模型可以是概率性还是确定性的?确定性模型像逻辑算法,每次输入都输出相同结果;而概率性模型会做选择,比如选择这封信的概率是80%,选择那封信的概率是90%,依此类推。在药物研发建模中,我们需要多少确定性模型来匹配分子相互作用的物理化学原理?又该如何构建新型确定性模型,使其与数据驱动的概率模型协同工作。

哈萨比斯:这是个很棒的问题。实际上,目前,而且我认为可能在未来五年左右的时间里,我们正在构建一种你们可能称之为混合模型的东西。AlphaFold本身就是一个混合模型,其中有学习组件,也就是你提到的概率组件,它是基于网络、变压器等构建的;而且它从你提供的数据中学习,包括任何你能获取的数据。但在很多情况下,生物学和化学领域并没有足够的数据可供学习,所以你还得把一些你已经知道的化学和物理规则融入其中。

例如,对于AlphaFold来说,原子键角必须符合化学原理、原子间不能出现非法重叠。理论上模型能自学这些规则,但会浪费大量学习能力。所以实际上,把它当作一种约束条件会更加高效。

所有混合系统都面临这个核心难题。就像AlphaGo使用了神经网络学习围棋模式识别,蒙特卡洛树搜索负责策略规划。关键在于如何将学习系统与更具定制性、量身打造的系统相结合,并且让它们真正协同良好地运作。而这做起来相当棘手。 

主持人:你认为那种架构最终会带来AGI所需的突破吗?是否存在需要解决的确定性组件。 

哈萨比斯混合系统的终极目标是将已验证的解决方案上游化整合到学习组件中。所以,如果你能进行端到端学习,并直接从给定的数据中预测出你想要的结果,那总是更好的。一旦你使用这些混合系统中的一个弄清楚了某件事,你就会尝试回过头去逆向工程你所做的事情,看看是否能将所学的知识、信息融入到学习系统中。这大致就是我们在AlphaZero(Alpha Go的更通用形式)上所做的事情。AlphaGo包含围棋特定知识,而AlphaZero摒弃了所有人类棋谱数据,完全通过自我对弈学习。这种范式使其能掌握任何游戏,而不仅仅是围棋。

主持人:关于AI产生的能源需求已经出现了很多炒作,这是我们几周前在华盛顿特区举办的AI峰会的重要组成部分。如今,这似乎是科技领域里人人都在谈论的头号话题:这些电力将从哪里来?我想问:通过模型架构创新、硬件优化或软硬件协同设计,能否显著降低单次输出的能耗与成本?这种技术进步是否会缓和能源需求曲线的陡增趋势?还是说几何级数增长的能源需求依然不可避免?

哈萨比斯:有趣的是,我认为这两种情况都是真实的,尤其是我们谷歌和DeepMind这类需要每日为数十亿用户提供AI概述服务的企业,它必须极其高效、极低延迟且服务成本非常低廉。我们开创了多种技术实现这一点,比如蒸馏。在蒸馏中,你实际上是让一个更大的模型在内部训练较小的模型,对吧?随着时间的推移,如果你看看过去两年的进展,相同性能下的模型能效已提升了10倍甚至100倍。

当前的能效提升未能降低总需求的原因在于,我们尚未实现AGI。前沿模型仍需持续扩大规模来实验新想法,而服务端能效则在同步优化,所以这两件事都是真的。

最后,我认为从能源角度来看,AI系统在电网系统和电气系统效率、材料设计、新型特性、新能源等方面回馈给能源和气候变化等领域的贡献,将远远超过其消耗。我认为在未来10年里,AI将在所有这些方面发挥作用,其带来的益处将远远超过它目前消耗的能源。

主持人:作为最后一个问题,请描述一下10年后的世界。 

哈萨比斯:好吧,我的意思是,你知道的,10年,甚至10周在AI领域都是另一个时代了。但我确实认为,如果我们在未来十年内拥有完全的AGI,将开创一个科学的黄金时代,一种新的文艺复兴。我认为我们将看到其从能源到人类健康等各个领域的益处。 

主持人:太神奇了。请和我一起感谢诺贝尔奖得主哈萨比斯,谢谢。

参考链接:

[1]https://x.com/demishassabis/status/1967280577200943528

[2]https://www.youtube.com/watch?v=Kr3Sh2PKA8Y

本文来自微信公众号“量子位”,作者:不圆,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AGI 通用人工智能 DeepMind Demis Hassabis AI 人工智能 科学发现 机器人 药物研发 世界模型 Genie AlphaFold Isomorphic Labs AGI Artificial General Intelligence DeepMind Demis Hassabis AI Scientific Discovery Robotics Drug Discovery World Models Genie AlphaFold Isomorphic Labs
相关文章