虎嗅 11月07日 20:18
AI的电力需求与供给的挑战
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

人工智能的飞速发展带来了巨大的电力需求,以微软CEO纳德拉的说法,缺电已成为制约AI发展的瓶颈,甚至导致大量GPU闲置。尽管谷歌尝试将TPU送入太空利用太阳能发电,但其电力传输和散热问题仍待解决。AI对电力的饥渴很大程度上源于GPU功耗的数倍增长,以及互联技术和散热系统的耗电。然而,市场对能源行业的反应却显得滞后,原因在于电网审批和输电线路建设的漫长周期与AI需求爆发速度存在巨大时间错配。同时,AI自身能耗的降低和可再生能源的快速发展,特别是小型模块化反应堆(SMR)的兴起,为解决AI的电力问题提供了新的可能。AI模型效率的提升和数据中心能效的改进,也在一定程度上缓解了电力压力,预示着AI将重塑能源行业格局。

⚡️ **AI电力需求激增与供应挑战并存**:以微软CEO纳德拉的观察为起点,AI产业正面临严峻的电力短缺,导致高性能计算资源无法充分利用。谷歌的“捕日者计划”将TPU送入太空利用太阳能发电,试图绕开地面电力瓶颈,但面临太空环境下的电力传输与散热难题。AI对电力的巨大需求,部分归咎于英伟达GPU功耗的快速增长,以及GPU集群内部通信(如NvLink)和散热系统的高能耗。

⏳ **供需错配是核心问题**:尽管AI对电力的需求迫切,但能源板块的市场表现并未同步增长。其根本原因在于,AI需求爆发的速度(以季度计)与电网接入审批(5年)及输电线路建设(10-17年)之间存在巨大的时间尺度差异,形成了“供需错配”。同时,微软等科技巨头在实现碳中和目标上面临挑战,其数据中心仍依赖化石燃料。

🚀 **多元化解决方案与技术革新**:为应对AI的电力需求,多种解决方案正在涌现。一方面,AI模型自身的能效提升显著,如OpenAI和谷歌在模型优化上取得的突破,大幅降低了单位计算的能耗。另一方面,硬件能效也在不断提高,新一代AI芯片和数据中心(如采用液冷技术)的PUE值不断降低。此外,可再生能源(如太阳能、风能)的快速发展,以及核能,特别是小型模块化反应堆(SMR)的兴起,为提供稳定、大规模、低碳电力开辟了新途径,科技公司正积极投资SMR技术。

💡 **AI驱动能源行业重塑**:无论AI的电力需求最终是短期爆发还是长期持续,AI产业的发展都已深刻地重塑了能源行业。能源行业的兴盛将进一步推动其他相关产业的发展,形成积极的循环效应。

都说AI的尽头是能源,微软CEO纳德拉在最近的采访中侧面印证了这个观点。“因为缺电,微软很多GPU都躺在库房里不工作。”纳德拉如是说道。

谷歌最近搞出了TPU送上太空,用太阳来给机器发电的奇招,仿佛就是纳德拉这句话的“回声”。

但奇怪的是,纳德拉这句话看起来利好能源行业,但无论是大A还是纳斯达克,其能源板块都没有因为纳德拉的话而涨幅。从11月初至发稿,大A涨幅0%,纳斯达克能源板块最大一家公司的涨幅是0.77%。

一方面硅谷巨头连呼缺电,甚至搞出了“上天”这样的解决方案,但另一方面,如此明确的信号,市场却置若罔闻,迟迟没有回应。

这就不禁让人产生了一个疑问:AI产业真的缺电吗?

OpenAI CEO山姆·奥特曼的观点是:是,也不是。

说是,是因为现在确实存在缺电的现象;说不是,是因为问题的本质其实是AI过剩,虽然他不清楚具体会是多少年,但是最多不超过6年,AI就会超出人们的需求,也会导致AI对电的需求降低。

也就是说,AI产业短期缺电,但长期来看,随着AI能耗的降低,缺电问题就会得到解决。

谷歌公司在2025年11月初公布了一个名为“捕日者计划”的项目,该计划的运作方式是把TPU芯片送入太空,用太阳能为其发电。

太阳每秒钟向外辐射的能量,大约是3.86乘以10的26次方瓦,这一数值是当前人类社会全球总发电量的一百万亿倍以上。而部署在晨昏太阳同步轨道上的卫星,其太阳能板几乎可以不间断地接收到光照,一年下来所接收的能量是在地球中纬度地区同样面积太阳能板接收能量的8倍。

捕日者计划与卫星公司Planet Labs合作,在距离地面650公里的低地球轨道上,部署一个由81颗卫星构成的AI计算集群。按照设计,这些卫星将在半径1公里的空域内协同工作,彼此之间的距离维持在100到200米。该计划预计在2027年初发射首批两颗试验卫星,以验证方案的可行性。

尽管谷歌曾经表示,其在一年内已将旗下Gemini模型的单次查询能耗降低了33倍,但很显然,谷歌仍然需要电力。

在太空中利用太阳能发电并非新的概念,但长期以来受困于一个核心难题,那就是如何高效、安全地将产生的电力传输回地面。无论是采用微波束还是激光束,能量在传输过程中的损耗和对地面环境的潜在影响都使其难以大规模实施。

“捕日者计划”的思路则选择绕开了这个环节。它并不打算将电力传回地球,而是在太空中直接利用这些电力进行计算,只将计算完成后的结果传回地面。

地面上的TPU超级计算机集群,使用的是定制化的低延迟光学芯片互连技术,每个芯片的吞吐量能达到每秒数百吉比特。

而目前商用的卫星间光通信链路,数据速率通常只在1到100Gbps的范围内,这远不能满足AI计算集群内部大规模数据交换的需求。谷歌提出的解决方案是采用密集波分复用技术,理论上可以让每条卫星间链路的总带宽达到每秒约10太比特

谷歌对外解释了很多关于“捕日者计划”的难题以及解决办法,比如如何控制集群编队、如何抵抗辐射等等。

但谷歌并没有解释该如何散热。

这是一个非常棘手的物理问题,真空中是没有空气对流的,热量只能通过辐射方式散发出去。谷歌曾经在一篇论文中提到,需要使用先进的热界面材料和热传输机制,并且最好是被动式的以保证可靠性,从而将芯片产生的热量高效传导至专用的散热器表面进行辐射。关于这部分的技术细节,论文中并未提供太多信息。

事实上,将数据中心送入太空的想法并不只有谷歌一家。就在谷歌公布计划的前几天,一家名为Starcloud的初创公司已经发射了搭载英伟达H100芯片的卫星,并宣称要建设一个拥有5吉瓦功率的天基数据中心。埃隆·马斯克也曾表示SpaceX“将会做”太空数据中心。

2025年5月,中国的之江实验室与国星宇航合作的“三体计算星座”首批12颗计算卫星已成功发射并组网。

所以在送AI去太空这个问题上,虽然听起来很新颖,但是大家的目的都是一样的,想用电,那就去上面拿,地面上电不够你们用的。

造成AI对电饥渴这一局面,主要归罪于英伟达。这家公司的GPU产品,从Ampere架构到Blackwell架构,仅仅过了4年,功耗就增长了数倍。

一个使用Hopper架构GPU的服务器机架,额定功率约为10千瓦;而到了Blackwell架构,由于GPU数量的增加,机架功率接近120千瓦。

而且,由于现在GPU的单位都是万,数万块GPU相互交流的时候还要借助英伟达的互联技术NvLink技术以提升交流效率。而每一条NvLink的链路功耗就有4到6瓦,两块GPU之间有18条链路,这些NvLink又要集中到NvSwitch上以实现非阻塞连接,而一个NvSwitch的功耗是50到70瓦。

若一个GPU集群拥有1万块H100,那就需要157个NvSwitch和9万条NvLink链路。那其功耗大概就是730千瓦到1100千瓦之间。

还没完,GPU在散热方面也是耗电大户。最常见的8卡H100服务器,如果采用的是风冷系统,功耗就要达到150瓦,所以一个万卡集群,光是散热就需要187千瓦。

当前,大型科技公司之间的竞争,其衡量标准已经从传统的计算能力单位,转向了能源消耗单位“吉瓦”。像OpenAI和Meta这样的公司,都计划在未来几年内增加超过10吉瓦的计算能力。

作为参照,AI行业消耗1吉瓦的电力,足以供应大约100万个美国家庭的日常用电。国际能源署在2025年的一份报告中估计,到2030年,人工智能领域的能源消耗将翻一番,其增长速度几乎是电网自身增长速度的四倍。

高盛预测,到2027年全球数据中心电力需求预计将增长50%,达到92吉瓦。而美国数据中心电力需求在总电力需求中的占比,将从2023年的4%,增长到2030年的10%。此外,高盛还指出一些大型数据中心园区的电力接入请求,单个项目确实能达到300兆瓦到数吉瓦的级别。

但是,有意思的来了。

NextEra Energy是北美最大的可再生能源公司,而跟踪美国公用事业板块表现的代表性行业ETF名为XLU。过去52周,NextEra的涨幅为11.62%,ETF XLU的涨幅为14.82%,但同期标普500指数的涨幅却达到了19.89%。

如果人工智能行业真的面临严峻的电力短缺,那么作为电力供应方的能源公司和公用事业板块,理应获得超额的市场回报,而不是连大盘都跑不过。

对此,纳德拉讲出了一个关键线索。他说“电网接入审批需要5年”,而且“输电线路建设则需要10到17年”。

而与此同时,GPU的采购周期是以季度来计量的,数据中心的建设周期通常为1到2年,人工智能需求的爆发速度则是以季度为单位在变化。

这些时间尺度之间存在着数量级的差异,由此产生的时间错配,正是纳德拉说AI缺电的本质所在。

而且对于纳德拉来说还有一个当下没办法解决的烦恼。2020年微软曾宣布,在保护生态系统的同时“实现碳负排放、用水净增并实现零废弃”。

然而现实情况是,目前微软数据中心所使用的电力中,近60%仍然来自包括天然气在内的化石燃料。这所产生的年度二氧化碳排放量,大约相当于54000户普通美国家庭的排放总和。

另一方面,国际能源署在2025年10月发布的《可再生能源报告》中指出,全球发电能力的增长速度,可能会超过包括人工智能在内的新增电力需求。

报告提出,在2025至2030年这五年期间,全球可再生能源装机容量将增加4600吉瓦,这一增量的规模,大致相当于中国、欧盟和日本三个经济体当前装机容量的总和。更进一步,报告预计这五年的新增装机容量,将是之前五年增量的两倍。

这里要特别要提到的就是核能。核能是唯一能够提供稳定、大规模、低碳电力的选择。传统大型核电站的问题是建设周期长、成本高、风险大。但小型模块化反应堆正在改变这个局面。SMR可以像制造飞机或汽车一样在工厂里批量生产标准化模块,然后通过铁路或公路运输到现场进行组装,类似于“乐高积木”的建造方式。

SMR的单机容量只有50—300兆瓦,比传统核电站的1000—1600兆瓦小得多,但这恰恰是它的优势。更小的规模意味着更短的建设周期、更低的初始投资、更灵活的选址。SMR可以在工厂里批量生产,然后运到现场组装,大幅降低成本和风险。

SMR是当下最火最潮的发电方式。谷歌曾与Kairos Power签署协议,购买了500兆瓦的SMR核电,这是科技公司首次直接投资SMR技术。微软则是在2024年1月,聘请了曾在Ultra Safe Nuclear Corporation的核战略与项目总监,来担任微软核技术总监。其目的就是开发SMR以及更小的微型模块化反应堆。

换句话说,微软缺的不是电,而是时间。

相较于能源方面,减少AI自身的功耗也是一条重要的发展方向。

奥特曼的观点是,每单位智能的成本每年下降40倍,很可能我们几年后就不需要这么多基础设施了。而且如果突破持续,个人级通用人工智能可能在笔记本上运行,进一步减少发电需求。

奥特曼曾写过一篇文章,以自家产品为例,解释过这个问题。文章中写到,从2023年初的GPT-4模型到2024年中的GPT-4o模型,仅仅过了一年,每个token的成本,降低了大约150倍。在算力不变的前提下,同样的业务,在AI不同的发展阶段,所需要消耗的电力就会减少。

他说这种幅度的价格下降,如果仅仅依靠硬件成本的线性降低是无法实现的,其背后必然包含了算法优化、模型架构改进和推理引擎效率提升等多方面的综合作用。

斯坦福大学2025年人工智能指数报告中证实了这个说法,报告中写到:在18个月内,达到GPT-3.5水平)的AI模型调用成本,从2022年11月的20美元/百万token骤降至2024年10月的0.07美元/百万token,成本下降了280倍。

在硬件方面,GPU现在增加了两个新的能效衡量单位:TOPS/W和FLOPS per Watt。这样的单位,是为了能够更直观地看到能效方面的突破。

比如Meta发布的第五代AI训练芯片Athena X1,在低精度的前提下,能效比达到了32TOPS/W,较前代提升200%,空载功耗下降87%。英伟达H100哪怕在FP8这样低精度的范围里,其能效比也只有5.7TFLOPS/W。

不过对于一些高精度的训练任务,仍然需要使用H100,这也是为什么Meta要大规模采购几十万块英伟达的GPU。

Epoch AI的研究数据显示,机器学习硬件的能效正以每年40%的速度提升,每2年翻一番。新一代AI芯片的能效提升显著。

英伟达的H200 GPU相比上一代H100,能效提升了1.4倍。看起来还有很大的提升空间。

从宏观角度看,数据中心本身的能效才是最值得关注的数字。通常使用PUE来衡量数据中心的能耗情况。

PUE的理想值是1.0,意味着所有电力都用于计算,没有浪费在冷却和其他辅助系统上。十年前,数据中心的平均PUE是2.5,现在是1.5,谷歌的最新数据中心已经降至1.1。这意味着同样的计算任务,现在只需要当年一半的电力。液冷技术、免费冷却、AI驱动的能源管理系统正在继续推低这个数字。

但无论哪种结局,能源行业都因为AI而完成了重塑,即便未来AI的需求减少,能源行业的兴盛也会推动其他行业发展。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI 能源 电力 数据中心 GPU 谷歌 微软 SMR 可再生能源 供需错配 能效 Artificial Intelligence Energy Electricity Data Center Google Microsoft Renewable Energy Supply-Demand Mismatch Energy Efficiency
相关文章