大模型核心需求：算力、内存与网络是关键

「【新智元导读】在 AI 热潮中，大模型最「渴求」的究竟是什么？是算力、是存储，还是复杂的网络互联？在 Hot Chips 2025 上，Transformer 发明者之一、谷歌 Gemini 联合负责人 Noam Shazeer 给出了答案。」

一图看透全球大模型！新智元十周年钜献，2025 ASI 前沿趋势报告 37 页首发

大模型需要什么？

在硅谷举行的科技盛会 Hot Chips 2025 首日的主题演讲上，谷歌 DeepMind 的 Noam Shazeer 回答了这一问题，发表了题为《下一阶段 AI 的预测》的主题演讲。

除了是 Transformer 论文《Attention Is All You Need》的作者之一，他还推动了许多技术创新，例如显著提升谷歌搜索中的拼写校正功能。

早在 2017 年，他就发明了 Transformer 模型，至今已深耕 LLM 领域十年。

后来，他开发了一款聊天机器人，但谷歌拒绝发布这项成果，这也促使他选择离职，创办了 Character.AI。

不久之后，谷歌意识到自身短板，最终以 27 亿美元的高价与 Character.AI 达成合作。

如今，Noam 已回归谷歌，担任 Gemini 项目的联合负责人。

正如他所展示的，大语言模型可以借助硬件等各方面资源的提升，不断改善性能与准确性。

「AI 下一阶段」

「算力，算力，还是算力」

Noam Shazeer 主要分享了 LLM 的需求、个人的 LLM 研究之路以及硬件与 LLM 的关系。

他强调几点关键内容。

首先，Noam 认为语言建模是当前最重要的研究领域。

他在演讲中用一张幻灯片专门阐释了这一点，可见他对该话题热情之高。

然后他谈到了「LLM 到底需要什么」(What LLMs want)。

他更关注的是：更多的 FLOPS 意味着更好的性能。

这非常重要，因为随着参数的增加、深度的增加、非线性以及信息流的增加，LLM 的规模也随之增加。

这可能需要更多的计算资源。更多的优质训练数据也有助于创建更好的 LLM。

他还谈到了 2015 年时，在 32 个 GPU 上训练是一件大事；但十年后，可能需要数十万个 GPU。

另一个有趣的小细节是，他说在 2018 年，谷歌为 AI 构建了计算节点。

这是一件大事，因为在此之前，谷歌工程师通常在一千个 CPU 上运行工作负载。但随后它们会变慢，另作他用，比如爬取网络。

拥有专门用于深度学习 / AI 工作负载的大型机器，使得性能有了巨大的提升。

接着是芯片会议上的一大亮点，即 LLM 对硬件的需求。

从这张幻灯片中，可以看到一个有趣的观点

更多的计算能力、内存容量、内存带宽和更多的网络带宽，对于推动未来 AI 模型的进步都至关重要。

在「所有层级」上，这不仅仅是 DDR5 的容量和带宽，还包括 HBM 和芯片上的 SRAM。

降低精度以帮助更好地利用这四个方面，在很多情况下也被视为好事。

确定性有助于更好地编程。

演讲的信息归结为：在集群中拥有更大、更快的设备将导致 LLM 的增益。

这对谷歌和其他一些公司来说可能是个好消息。

「大模型要什么硬件？」

Noam 是典型的「反向跨界者」：作为 AI 研究者，他对硬件充满好奇，总想知道这些机器如何运作。

在 Mesh-TensorFlow 项目中，他对 TPU 的底层网络结构产生了极大兴趣。

论文链接：arxiv.org/abs/1811.02…

他提出了很多让人耳目一新的问题：

你们的芯片居然是环形网络结构？

那数据包在里面怎么跑？

怎么映射到神经网络的张量计算里？

这种好奇心最终促成了谷歌在软硬件协同设计上的诸多突破。

在这次演讲中，Noam Shazeer 深入剖析了 LLM 到底需要什么硬件。

「」

「AI 需要的硬件支持：不止 GPU」

毫无疑问，算力是 LLM 最需要的因素。

当大家说「LLM 想要什么」时，实际上也是在问：

为了让 AI 更聪明，我们的硬件系统需要如何变化？

Noam 的答案清晰直接：越多越好，越大越好。

1. 「更多算力（More FLOPs）」

算力越多越好，最好是数以千万亿次的浮点运算能力（petaflops）。它直接决定你能训练多大的模型，用多大的 batch，覆盖多少训练数据。

2. 「更大内存容量 & 更高内存带宽」

Noam 指出，内存带宽如果不足，会限制模型结构的灵活性，比如不能轻易加非线性层。而更高的带宽 = 更细粒度的控制。

内存包括：片上存储（on-chip SRAM）、高带宽内存（HBM）、显存或 DRAM 等其他中高速缓存

**「内存容量」**方面，直接决定了：

能塞下多大的模型；

在推理时，能保留多少中间状态（比如长上下文、缓存、注意力头等）。

3. 「网络带宽（Network Bandwidth）」

这个是很多人忽视但至关重要的一项。

因为无论是训练还是推理，LLM 几乎一定会**：**模型被分到多个芯片，数据在它们之间来回传递。

举个例子，大家现在都在追求「长思维链」（long chain of thought），也就是说模型要花更长的时间「思考」才能得出更强的答案。

可这也意味着**「每一步推理要更快完成」**，否则响应就变慢了。

这时候，「瓶颈往往就在于你是否能迅速访问完所有模型参数」——

不只是芯片上的那一份，而是分布在一整块计算网格中的所有部分。

因此，Noam 总结说：

想推理得快，核心问题就是——你这一群芯片，总共能提供多少内存带宽？

「」

「AI 加速发展，人类路在何方？」

他补充了一些其他对硬件设计的「愿望清单」。

1. 「低精度（Low Precision）」

在传统科学计算中，精度至关重要。

但在 LLM 中，模型本身就具有一定「模糊性」，低位数往往影响不大。

因此，**「低精度换算力」**完全合理，能用 8-bit、甚至 4-bit 来换更多 FLOPs，值得如此做。

行业确实在尝试越来越低的精度格式（FP8、INT4、二进制等）——只要能保持收敛，越低越好。

当然，不能牺牲可重复性。

核心挑战是「训练时精度够用」「推理时误差够小」。

2. 「可复现性（Determinism）」

Noam 认为这是关键，因为**「机器学习****实验的失败率本就很高。」**

很多时候你都不知道，某个结果失败，是因为模型结构不对，数据有问题，还是你代码里有 bug。

如果每次训练都跑出不同结果，那连「调试」都无从下手。

他回忆早期在 Google Brain 做异步训练的时候，经常出现「这次跑通了，下次又崩了」的情况，工程体验极差。

所以，他给硬件设计者的建议是：

除非你能给我 10 倍性能，否则请不要牺牲可重复性。

3. 「运算溢出与精度「「损失」」问题」

有现场观众提问：低精度运算经常会溢出或出现不稳定，怎么处理？

Noam 回答：

确保 accumulator（累加器）使用更高精度；

或者进行裁剪（clipping），不要让数值爆掉；

最差的方案是「数值回绕」（wrap around）。

主持人 Cliff 补充了一句俏皮话：

我们要的是，加载 checkpoint 后，机器要按原样崩掉 ——

这才算真正的可重复性。

Waymo 工程师提出的一个刁钻问题：如果今天起硬件就不再进步，我们还能搞出通用人工智能（AGI）吗？

Noam 给出意外但坚定的回答：可以。

他指出，「AI」 「会加速自身发展」，推动软件、系统设计持续进化，即使硬件原地不动，我们也能靠软件层面的革新继续进步。

当然——他话锋一转：不过如果你能继续搞出更好的硬件，自然更好。

如果 AGI 真的到来，人类又该何去何从？

「AI 是拯救还是终结人类？」

在算力和数据的驱动下，AI 不断向更复杂的领域进发。

「只要投喂足够的数据和算力，就有可能学习并揭示宇宙的内在结构。」

在最近的访谈中，微软 AI 的 CEO Mustafa Suleyman 如此说。

他指出，当前的 LLM（大语言模型）还只是「单步预测引擎」，尚处于 AI 发展的早期阶段。

但随着持久记忆和长期预测能力的加入，LLM 将有望发展为具备完整规划能力的「行动型 AI」：

不仅能像人类一样制定复杂计划，还能持续执行任务。

这一飞跃可能在 「2026 年底前实现」。

Suleyman 用「breathtaking」（惊艳）来形容这一未来，并强调，我们还只是刚刚起步，一切都将很快发生深刻变化。

「」

「25 岁豪赌未来 AI，如今预测 AI 失业潮」

时间回到 2010 年，智能手机才刚刚普及、应用商店尚在萌芽，AI 更像是科幻小说的陈词滥调，而非严肃的科学课题，即使是顶尖学者也对此不屑一顾。

当时年仅 25 岁的 Mustafa Suleyman 与两位「勇敢而有远见的」联合创始人 Demis Hassabis 和 Shane Legg，却笃信一个革命性的理念：

如果能创造出真正理解人类的智能，那将是改善人类状况的最佳机会。

Suleyman 尖锐地指出，历史上充满了带来「净伤害」的发明。

因此，在 AI 这项「有史以来最强大的通用技术」面前，从价值观出发，将人类福祉置于首位，不是一句空洞的口号，而是一个必须时刻坚守的起点。

但 Suleyman 直言，在未来 20 年内，将面临**「大规模的失业潮」**。

今天许多白领从事的「认知上的体力劳动」，如数据录入、邮件处理等，将被 AI 高效替代。

他直言，这些恐惧「非常真实」，并强调政府必须强力介入，通过税收等再分配机制来缓冲这一社会巨变。

在此基础上，他提出了自己著作《即将到来的浪潮》中的核心概念——「「遏制困境」（The Containment Problem）」。

他指出，技术的趋势是让权力被小型化、集中化，并以极低的成本普及给每个人。

当 AI 成为一个可以代表你打电话、写代码、执行计划的智能体时，每个人执行自己想法的成本和时间都将趋近于零。

这将带来巨大的创造力爆发，但同时也埋下了冲突的种子。

「如果我能点击一个按钮执行我疯狂的想法，你也能，那将引起大量的冲突。」

「摩擦对于维持和平与稳定很重要，」Suleyman 一针见血地指出。当执行一件事情的阻力（摩擦）消失时，混乱就可能接踵而至。

如何「遏制」这种以零边际成本扩散的力量，是我们时代最严峻的考验。

「」

「何时应该「拔掉电源」」

在所有对 AI 的担忧中，最令人恐惧的莫过于「失控」。

对此，Suleyman 明确划出了四条不可逾越的红线。

一旦一个 AI 同时具备以下能力，它将成为一个需要「军事级别干预」才能阻止的系统：

「递归式自我改进」

「自主设定目标」

「获取自身资源」

「在世界上自主行动」

这引出了一个关键问题：我们能「拔掉电源」吗？

答案是肯定的，因为 AI 存在于物理的数据中心里。

但真正的挑战在于，我们如何识别那个时刻的到来，以及如何集体做出关停的决定。

「」

「重新定义「你的饭碗」」

对于 AI 引发的失业恐慌，Suleyman 提供了一个更为乌托邦的视角。

他引用瑞典的理念——「我们不关心工作岗位，我们关心工人」，并将其推向极致。

他认为，社会的任务不应是为人们创造「饭碗」，而是创造一个和平、支持性的环境，「让人们找到自己的激情，过上充实的生活」。

「我梦想一个人们可以自己选择做什么并拥有真正自由的世界。」

他相信，如果技术应用得当，产生的巨大价值足以让社会资助人们去追求这些真正有意义的事情。

这将释放巨大的创造力，但也会带来深刻的存在主义问题：「我是谁？我为什么在这里？」

参考资料：

youtu.be/v0beJQZQIGA

youtu.be/tQ5wO1lznCQ

「【新智元导读】在 AI 热潮中，大模型最「渴求」的究竟是什么？是算力、是存储，还是复杂的网络互联？在 Hot Chips 2025 上，Transformer 发明者之一、谷歌 Gemini 联合负责人 Noam Shazeer 给出了答案。」

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签