36kr 08月09日
又一颗芯片,被英伟达打败
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

特斯拉近日传出解散Dojo团队的消息,引发业界对自研训练芯片的广泛关注。文章回顾了Dojo项目从概念提出到最终叫停的全过程,并分析了Graphcore、英特尔Habana、Cerebras等公司的经验教训。作者指出,自研训练芯片面临生态软件壁垒、系统工程供应链、需求现金流节奏以及机会成本等多重挑战,对于绝大多数公司而言,这条道路并不具有可复制性。特斯拉转向外购英伟达GPU进行训练,同时自研推理芯片,体现了务实的商业策略。英伟达凭借其全栈交付能力,在AI基建时代再次展现了其系统性优势,强调了速度与生态的重要性。

🎯 **Dojo项目高开低走,自研训练芯片挑战严峻**:特斯拉自研的Dojo数据中心级训练系统,曾被寄予厚望,目标是实现超1 ExaFLOP级ML计算能力。然而,由于项目进展受限、核心技术负责人离职以及特斯拉转向采购英伟达GPU等因素,Dojo项目最终被叫停。这反映了自研训练芯片面临的巨大挑战,包括生态和软件的巨大投入、先进封装和HBM等供应链的依赖,以及巨大的前期投入和现金流压力。

💡 **英伟达的系统性胜利:全栈交付能力是关键**:文章强调,英伟达的成功并非仅在于GPU领先,而是其从硬件(GPU、NVLink、HBM)、网络(InfiniBand、Spectrum-X)、软件(CUDA、各类库)到交付(整柜、整机房解决方案)的全栈交付能力。这种“AI工厂”的模式,使得客户能够快速部署并投入使用,大大缩短了“模型训练周转率(Time-to-Train)”,为英伟达构建了强大的复合护城河。

⚖️ **“训练外购,推理自研”成为主流策略**:面对自研训练芯片的困难,特斯拉及许多非云巨头公司采取了“训练外购,推理自研”的策略。即在训练端依赖英伟达、AMD等成熟平台,以加速上线和降低风险;在推理端则进行自研,以更好地控制产品迭代和实现差异化。这种务实的组合拳,能够有效平衡成本、效率与市场节奏。

🔄 **AMD的追赶与自研路线的未来**:虽然英伟达目前占据主导地位,但AMD在性价比和特定工作负载(如微调)上正逐步追近,成为英伟达的有力竞争者。文章指出,Dojo的叫停不代表自研训练芯片的终结,云巨头如Google TPU和AWS Trainium的成功,证明了在拥有超大稳定自用需求、云服务生态和算法框架协同的情况下,自研路线仍有可行性。但对于车企或应用公司而言,成本和生态的匹配度是关键考量。

🚀 **速度与生态是AI基建时代的核心竞争力**:文章总结道,特斯拉Dojo项目的暂停,是输给了英伟达更强大的“产业系统”,而非单纯的芯片技术。在AI基建时代,快速部署和成熟的生态系统是决定成败的关键。英伟达的胜利再次提醒行业,速度与生态是赢得竞争的根本。

近日特斯拉解散Dojo团队、负责人离职的消息甚嚣尘上,也让观众们唏嘘不已。

近几年来,对于一众摊开身子去做训练芯片的大公司也好,初创企业也好,都是血淋淋的教训:Graphcore一度号称“IPU对抗GPU”,最终被软银收购,结束独立冲锋;英特尔/Habana(Gaudi)路线多、生态分裂,近来逐步并入 GPU/Falcon Shores 体系,淡化独立加速器路线;Cerebras坚持晶圆级(WSE)差异化,产品与订单在增长,但商业化和生态仍远未与 CUDA 可比——这是“特种装备”而非“通用平台”。

自研训练芯片这条道路,对绝大多数公司并不可行,能成的是极少数例外,不是可复制的范式。英伟达又赢了。

Dojo的“高开低走”

Dojo 是特斯拉为“现实世界场景”模型训练而自研的数据中心级训练系统。2019 年 4 月,马斯克在“Autonomy 投资者日”首次抛出 Dojo 概念;2020 年 8 月,他称受限于供电与散热,系统“还需大约一年”才能就绪。2021 年 8 月的 AI Day 上,特斯拉正式发布 D1 与 Training Tile,并同步公开 CFloat8/16 白皮书,给外界描绘了一条“自研算力+自研数值格式”的硬核路线。

在 2022 年的AI Day上,特斯拉给出 Dojo 的系统化扩展路径:从自研 D1 芯片 → Training Tile(5×5)→ System Tray → Cabinet → ExaPOD,目标是实现“超 1 ExaFLOP 级”的 ML 计算能力。

市场对 Dojo 的预期曾被推到高位——2023 年,摩根士丹利曾估算 Dojo 可能为特斯拉带来约 5000 亿美元的增量价值。直到 2025 年 Q2 财报会上,马斯克仍表示 Dojo 2 的目标是对标约 10 万台 H100 等价物。但现实层面,项目最终叫停。

期间多位核心技术负责人相继离开:2018 年,最初受聘领导特斯拉芯片工作的 Jim Keller 离任;随后 Ganesh Venkataramanan 接棒,2023 年离开并创立 DensityAI;近年持续主导芯片项目的 Peter Bannon 亦已离职,Dojo 项目随之收尾。

更指向性的证据来自并行路线的推进。早在 2024 年 Q4,特斯拉在奥斯汀上线 “Cortex” 训练集群(对外口径为约 5 万张 H100),并在 Q2’25 股东信里披露新增 1.6 万 H200,使整体规模约等于 6.7 万张 H100。这说明 Dojo 未能成为主力产线,特斯拉更多转向“采购成熟GPU平台”。事实也证明,买卡比造卡更快:除特斯拉外,马斯克体系的 xAI/“Colossus” 同样大规模采用英伟达 GPU,并配套 Spectrum-X 以太网做超大规模组网——连网络栈都被英伟达打包交付。

亡羊补牢,为时未晚

如今,特斯拉及时扭转局面。

训练侧:外采为主。特斯拉把主力训练转向可即刻部署、可线性扩容、生态成熟的英伟达(并补充部分 AMD),把“模型训练周转率(Time-to-Train)”拉回商业节奏。

推理侧:自研为主。与三星敲定 165 亿美元长期代工协议(AI6),将车载/机器人/边缘推理算力自控在手,贴近产品、风险更低、迭代更快。

组织侧:约 20 名原训练团队成员加入 DensityAI,其余并入公司数据中心/算力工程,避免在尚未收敛的训练芯片路线继续“烧时间”。

这套组合拳很务实:训练端“买成熟产线”,推理端“做自己最懂的场景”,既把 Time-to-Train 和 Time-to-Market 拉回到商业节奏内,也避免在生态战里被迫充当“软件平台提供商”。

Dojo项目的倒闭可能对特斯拉来说并不是一个很大的损失。8月8日,马斯克在社交平台X上回应amit网友称:“没有必要同时扩展两条截然不同的训练芯片路线;Tesla AI5、AI6 以及后续芯片在推理方面将非常出色,至少在训练方面也相当不错。所有精力都集中在这上面。”

他还进一步补充道,“在超算集群中,无论是用于推理还是训练,将许多 AI5/AI6 芯片放在一块板上是合乎情理的,这仅仅是为了将网络布线的复杂性和成本降低几个数量级。我想,这可以称之为 Dojo 3。”“AI4 和 AI5 之间在实际性能上的差异,远超我所知的所有芯片版本。它真的很出色。”

为什么“自研训练芯片”这么难?

1)生态与软件壁垒

训练芯片不是单芯片竞赛,框架适配、编译器、内核库、并行策略、调优工具链才是吞时间的黑洞。英伟达把 CUDA/cuDNN/各类并行库打磨了十几年,后来者很难追平这个“隐形工程量”。业界多家厂商在软件成熟度上“掉链子”,训练端难以稳定释放算力密度。

2)系统工程与供应链

先进封装(CoWoS/SoIC)、HBM 供给、机柜/供配电/散热、互联拓扑、集群调度、可靠性工程,任何一环不够强,TCO 就会被市售 GPU 平台反杀。尤其是先进封装和HBM这两块,2025年NVIDIA至少锁定台积电CoWoS-L 七成产能的报道频出,HBM市场由 SK hynix/三星/美光三强主导,且 HBM3E→HBM4 的节奏被各家紧紧盯住。没有这些供给保障,自研方案即便流片成功,也会在封装与内存上“卡脖子”。

3)需求与现金流节奏

自研要靠稳定、可预期且超大规模的自用训练需求摊薄巨额前期投入。除谷歌(TPU)和 AWS(Trainium)这类云巨头,鲜有人能把“芯片—集群—云服务”联动成正循环。

Meta训练芯也在逐步尝试,今年3月份据路透社的报道,Meta正在测试首款 AI 训练芯片,消息人士称,测试部署是在Meta完成芯片的首次“流片”后开始的。这款芯片是该公司元训练和推理加速器 (MTIA) 系列的最新产品。不过该项目多年来发展一直不太顺利,甚至一度在类似的开发阶段放弃一款芯片。目前Meta的MITA芯片仍以推理为主,用于确定哪些内容出现在 Facebook 和 Instagram 新闻推送中的推荐系统。

Meta 高管表示,他们希望到 2026 年开始使用自己的芯片进行训练,或者进行计算密集型过程,为 AI 系统提供大量数据以“教”它如何执行。与推理芯片一样,训练芯片的目标是从推荐系统开始,然后将其用于聊天机器人 Meta AI 等生成式人工智能产品。

4)机会成本

AI时代下,英伟达和AMD两大AI芯片玩家均已代际升级以季度为单位推进,自研芯片的代次跨度很容易一上板就过时,落地即落后。

在 Llama 2-70B-LoRA 等平台(8 GPU)微调工作负载中,Instinct MI325X的性能比 Instinct MI300X提升高达 30%(图源:AMD)

现在AMD也补上了“可用的第二供应商”,6月份,AMD发布了其首次提交MLPerf训练的结果,AMD的训练成绩也已经很能打(MLPerf 上与英伟达可比/部分领先的负载出现了)。在 AMD MLPerf Training v5.0 测试中,Instinct MI325X平台在微调 Llama 2-70B-LoRA(一种广泛用于定制大型语言模型的工作负载)时,性能比 NVIDIA H200 平台高出高达 8%。

Instinct MI325X平台与NVIDIA H200的对比(图源:AMD)

在这种情况下,再走一条第三条自研路,边际价值更小、失败成本更高。

Dojo 的叫停不等于“自研训练芯片永无出路”。云巨头例外依然成立:Google TPU、AWS Trainium 能跑通,是因为它们拥有超大、稳定的自用训练需求 + 云服务生态 + 算法/框架协同,能把“芯-机-云-软件”串成正循环。但对车企/应用公司而言,缺生态 + 缺供给链 + 节奏跟不上,机会成本才是终极杀手。

英伟达赢在哪里?

英伟达的胜利是系统性胜利。不只是 GPU 领先,而是从硅到机架到网络到软件的全栈交付能力:

硬件层:GPU + NVLink/NVSwitch + 高带宽内存 + 机架级整机;

网络层:InfiniBand 与 Spectrum-X 以太网两套方案,覆盖不同客户偏好与成本模型;

软件层:CUDA 体系与全栈库/工具,保障“可用算力/周”;

交付层:从整柜到整机房的“交钥匙工程”,缩短客户的Time-to-Train。

一个典型的案例:GB200 NVL72——72 张 Blackwell GPU + 36 颗 Grace CPU 的液冷整柜,一个机柜内构成 72-GPU 的 NVLink 统一域,对外就像一块超大加速器;第五代 NVLink/ NVSwitch 还能把多个机柜无阻塞拼合到 576 GPU。这不是“堆卡”,而是把互联、内存、软件、上电与运维做成可交付的“AI 工厂”

对于去自研AI训练芯片的厂商而言,很多时候,他们并不是技术不可行,而是时间、资金与生态的综合算术不合。当你在流血做“芯—板—机—集群—软件—网络”的全栈集成时,英伟达已经把GPU+ NVLink/NVSwitch/Spectrum-X + CUDA/cuDNN + DGX/GB 系统一整套“AI 工厂”卖给了你的对手与合作伙伴,“买英伟达 = 立刻可用的AI 工厂”

英伟达在机架级产品(如 GB 系列)与网络(Spectrum-X/InfiniBand 之外的以太网解法)上持续前移,把“可用算力/周”最大化。2024年10月28日,NVIDIA利用NVIDIA Spectrum-X以太网网络平台,实现了100,000个 NVIDIA Hopper GPU相连,这就是位于田纳西州孟菲斯的 xAI Colossus 超级计算机集群,其主要用于训练马斯克的Grok大模型。xAI和NVIDIA仅用122天就建成了配套设施和最先进的超级计算机,而这种规模的系统通常需要数月甚至数年的时间。从第一个机架滚到地面到训练开始,整个过程仅用了 19 天。

英伟达的“系统 + 软件 + 生态 + 交付能力”的复合护城河,正在把每一家“自研训练芯片”的商业试验拖回到现实。

对于英伟达而言,如今最大的变量和对手是AMD,AMD在性价比、特定工作负载(如微调)上持续追近,会压缩自研路线的“理论窗口期”,但短期难撼动英伟达的系统与软件领先。

接下来很长一段时间,“训练自研,推理解耦”将成为非云巨头的主流策略:训练上公版平台,推理做自家 SoC/ASIC,把能沉淀差异化的算力放在端侧/产品内。

结语

特斯拉关掉 Dojo,不是输给了一块更强的芯片,而是输给了一个更强的“产业系统”。 自研训练芯片这条路,对绝大多数公司而言不具可复制性;而在“买卡 + 更快上线 + 产品侧自控推理”的组合里,英伟达再次赢下了时间、生态与现金流的三重赛点。

英伟达的再次胜利,是对整个行业的一次提醒:在 AI 基建时代,速度与生态,就是一切。

本文来自微信公众号 “半导体行业观察”(ID:icbank),作者:杜芹DQ,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

特斯拉 Dojo AI训练芯片 英伟达 自研芯片 AI基建
相关文章