NVIDIA发布最新财报,并预告新一代AI显卡Blackwell系列GB300将于四季度上市。文章聚焦于中美AI技术在算法选择上的分歧:国产AI倾向于UE8M0 FP8标准,已适配多家新一代国产AI芯片,相比FP16+INT8,性能提升2-3倍,并降低显存压力和功耗。而NVIDIA在Blackwell架构上重点推广NVFP4标准,该标准在GB300上带来50%的性能提升、几乎无损的精度、显著减少的内存占用(相较FP16减少3.5倍,相较FP8减少1.8倍)以及50倍的能效提升。尽管国产AI面临CUDA生态挑战,但UE8M0 FP8的协同发展有望开辟自身优势领域。
📊 **国产AI算法标准崛起:** 以Deepseek 3.1为代表,国产AI领域正积极推广UE8M0 FP8算法标准,并已获得华为昇腾、摩尔线程等多家新一代国产AI芯片厂商的支持。相较于传统的FP16+INT8,UE8M0 FP8在性能上实现了2-3倍的提升,同时有效缓解了显存压力并降低了功耗,标志着国产AI算力硬件与软件协同发展的重要一步。
🚀 **NVIDIA Blackwell架构与NVFP4标准:** NVIDIA在即将推出的Blackwell架构,特别是GB300显卡上,重点推广NVFP4算法标准。相较于FP8,NVFP4在GB300上实现了50%的稠密性能提升(达到15 PFlops),精度损失极小,在部分基准测试中甚至优于FP8。此外,NVFP4大幅降低了内存占用,比FP16减少3.5倍,比FP8减少1.8倍,并带来了高达50倍的能效提升(每Token仅0.2J),使其成为处理大型模型的高效选择。
💡 **中美AI技术路线的潜在影响:** 国产AI选择UE8M0 FP8标准,而NVIDIA主推NVFP4,这预示着中美在AI技术发展路径上可能出现分化。虽然国产AI在生态系统上仍面临NVIDIA CUDA的挑战,但UE8M0 FP8作为一种协同发展的标准,为国产AI芯片和软件提供了独立发展的机会,有望在特定领域建立自身的技术优势。
💾 **大模型支持与硬件升级:** GB300显卡将HBM容量从GB200的186GB提升至288GB,配合NVL72机柜的40TB总内存容量,能够有效支持高达3000亿参数的大型模型。这一硬件上的显著提升,结合NVFP4算法的优化,为运行更复杂、更大规模的AI模型提供了坚实的基础。
快科技8月29日消息,NVIDIA日前发布了2季度财报,业绩依然暴涨,新一代AI显卡Blackwell系列中的最强者GB300今年4季度也会正式上市,下下代的Rubin有6款产品正在推进。
GB300的详细规格可以参考之前的文章,这里要来看一个可能影响中美AI技术的变化,那就是在算法选择上,国产的AI跟NVIDIA已经有了分裂,前者选择的是UE8M0 FP8,而在Blackwell上NVIDIA强化的是NVFP4标准。UE8M0 FP8这几天引爆了国产算力行业,这是Deepseek 3.1正式问世时DS官方公布的消息,称UE8M0 FP8已经全面适配即将发布的新一代国产AI芯片。虽然没有特指哪家厂商,但是华为昇腾、摩尔线程、砺算科技、芯原科技、海光科技等厂商的新一代算力芯片几乎都会支持这个标准。相比之前国产AI算力芯片主要采用FP16+INT8的算法标准,UE8M0 FP8带来的好处很多,性能是之前的2-3倍,并且大幅降低显存压力,还能降低功耗,具体就要看各大厂商的实现了。那作为AI一哥的NVIDIA呢?相比国内AI领域率先有DS这种模型厂商来协同算法标准的情况,NVIDIA这几年一直以算力芯片上游厂商的身份来推动标准,FP64、FP32、FP16、INT8、FP8等标准都是支持的,而在Blackwell架构上,NVIDIA也支持FP4、MXFP4这两种标准,但重点推的是NVFP4,它跟E2M1 FP4结构差不多,但精度几乎没有多少损失。
NVFP4标准的优点有哪些?首先来看性能上的,GB300的稠密性能大幅提升了50%而来到15PFlops,要知道它跟GB200基本架构可没什么变化。
50%的性能提升或许不够惊人,那再来看看精度变化。
与FP8的基准相比,NVFP4在DS 0528的模型精度上几乎持平,大部分落后不到1个百分点,AIME 2024中甚至还领先了2个百分点。在内存使用上,NVFP4与FP16相比占用减少了3.5倍,相比FP8也减少了1.8倍,而GB300显卡HBM容量也从GB200的186GB提升到了288GB,同样的NVL72机柜中,系统的总内存容量可达40TB,能支持3000亿参数的大模型。
第三个优势则是在能效上,GB300在NVFP4的支持下,每Token的能量消耗只有0.2J,GB200则是0.4J,H100架构的H100是10J,相比之下提升了50倍的能效。简单来说,NVIDIA这次主导的NVFP4算法标准性能提升了50%,精度比FP8几乎没有损失,内存占用大幅减少2-3倍,能效则是50倍提升。考虑到NVIDIA的影响力,NVFP4显然会成为前沿大模型广泛使用的算法标准,国内大厂应该也会大规模使用。但在国产AI芯片上,UE8M0 FP8也已经成为新一代AI芯片的标准,尽管它还不能超越NVIDIA的CUDA生态,但是这显然也是国产AI软件及硬件领域的一次重大协同,同样有机会杀出重围,或许也能打造出自己的优势范围呢,一切都有可能。
【本文结束】如需转载请务必注明出处:快科技责任编辑:宪瑞文章内容举报]article_adlist-->