2025-08-21 16:45 菲律宾
Deepseek v3.1,今天官方发公众号,热度突然又上来了。其实已经是周二晚上的新闻,当时我们星球微信群里就做了 v3.1的推送。
Deepseek v3.1,今天官方发公众号,热度突然又上来了。
其实已经是周二晚上的新闻,当时我们星球微信群里就做了 v3.1的推送。
今天另外一个有讨论度的彩蛋是,deepseek在公众号发了一句,“UE8M0 FP8是针对即将发布的下一代国产芯片”;
具体信息等专业的老师们深挖,下面是一些我看到的信息(我非大模型从业者,仅仅从皮毛去猜测)。
1/ UE8M0 FP8并不是第一次出现;在DeepGEMM一直都有出现。https://github.com/deepseek-ai/DeepGEMM;从这个角度看,DeepSeek不仅在概念上为下一代芯片设计模型,他们已经开发出了在硬件层面利用该特性的核心计算库(Kernel);
和朋友聊了一下,猜想的部分我用灰色了,因为我也不太确定。
- UE8M0是真实存在且已被工程实现的技术,主要用于下一代AI芯片中FP8计算的缩放因子,以实现极致优化。
DeepSeek的策略是两条腿走路:一方面,他们为NVIDIA的下一代硬件(SM100)开发前沿的计算库,保持在国际主流生态中的领先地位。
另一方面,他们将这些从最前沿实践中获得的知识和技术(如UE8M0的应用),反哺和赋能给国产芯片的研发,推动国产硬件在设计上直接看齐甚至集成世界最先进的标准。
2/ 这里的下一代芯片,很多人提到了之前某菊的芯片;之前也有一些外网的传闻说R2延迟和芯片适配有关;之前群里也推送了。
3/ 接下来是另外的一些猜想,关于HBM;也是和朋友三个臭皮匠得出的假设,欢迎批评。
这里我是从HBM的瓶颈开始往上靠的(毕竟之前也传出某菊在HBM突破的信息);
猜想部分用灰色,
- Deepseek主动说清楚,DeepSeek正在开发一种专门为未来中国自产的高性能AI芯片深度优化的大模型。 是典型的“软硬件协同设计”的实践,旨在打造一个从底层硬件到上层算法都高度匹配、高效运行的AI解决方案。
- FP8 (8-bit Floating Point):这是一种数据精度格式。在AI模型中,参数(权重)通常用16位(FP16)或32位(FP32)的浮点数存储。FP8,即8位浮点数,是一种模型量化技术,它能将模型大小压缩近一半(相比FP16),并大幅提升计算速度和降低内存占用,因为处理8位数据比16位更快更省电。
- 采用FP8精度可以显著降低对HBM的要求,这体现在两个核心方面:内存容量和内存带宽。
举例:
一个拥有700亿(70B)参数的大模型:
在FP16下,大约需要 70B * 2 bytes = 140 GB 的内存来存储权重。
在FP8下,大约需要 70B * 1 byte = 70 GB 的内存。
- 参考星友刚刚说的,
- v3开始训练用的就是FP8,当时是个主要创新;以前是e4m3编码;
- 在N卡上面的部署是FP8,国产卡还是FP16;
可能接下来需要留意的是,哪一家的国产新卡全面适配FP8了(4月的时候传过一些参数,大家可以继续找找线索)... 一个可能的思路是,如果新卡适配FP8,那么就可以开始用新卡做训练了?
其他的一些,欢迎来星球微信群里继续讨论。
星球和微信群继续帮大家筛选“重要且有叙事的信息”+“每天复盘” + “实时微信群讨论”;星球微信群里有不少机构朋友,欢迎过来坐坐。最近市场各种事件,各种小作文...星友们看到有用的东西都往微信群里扔,反馈速度加倍,辟谣速度也加倍。
