Deepseek v3.1热度回升，关注国产芯片与FP8技术

2025-08-21 16:45 菲律宾

Deepseek v3.1，今天官方发公众号，热度突然又上来了。其实已经是周二晚上的新闻，当时我们星球微信群里就做了 v3.1的推送。

Deepseek v3.1，今天官方发公众号，热度突然又上来了。

其实已经是周二晚上的新闻，当时我们星球微信群里就做了 v3.1的推送。

今天另外一个有讨论度的彩蛋是，deepseek在公众号发了一句，“UE8M0 FP8是针对即将发布的下一代国产芯片”；

具体信息等专业的老师们深挖，下面是一些我看到的信息（我非大模型从业者，仅仅从皮毛去猜测）。

1/ UE8M0 FP8并不是第一次出现；在DeepGEMM一直都有出现。https://github.com/deepseek-ai/DeepGEMM；从这个角度看，DeepSeek不仅在概念上为下一代芯片设计模型，他们已经开发出了在硬件层面利用该特性的核心计算库（Kernel）；

和朋友聊了一下，猜想的部分我用灰色了，因为我也不太确定。

UE8M0是真实存在且已被工程实现的技术，主要用于下一代AI芯片中FP8计算的缩放因子，以实现极致优化。

DeepSeek的策略是两条腿走路：一方面，他们为NVIDIA的下一代硬件（SM100）开发前沿的计算库，保持在国际主流生态中的领先地位。

另一方面，他们将这些从最前沿实践中获得的知识和技术（如UE8M0的应用），反哺和赋能给国产芯片的研发，推动国产硬件在设计上直接看齐甚至集成世界最先进的标准。

2/ 这里的下一代芯片，很多人提到了之前某菊的芯片；之前也有一些外网的传闻说R2延迟和芯片适配有关；之前群里也推送了。

3/ 接下来是另外的一些猜想，关于HBM；也是和朋友三个臭皮匠得出的假设，欢迎批评。

这里我是从HBM的瓶颈开始往上靠的（毕竟之前也传出某菊在HBM突破的信息）；

猜想部分用灰色，

- Deepseek主动说清楚，DeepSeek正在开发一种专门为未来中国自产的高性能AI芯片深度优化的大模型。 是典型的“软硬件协同设计”的实践，旨在打造一个从底层硬件到上层算法都高度匹配、高效运行的AI解决方案。

- FP8 (8-bit Floating Point)：这是一种数据精度格式。在AI模型中，参数（权重）通常用16位（FP16）或32位（FP32）的浮点数存储。FP8，即8位浮点数，是一种模型量化技术，它能将模型大小压缩近一半（相比FP16），并大幅提升计算速度和降低内存占用，因为处理8位数据比16位更快更省电。

- 采用FP8精度可以显著降低对HBM的要求，这体现在两个核心方面：内存容量和内存带宽。

举例：
一个拥有700亿（70B）参数的大模型：

在FP16下，大约需要 70B * 2 bytes = 140 GB 的内存来存储权重。

在FP8下，大约需要 70B * 1 byte = 70 GB 的内存。

- 参考星友刚刚说的，

- v3开始训练用的就是FP8，当时是个主要创新；以前是e4m3编码；

- 在N卡上面的部署是FP8，国产卡还是FP16；

可能接下来需要留意的是，哪一家的国产新卡全面适配FP8了（4月的时候传过一些参数，大家可以继续找找线索）... 一个可能的思路是，如果新卡适配FP8，那么就可以开始用新卡做训练了？

其他的一些，欢迎来星球微信群里继续讨论。

星球和微信群继续帮大家筛选“重要且有叙事的信息”+“每天复盘” + “实时微信群讨论”；

星球微信群里有不少机构朋友，欢迎过来坐坐。最近市场各种事件，各种小作文...星友们看到有用的东西都往微信群里扔，反馈速度加倍，辟谣速度也加倍。

有兴趣关注的话可以点下面；差不多每天更新（因为公众号是乱序推送，需要及时收到的朋友可以星标公众号）

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签