AMD 发布了 ROCm 7.0 计算软件堆栈,旨在打破英伟达在 AI 领域的 CUDA 垄断。新版本重点优化了 AI 推理任务,在 DeepSeek R1 基准测试中,Instinct MI355X 的 FP8 吞吐量比 NVIDIA Blackwell B200 高出 30%。ROCm 7.0 相较于上一版本,在 Llama 3.1 70B 模型上性能提升 3.2 倍,Qwen2-72B 上提升 3.4 倍,DeepSeek R1 提升 3.8 倍。此外,ROCm 7.0 扩展了对 AMD 锐龙 AI 处理器和 Radeon 显卡的支持,集成了最新算法与模型,并增强了集群管理和企业级功能,提升了大规模 AI 部署的可扩展性和稳定性。新版本还新增了对 Ubuntu 24.04.3 和 Rocky Linux 9 的支持,并更新了对主流 AI 框架的支持。
🚀 AMD 推出 ROCm 7.0 计算软件堆栈,旨在提升其在 AI 领域的竞争力,并为打破英伟达 CUDA 的垄断提供新的选择。该软件栈重点优化了 AI 推理性能,通过集成最新的算法和模型,以及对 AMD 硬件的深度支持,为开发者和企业提供更强大的 AI 计算能力。
📈 ROCm 7.0 在 AI 推理任务上取得了显著的性能提升。具体而言,在 DeepSeek R1 基准测试中,AMD Instinct MI355X 的 FP8 吞吐量比 NVIDIA Blackwell B200 高出 30%。与上一代 ROCm 6 相比,ROCm 7.0 在 Llama 3.1 70B 模型上的性能提升了 3.2 倍,在 Qwen2-72B 模型上提升了 3.4 倍,在 DeepSeek R1 模型上更是提升了 3.8 倍,展示了其在处理大型 AI 模型方面的强大实力。
💡 新版本扩展了对 AMD 锐龙 AI 处理器和 AMD Radeon 显卡的支持,进一步丰富了其硬件生态系统。ROCm 7.0 还引入了对 MI355X 和 MI350X GPU 的支持,并新增了对 Ubuntu 24.04.3 和 Rocky Linux 9 操作系统的兼容性,同时淘汰了部分旧版操作系统支持,以适应行业发展需求。此外,该版本还集成了先进的 AI 扩展特性,以及集群管理和企业级功能,旨在提升大规模 AI 部署的可扩展性和稳定性。
🛠️ ROCm 7.0 同步更新了对主流 AI 框架的支持,包括 PyTorch 2.7、TensorFlow 2.19.1、ONNX Runtime 1.22.0、JAX 0.6.0、Triton 3.3.0 和 vLLM 等,同时全面升级了相关的数学库、通信库与工具链。这些更新将进一步提升大模型和高性能计算 (HPC) 场景下的表现,为 AI 研究和应用提供更坚实的基础。
IT之家 9 月 17 日消息,科技媒体 Wccftech 昨日(9 月 16 日)发布博文,报道称 AMD 为打破英伟达 CUDA 在 AI 领域的垄断,发布 ROCm 7.0 计算软件堆栈,官网页面显示支持最新算法和模型、扩展 AMD 锐龙 AI 处理器和 AMD Radeon 显卡支持等。
图源:AMDAMD 官方已经发布 ROCm 7.0 更新日志,其中最值得关注的改进,在于优化 AI 推理任务。AMD 宣称,在 DeepSeek R1 基准任务中,Instinct MI355X 的 FP8 吞吐量比 NVIDIA Blackwell B200 高出 30%。IT之家附上相关截图如下:
图源:AMDAMD 还提供了 ROCm7 的实测结果,相比较 ROCm 6,在 Llama 3.1 70B 模型上性能提升 3.2 倍,Qwen2-72B 上性能提升 3.4 倍,而 DeepSeek R1 性能提升 3.8 倍。
图源:AMD功能升级方面,ROCm 7.0 集成了最新算法与模型、先进的 AI 扩展特性、对 MI350 系列 GPU 的支持,以及集群管理与企业级功能,这些改进旨在提升大规模 AI 部署的可扩展性与稳定性。
新版本引入对 Instinct MI355X、MI350X 的支持,并新增 Ubuntu 24.04.3 与 Rocky Linux 9 系统兼容,同时淘汰了旧版 Ubuntu 与 SLES 15 SP6。
AI 框架支持也同步更新,包括 PyTorch 2.7、TensorFlow 2.19.1、ONNX Runtime 1.22.0、JAX 0.6.0、Triton 3.3.0、vLLM 等。相关数学库、通信库与工具链全面提档,进一步提升大模型和 HPC 场景表现。