IT之家 3小时前
微软Azure虚拟机刷新AI模型推理速度纪录
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

微软近日宣布,其Azure ND GB300 v6虚拟机在运行Meta的Llama2 70B模型时,实现了每秒110万个token的推理速度,创下行业新纪录。这一成就得益于微软与英伟达的长期合作以及在规模化AI运行方面的专业能力。新虚拟机基于英伟达Blackwell Ultra GPU,并在单个机架内集成了72颗GPU和36颗CPU。该系统专为推理优化,内存和功耗均有提升。通过MLPerf Inference v5.1基准测试,验证了其卓越的性能,相较于上一代产品,性能显著提升且能效比更高,已获得独立机构认证,标志着AI推理领域的一大进步。

🚀 **创纪录的AI推理速度**:微软Azure ND GB300 v6虚拟机在运行Meta的Llama2 70B模型时,达到了每秒110万个token的推理吞吐量,这是AI推理领域的又一重大突破,超越了此前的行业纪录。

💡 **技术驱动与合作创新**:此项成就归功于微软与英伟达长期的联合创新以及微软在生产级规模运行人工智能方面的深厚专业能力。Azure ND GB300 v6虚拟机采用了英伟达Blackwell Ultra GPU,并集成了先进的NVL72系统,包括72颗GPU和36颗CPU。

📈 **性能优化与能效提升**:该虚拟机专为推理工作负载进行了优化,相较于前代产品,GPU内存容量提升了50%,热设计功耗(TDP)提高了16%。在与上一代NVIDIA GB200相比时,推理性能提升了27%,而功耗仅增加17%,与NVIDIA H100世代相比,性能提升近10倍,能效比提高近2.5倍。

✅ **权威认证与行业认可**:微软公布了详细的测试数据,并由独立的性能验证机构Signal65认证了该性能结果。Signal65副总裁称赞此举不仅突破了每秒百万token的“大关”,更是在一个专为满足现代企业需求而设计的平台上实现,具有里程碑意义。

IT之家 11 月 5 日消息,微软当地时间 11 月 4 日宣布,其 Azure ND GB300 v6 虚拟机在运行 Meta 的 Llama2 70B 模型时,推理速度达到了每秒 110 万个 token。

IT之家注意到,微软首席执行官萨提亚・纳德拉(Satya Nadella)在 X 平台(原 Twitter)上表示:“这一行业纪录的实现,得益于我们与英伟达长期的联合创新,以及我们在生产级规模运行人工智能方面的专业能力。”

Azure ND GB300 虚拟机由英伟达 Blackwell Ultra GPU 提供动力,具体基于 NVIDIA GB300 NVL72 系统。该系统在单个机架级配置中集成了 72 颗 NVIDIA Blackwell Ultra GPU 和 36 颗 NVIDIA Grace CPU。

该虚拟机专门针对推理工作负载进行了优化,GPU 内存容量提升了 50%,热设计功耗(TDP)提高了 16%。

为验证性能提升,微软在单个 NVIDIA GB300 NVL72 域内的 18 个 ND GB300 v6 虚拟机上,分别运行了 MLPerf Inference v5.1 基准测试中的 Llama2 70B 模型(采用 FP4 精度),并使用 NVIDIA TensorRT-LLM 作为推理引擎。

微软表示:“单个 NVL72 机架的 Azure ND GB300 v6 虚拟机实现了总计每秒 1,100,000 个 token 的推理吞吐量。这刷新了 AI 推理领域的新纪录,超越了此前在同一 NVIDIA GB200 NVL72 机架上使用 ND GB200 v6 虚拟机所创下的每秒 865,000 个 token 的纪录。”

由于该系统包含 72 颗 Blackwell Ultra GPU,其性能大致相当于每颗 GPU 约 15,200 个 token / 秒。

微软已详细公开了本次测试的完整数据,包括全部日志文件和详尽的测试结果。该性能结果已由独立的性能验证与基准测试机构 Signal65 进行认证。

Signal65 实验室副总裁拉斯・费洛斯(Russ Fellows)在其博客中指出:“这一里程碑不仅在于率先突破了每秒百万 token 的大关,成为行业首次,更在于它是在一个专为满足现代企业动态使用需求和数据治理要求而设计的平台上实现的。”

Signal65 还补充道,与上一代 NVIDIA GB200 相比,Azure ND GB300 在推理性能上提升了 27%,而功耗仅增加了 17%。

“与 NVIDIA H100 世代相比,GB300 在机架级测试中实现了近 10 倍的推理性能提升,同时能效比提高了近 2.5 倍。”该公司进一步表示。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Azure AI推理 NVIDIA Blackwell Llama2 微软 英伟达 Azure ND GB300 v6 AI Performance Token per Second
相关文章