快科技资讯 09月07日
NVIDIA新显卡曝虚拟化重置漏洞,主机重启才能恢复
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

近期,NVIDIA RTX 5090和RTX PRO 6000显卡被发现存在一个可复现的虚拟化重置漏洞。当GPU通过KVM和VFIO传递给虚拟机后,在虚拟机关闭或GPU重新分配时,主机系统会尝试进行PCIe功能级重置(FLR),但GPU未能恢复正常,导致完全无响应,lspci也无法读取。目前唯一有效的恢复方法是物理重启主机。GPU云服务提供商CloudRift和AI初创公司Tiny Corp均复现了此问题,并对RTX 5090和RTX PRO 6000的硬件是否存在缺陷表示担忧。此问题似乎仅限于NVIDIA的Blackwell系列显卡,RTX 4090等旧型号未受影响。

⚠️ **虚拟化重置漏洞显现**:NVIDIA RTX 5090和RTX PRO 6000显卡存在一个可复现的漏洞,在GPU被传递给虚拟机后,进行PCIe功能级重置(FLR)时,显卡会完全失去响应,无法恢复,直到主机系统进行物理重启。这一问题已被GPU云服务提供商CloudRift详细分析并公布,并引发了关于潜在硬件缺陷的讨论。

💻 **KVM/VFIO传递下的问题**:该漏洞主要发生在GPU通过KVM和VFIO技术传递给虚拟机后。在虚拟机关闭或GPU被重新分配时触发的FLR操作未能使GPU恢复至正常工作状态,导致主机内核报告重置超时,显卡也无法被系统识别,lspci命令会抛出“未知头部类型7f”的错误。

🚫 **仅限Blackwell系列**:目前的研究和用户报告表明,此漏洞似乎仅限于NVIDIA最新的Blackwell架构显卡,包括RTX 5090和RTX PRO 6000。早期采用者和社区讨论均未发现RTX 4090等上一代显卡存在类似问题,这暗示了问题可能与Blackwell架构的特定设计有关。

🔍 **悬赏征集解决方案**:GPU云服务提供商CloudRift为解决此棘手问题,公开悬赏1000美元,旨在寻找能够找到解决方案或根本原因的个人或团队。这一举动凸显了该漏洞对GPU云服务等依赖虚拟化的应用场景带来的严重影响,亟需技术突破。

快科技9月7日消息,据报道,NVIDIA的RTX 5090和RTX PRO 6000显卡最近被发现存在一个可复现的虚拟化重置漏洞,该漏洞会导致显卡完全无响应,直到主机系统物理重启才能恢复。

CloudRift是一家GPU云服务提供商,他们在生产环境中多个配备Blackwell芯片的系统上遇到了这个问题后,详细公布了问题的分析报告,并悬赏1000美元,公开征集能够找到解决方案或根本原因的人。

根据CloudRift的日志,这个漏洞发生在GPU通过KVM和VFIO传递给虚拟机后。在虚拟机关闭或GPU重新分配时,主机系统会发出一个PCIe功能级重置(FLR)。

但与正常情况不同的是,GPU并没有恢复到良好状态,而是停止响应,内核报告称:“FLR后65535毫秒仍未就绪;放弃。”

此时,显卡也变得无法被lspci读取,lspci会抛出“未知头部类型7f”的错误,CloudRift指出,唯一恢复正常操作的方法是对整个机器进行断电重启。

AI初创公司Tiny Corp也复现了CloudRift的发现,并直接提出了一个问题:“RTX 5090和RTX PRO 6000是否有硬件缺陷?我们已经调查过,但找不到解决方案。”

社区的讨论中,许多家庭用户和其他RTX 5090的早期采用者也报告了类似的问题,一位用户表示在关闭Windows虚拟机后,整个主机系统挂起,即使操作系统级别的重启后,GPU也无法重新初始化。

用户证实,切换PCIe ASPM或ACS设置并不能缓解故障,目前还没有报告称旧型号显卡(如RTX 4090)存在类似问题,这表明该漏洞可能仅限于NVIDIA的Blackwell系列。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

NVIDIA RTX 5090 RTX PRO 6000 Blackwell 虚拟化 漏洞 GPU CloudRift Tiny Corp
相关文章