GPU计算云服务商CloudRift近期遭遇技术难题,其配备GeForce RTX 5090和RTX PRO 6000显卡的节点出现了可复现的虚拟化故障。该故障导致显卡在虚拟机运行数日后或系统启动/关闭过程中无响应,唯一的解决方法是重启整个节点。CloudRift已排除多种常见问题,但这些新一代显卡仍带来困扰。类似问题也已在Proxmox论坛和Level1Techs上被用户报告。为解决此问题,CloudRift悬赏1000美元,奖励能提供确认的缓解措施、修复方案,或揭示根本原因及提供可复现测试的用户。目前英伟达尚未对此故障发表声明,该问题似乎仅限于基于Blackwell架构的显卡。
💡 **新型显卡虚拟化故障显现**:CloudRift报告称,其采用GeForce RTX 5090和RTX PRO 6000显卡的节点出现了可复现的虚拟化故障。该故障表现为显卡在虚拟机使用一段时间后或系统启动/关闭过程中完全无响应,无法重新分配,唯一的临时解决办法是重启整个节点。
🛠️ **排查与范围**:CloudRift已对IOMMU的quirks、内核版本、驱动绑定以及libvirt的配置错误等常见问题进行了排查,但问题依旧存在。与此形成对比的是,同公司的H100s、B200s以及较旧的RTX 4090显卡运行稳定,表明该问题可能与新一代RTX显卡的设计或驱动有关。
📈 **社区反馈与问题重现**:类似的故障报告也出现在Proxmox论坛和Level1Techs等技术社区,表明此问题并非孤例。用户描述了Windows虚拟机关闭后系统挂起,以及Linux虚拟机关闭时FLR超时后主机CPU软锁等情况,尝试了多种设置调整但未能解决。
💰 **悬赏激励以求解决方案**:为尽快解决这一影响GPU计算服务的问题,CloudRift悬赏1000美元,用于寻找确认有效的缓解措施或修复方案。即使未能找到直接修复方法,奖励也将颁发给能帮助揭示根本原因或提供可复现测试的用户,以期加速问题的解决进程。
IT之家 9 月 8 日消息,GPU 计算云服务提供商 CloudRift 在上个月发布公告,GeForce RTX 5090 和 RTX PRO 6000 已被证实存在可复现的虚拟化故障,导致显卡无法使用,直到整个系统重新上电,将悬赏 1000 美元(IT之家注:现汇率约合 7128 元人民币)解决这个问题。

CloudRift 表示,在一些配备 RTX 5090 和 RTX PRO 6000 显卡的节点上,这些显卡偶尔会完全无响应 —— 通常在使用虚拟机几天后,或在启动 / 关闭过程中看似随机的时间点。一旦发生这种情况,显卡就无法重新分配。唯一的解决办法是重启整个节点。
CloudRift 已经排除了大多数常见问题:IOMMU 的 quirks、内核版本、驱动绑定以及 libvirt 的配置错误。该公司的 H100s、B200s 和较旧的 RTX 4090 都在运行稳定,但这些较新的 RTX 显卡给他们带来了大麻烦。
据 Tom's Hardware 昨日报道,Proxmox 论坛和 Level1Techs 上的用户也报告了类似的问题。在其中一个案例中,Windows 虚拟机关闭后系统挂起,即使操作系统重启后 GPU 也无法重新初始化。另一位用户描述了 Linux 虚拟机关闭时 FLR 超时后主机 CPU 软锁,切换 PCIe ASPM 或 ACS 设置等尝试未能解决问题。
CloudRift 正提供 1000 美元(现汇率约合 7128 元人民币)的悬赏,用于确认的缓解措施或修复方案。如果找不到直接修复方法,奖励将给予任何帮助揭示根本原因或提供可复现测试的人。
目前,英伟达尚未就重置故障发表任何声明,该故障似乎仅限于基于 Blackwell 的显卡。一位受影响的用户表示,英伟达已经意识到这个问题,并且能够复现它。