IT之家 09月08日
新一代显卡虚拟化故障,CloudRift悬赏解决
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

GPU计算云服务商CloudRift近期遭遇技术难题,其配备GeForce RTX 5090和RTX PRO 6000显卡的节点出现了可复现的虚拟化故障。该故障导致显卡在虚拟机运行数日后或系统启动/关闭过程中无响应,唯一的解决方法是重启整个节点。CloudRift已排除多种常见问题,但这些新一代显卡仍带来困扰。类似问题也已在Proxmox论坛和Level1Techs上被用户报告。为解决此问题,CloudRift悬赏1000美元,奖励能提供确认的缓解措施、修复方案,或揭示根本原因及提供可复现测试的用户。目前英伟达尚未对此故障发表声明,该问题似乎仅限于基于Blackwell架构的显卡。

💡 **新型显卡虚拟化故障显现**:CloudRift报告称,其采用GeForce RTX 5090和RTX PRO 6000显卡的节点出现了可复现的虚拟化故障。该故障表现为显卡在虚拟机使用一段时间后或系统启动/关闭过程中完全无响应,无法重新分配,唯一的临时解决办法是重启整个节点。

🛠️ **排查与范围**:CloudRift已对IOMMU的quirks、内核版本、驱动绑定以及libvirt的配置错误等常见问题进行了排查,但问题依旧存在。与此形成对比的是,同公司的H100s、B200s以及较旧的RTX 4090显卡运行稳定,表明该问题可能与新一代RTX显卡的设计或驱动有关。

📈 **社区反馈与问题重现**:类似的故障报告也出现在Proxmox论坛和Level1Techs等技术社区,表明此问题并非孤例。用户描述了Windows虚拟机关闭后系统挂起,以及Linux虚拟机关闭时FLR超时后主机CPU软锁等情况,尝试了多种设置调整但未能解决。

💰 **悬赏激励以求解决方案**:为尽快解决这一影响GPU计算服务的问题,CloudRift悬赏1000美元,用于寻找确认有效的缓解措施或修复方案。即使未能找到直接修复方法,奖励也将颁发给能帮助揭示根本原因或提供可复现测试的用户,以期加速问题的解决进程。

IT之家 9 月 8 日消息,GPU 计算云服务提供商 CloudRift 在上个月发布公告,GeForce RTX 5090 和 RTX PRO 6000 已被证实存在可复现的虚拟化故障,导致显卡无法使用,直到整个系统重新上电,将悬赏 1000 美元(IT之家注:现汇率约合 7128 元人民币)解决这个问题。

CloudRift 表示,在一些配备 RTX 5090 和 RTX PRO 6000 显卡的节点上,这些显卡偶尔会完全无响应 —— 通常在使用虚拟机几天后,或在启动 / 关闭过程中看似随机的时间点。一旦发生这种情况,显卡就无法重新分配。唯一的解决办法是重启整个节点。

CloudRift 已经排除了大多数常见问题:IOMMU 的 quirks、内核版本、驱动绑定以及 libvirt 的配置错误。该公司的 H100s、B200s 和较旧的 RTX 4090 都在运行稳定,但这些较新的 RTX 显卡给他们带来了大麻烦。

据 Tom's Hardware 昨日报道,Proxmox 论坛和 Level1Techs 上的用户也报告了类似的问题。在其中一个案例中,Windows 虚拟机关闭后系统挂起,即使操作系统重启后 GPU 也无法重新初始化。另一位用户描述了 Linux 虚拟机关闭时 FLR 超时后主机 CPU 软锁,切换 PCIe ASPM 或 ACS 设置等尝试未能解决问题。

CloudRift 正提供 1000 美元(现汇率约合 7128 元人民币)的悬赏,用于确认的缓解措施或修复方案。如果找不到直接修复方法,奖励将给予任何帮助揭示根本原因或提供可复现测试的人。

目前,英伟达尚未就重置故障发表任何声明,该故障似乎仅限于基于 Blackwell 的显卡。一位受影响的用户表示,英伟达已经意识到这个问题,并且能够复现它。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GPU 虚拟化故障 CloudRift RTX 5090 RTX PRO 6000 英伟达 Virtualization Glitch Nvidia Bounty
相关文章