GPU服务器内接SSD构建AI存储新架构

由於AI應用通常涉及龐大的資料集，因而所需的儲存空間，大都是由獨立、可擴展的外部儲存設備提供，至於GPU伺服器內接儲存裝置則居於次要角色。

不過，近半年多以來，Hammerspace與WEKA這兩家新創平行檔案系統廠商，先後發表基於GPU伺服器內接SSD的儲存部署架構，結合內接NVMe SSD的低延遲特性，與平行檔案系統提供的可用性與資料保護能力，創造出嶄新的AI應用儲存型態。

AI應用的內部與外部儲存

GPU伺服器可使用的儲存空間，不外乎兩大類，一為GPU伺服器自身配置的NVMe SSD儲存空間，二為透過網路介接的外部儲存設備空間，兩者的特性正好相反。

GPU伺服器內接的SSD，優勢在於距離GPU更近，資料傳輸距離短，因而存取延遲少，缺點則是容量、效能與擴展能力都受限，一般GPU伺服器機箱大多只能配置8至16臺SSD，最多只能匯聚出數十GB/s等級的傳輸頻寬，還缺乏足夠的高可用性與資料保護機制，而且，因此也形成了資源管理的孤島——內接SSD只能提供該伺服器本機使用，不具備跨伺服器調派資源的能力。

相較之下，外接的儲存設備，則不受單一機箱的限制，容量與擴展能力都遠大於伺服器內部儲存裝置，另一優勢是可透過底層的儲存軟體平臺，提供高可用性與資料保護功能，以及跨伺服器間的靈活資源調派能力。

而在效能方面，外部儲存設備是透過網路將儲存空間掛載給GPU伺服器使用，故存取延遲相對較大，但可透過RDMA或GPUDirect等遠端直連存取技術，一定程度減少延遲，還可透過平行檔案系統的遠端平行存取能力，結合底層基於大量儲存節點與SSD的分散式架構，輕易就能匯聚出數百GB/s等級、甚至TB/s等級的龐大傳輸頻寬。

所以，各式各樣基於分散式或平行檔案系統的外部儲存設備，也就成為當前AI應用環境的主流儲存架構。

至於GPU伺服器內接的SSD儲存裝置，多半只被用作作業系統與應用程式的存放與運作，但這些軟體耗用的空間並不多，因而許多SSD空間都被閒置。

GPU伺服器端的儲存叢集

過去半年多以來，開始有部分儲存廠商，嘗試將GPU伺服器平時經常處於閒置狀態的內接SSD，部署成為儲存叢集，作為AI儲存應用的另一種選擇。

在實作上，這種架構是利用儲存叢集平臺軟體，將GPU伺服器部署成為1臺儲存節點，然後讓多臺GPU伺服器彼此互連，組成GPU伺服器端的儲存叢集，將GPU伺服器內接NVMe SSD，構成儲存叢集管理下的儲存空間，並利用儲存叢集平臺軟體，來為這些內接SSD提供高可用性與資料保護功能。

更進一步，有些廠商還將這種GPU伺服器端儲存叢集，與外部儲存叢集相互結合，構成橫跨GPU伺服器內部與外部儲存空間，嶄新的分層式AI儲存應用架構。

這種架構的主要訴求有這三點：

首先，是可充分利用閒置的GPU伺服器內接SSD資源。相較於外部儲存設備，GPU伺服器內接SSD的容量雖然不大，但多臺GPU伺服器的內接SSD累積起來也是不小的空間，與其閒置、形成浪費，不如設法加以利用。

其次，可減少對於外部儲存設備的依賴。這種GPU伺服器端的儲存叢集架構，並不能取代外部儲存設備，但可分攤AI應用一部分的儲存需求，從而減少對於外部儲存設備的需求量。

第3，可利用內接NVMe SSD的低延遲特性，加速AI應用。內接NVMe SSD的延遲是數十微秒（μs）等級，而外接儲存設備的延遲，最低也是數百微秒到毫秒（ms）等級，彼此間有著10倍、100倍以上的落差，所以若將GPU伺服器內接SSD，將能為AI應用提供極低延遲的高速儲存層，可更快將資料傳送給GPU，或寫入GPU運算完成資料，顯著提高存取速度。

率先引進這種類型架構的Hammerspace，揭露一個使用案例：由GPU伺服器內接SSD構成的高速儲存層，十分適合用於AI模型的檢查點寫入。

檢查點是用於保存在每個GPU上的AI模型訓練狀態，作為復原或偵錯之用，AI模型可能每小時就需要寫入1次檢查點，每個GPU會為此產生數MB到數GB的資料量，然而，當數十、上百個GPU同時將資料寫入檢查點時，會形成高突發性（Highly Bursty）的資料寫入需求，為儲存裝置帶來龐大的寫入負載壓力，每次寫入檢查點至少需耗時5到10分鐘之久，在寫入檢查點的過程中，GPU都將處於閒置狀態。

而若使用GPU伺服器內接SSD，來承接寫入檢查點的工作，則能將寫入時間從200秒縮短到幾秒鐘，大幅減少寫入檢查點期間的GPU暫停時間，藉此還能增加建立檢查點的頻率，以降低復原後損失的工作量。

GPU伺服器端平行儲存叢集產品

目前有兩家新興儲存廠商發表基於平行檔案系統的GPU端儲存架構，分別為Hammerspace的Tier 0，以及WEKA的NeuralMesh Axon。兩款產品的基本概念，同樣都是將平行檔案系統部署到GPU伺服器端，從而構成基於GPU伺服器的儲存叢集，但是在應用型態上，又存在著關鍵區別。

Hammerspace的Tier 0儲存架構

新創廠商Hammerspace，在2024年11月發布的全域資料平臺GDP（Global Data Platform）軟體5.1版中，率先推出整合GPU伺服器內接SSD的功能，稱作Tier 0，也就是表示第0層儲存之意。

Hammerspace表示，GPU存取這些內接SSD的速度，比存取透過網路連接的外部儲存更快，因而這些內接SSD構成的儲存空間，可整合到該公司全域資料平臺（GDP），作為外部Tier 1儲存層之前、更高速的Tier 0儲存層，以更快速度來回應GPU的存取需求。

該公司聲稱透過Tier 0這項新功能的運用，不僅可以釋放未被充分利用的GPU伺服器本機SSD資源，還能減少對於外部儲存空間的需求，藉此降低外部機架空間占用，冷卻與電力消耗，進而節省成本，若將越多GPU伺服器端SSD納入到Tier 0架構，節省的幅度也越顯著。

Hammerspace還開發一款附加軟體元件Local-IO，與Tier 0功能搭配，用於加速Linux本機存取。Local-IO元件已整合到6.12版Linux Kernel，藉由這項元件，能夠繞過Linux Kernel中的NFS與網路堆疊，減少Linux伺服器本機存取延遲。該公司表示，這項元件可以在GPU與SSD之間，執行無須記憶體複製的資料傳輸，充分發揮NVMe直連傳輸的效能，匯聚多臺SSD時能將傳輸頻寬擴展到100GB/s以上，以及數千萬IOPS效能，並保持僅有幾微秒（μs）的低延遲。進而也讓建立在這個基礎上的Tier 0架構，成為高效能的GPU儲存解決方案。

更進一步而言，若將GPU伺服器內接SSD納入Hammerspace全域資料平臺（GDP）的Tier 0以後，我們還能藉由全域資料平臺，構成可供其他用戶端共享的檔案與物件儲存空間，並搭配其他外部儲存裝置構成的Tier 1、Tier 2、歸檔（Archive）等不同儲存層，提供自動分層存取應用。

Tier 0架構與Local-IO元件也同時適用於用戶地端與雲端環境部署，既能用於GPU運算，也能應用於x86虛擬機器環境，以更快的速度向VM提供資料。

WEKA的NeuralMesh Axon架構

另一新創廠商WEKA，也在2025年7月推出的NeuralMesh Axon軟體架構，引進基於GPU伺服器內接SSD的儲存池。

NeuralMesh Axon是WEKA稍早在今年6月推出，針對AI應用的新一代儲存架構NeuralMesh，改用於GPU伺服器端佈署的延伸發展版本，利用GPU伺服器既有的NVMe SSD、CPU與網路資源，建立一套分散式的儲存叢集環境。

與NeuralMesh一樣，NeuralMesh Axon能支援NFS/SMB、S3等標準存取協定，以及WEKA自身的專屬平行存取用戶端協定，也內含自動修復、動態平衡 I/O與自動擴展，並提供Erasure-coding與快速重建等保護功能。

WEKA表示，NeuralMesh Axon可支援超過100臺GPU伺服器組成叢集，並將資料、metadata與讀寫存取作業，都分散由所有GPU節點承擔，藉此可提供線性的效能增長，並能透過Erasure-coding提供容許最多4臺節點同時失效的容錯能力。另外，它也支援WEKA的增強記憶體網格（Augmented Memory Grid，AMG）功能，可以利用儲存叢集的空間，為大型語言模型的推論提供擴展的KV快取空間。

而且，與WEKA展開合作的雲端AI應用服務商CoreWeave，已在其環境中部署NeuralMesh Axon，他們的實測顯示，每臺NeuralMesh Axon架構當中的GPU節點，可提供30 GB/s與12 GB/s的讀取與寫入吞吐率，IOPS效能達100萬，還有微秒等級的存取延遲。

由於NeuralMesh Axon是利用現成的GPU伺服器來建構，WEKA聲稱藉此可降低對於外部儲存空間的需求，節省機架空間，以及電力與冷卻需求。也就是說，透過NeuralMesh Axon，GPU伺服器叢集自身就能建構出高效能、高可用性的儲存空間，將儲存服務直接嵌入GPU伺服器，形成融合式的「運算—儲存」架構。

目前WEKA已向部分特定用戶提供NeuralMesh Axon，預定今年秋季正式全面上市。

兩種架構的異同

Hammerspace的Tier 0架構，與WEKA的NeuralMesh Axon，基本概念都是以自身的平行檔案系統為基礎，使用GPU伺服器的內接SSD，建構為GPU伺服器端的儲存叢集，但2者間也存在關鍵區別。

Hammerspace的Tier 0是放在該公司尺度更大的全域資料平臺（Global Data Platform）框架下，作為最接近GPU、延遲最低的高速儲存層，Tier 0是這個多層儲存框架的其中一層，能與外部儲存裝置構成的其他儲存層搭配，構成跨不同類型裝置的自動分層儲存應用。

而WEKA的NeuralMesh Axon，則是單純的GPU伺服器端儲存叢集，並沒有結合其他外部儲存裝置、進行自動分層儲存應用的功能。

GPU伺服器端儲存叢集的利弊

Hammerspace與WEKA推出的GPU伺服器端儲存叢集，訴求都是直接利用現成的GPU伺服器SSD與網路資源，無需額外設備，即可建構出低延遲、高效能的儲存服務，不僅經濟，而且架構簡單，效能也高。

如同我們前面提到的，GPU伺服器內接SSD的空間，大多未被充分使用，與其閒置，不如拿來加入儲存叢集，發揮剩餘價值。其次，GPU伺服器內接SSD是透過NVMe與GPU直連，資料傳輸距離比起透過網路介接的外部儲存設備，要短得多，存取延遲自然最少。

但這種架構的副作用，也正是從「使用GPU內接SSD」這項最大特點而來。使用GPU伺服器內接SSD來建構儲存叢集，意味著把GPU伺服器作為儲存叢集節點，必須在GPU伺服器上部署與執行儲存叢集軟體，會占用一部分GPU伺服器的CPU、記憶體與網路資源，對於GPU伺服器上所運行的其他應用程式工作負載，難以避免地會造成一定程度影響與干擾，對於這類GPU伺服器端儲存叢集架構而言，也將成為評估採用與否的關鍵。

典型的AI應用儲存架構

在典型的AI應用環境中，考慮到容量、傳輸效能與資源管理需求，主要是以外部儲存設備來提供儲存空間，GPU伺服器自身的內接SSD只作為次要角色。如上圖中的Meta Llama 基礎設施的儲存架構，便是以容量21.5 PB的Tectonic儲存叢集平臺作為資料儲存空間，搭配Hammerspace的平行檔案系統負責matadata服務。

不過，近來部分廠商一反這種典型架構，試圖將GPU伺服器閒置的內接SSD空間，建構為高效能儲存層使用。圖片來源／Hammerspace

未被充分使用的GPU伺服器內接SSD

GPU伺服器雖然也配置一定數量內接SSD，但是在多數AI應用環境中，AI模型的主要儲存需求是透過外部的儲存設備來提供，GPU伺服器內接SSD提供作業系統運作的基本用途外，大量空間都是閒置。上圖為技嘉的G291-280伺服器，能安裝8張GPU加速卡的同時，最多可安裝8臺熱抽換SSD，加上2臺不可熱抽換的內接SSD。圖片來源／技嘉科技

Hammerspace的Tier 0架構

這套資料儲存架構的基本概念，是將GPU伺服器的內接SSD空間，整合到Hammerspace的全域資料平臺中，作為低延遲的Tier 0高速儲存層，搭配作為Tier 1、Tier 2與Tier 3對應的外部NVMe儲存裝置、硬碟、磁帶，組成分層儲存架構。相較於外部儲存設備，GPU伺服器內接SSD優點是存取延遲更低，只有微秒（μs）等級，相較之下，透過網路介接的外部NVMe儲存裝置、硬碟與磁帶設備存取延遲則是毫秒（ms）、秒、分鐘的等級。圖片來源／Hammerspace

WEKA的NeuralMesh Axon架構

NeuralMesh Axon是基於WEKA的NeuralMesh微服務化儲存平臺，用於GPU伺服器端部署的延伸發展版本，可將多臺GPU伺服器的內接SSD，透過網路相互連結，成為一套分散式的儲存叢集環境，從而降低對於外部儲存設備的依賴。圖片來源／WEKA

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签