Da KI-Modelle weiter wachsen, ist HBM möglicherweise nicht in der Lage, zukünftige Anforderungen an die Videospeicherkapazität zu erfüllen, was die Branche dazu veranlasst, die GPU-gesteuerte Speicherarchitektur als potenzielle nächste technologische Grenze zu betrachten. Letztes Jahr gab es Neuigkeiten, dass Nvidia mit SK Hynix bzw. Kioxia zusammenarbeitet, um die Entwicklung von KI-SSDs voranzutreiben und maßgeschneiderte SSD-Teile zu verwenden, um HBM als GPU-Speichererweiterung zu ersetzen. Darüber hinaus hat SK Hynix in diesem Jahr auch mit SanDisk zusammengearbeitet, um HBF (High Bandwidth Flash), eine Speicherlösung der nächsten Generation für die KI-Inferenz-Ära, auf den Markt zu bringen und das gleiche Problem zu lösen.

Berichten von TrendForce zufolge treibt Nvidia die Entwicklung der GPU-Direct-Access-Storage-Architektur voran und plant, diese von der Vera-Rubin-Plattform einzuführen und die GIDS-Funktion (GPU-Initiated Direct Storage Access) zu aktivieren. Außenstehende glauben, dass diese Änderung die Entwicklung von HBF beschleunigen könnte.
GIDS unterscheidet sich von der bestehenden GDS-Funktion (GPU Direct Storage). Es gibt einen Unterschied zwischen beiden: Bei GDS sendet die CPU eine Datenanforderung an das Speichergerät, bevor sie die Daten an die GPU überträgt. Bei GIDS greift die GPU direkt auf das Speichergerät zu und überspringt die CPU und den DRAM in der Mitte.
Sowohl GIDS als auch GDS zielen darauf ab, Engpässe bei der Datenübertragung in traditionellen Computerarchitekturen zu überwinden, und Microsoft und AMD sollen Gerüchten zufolge ähnliche Ansätze untersuchen. Das Hauptproblem besteht darin, dass die herkömmliche Datenübertragungsmethode ineffizient ist. Die CPU verfügt über eine begrenzte Struktur bei der Thread-Verarbeitung, während die GPU Zehntausende paralleler Threads generieren kann. Derzeit macht die GPU-HBM-Datenübertragung etwa die Hälfte des gesamten Systemstromverbrauchs aus, was die HBF-Architektur weiter unterstützt und ultraschnellen NAND-Flash-Speicher näher an die GPU bringt, um künftige KI-Engpässe zu bewältigen.
Das Aufkommen von GIDS könnte dazu führen, dass NAND-Flash eine wichtigere Rolle in KI-Speichersystemen spielt und gleichzeitig den Druck auf HBM in Bezug auf die Kapazität verringert. Dieser Wandel erfordert einen leistungsstärkeren NAND-Flash-Speicher, um mit der GPU-Verarbeitungsgeschwindigkeit Schritt zu halten. Der Vorteil von NAND-Flash-Speichern liegt in ihrer Bitdichte, die etwa 30-mal höher ist als die von DRAM, wodurch eine größere Speicherkapazität auf ähnlichem Raum erreicht wird.
NAND-Flash-Speicher haben jedoch eine begrenzte Haltbarkeit, während DRAM nahezu unbegrenzte Schreibfähigkeiten bietet. Daher gilt HBF als besser geeignet für die Speicherung von KI-Modellparametern, da dieser Teil der Daten während des Inferenzprozesses grundsätzlich unverändert bleibt und nur als schreibgeschützte Arbeitslast verwendet wird.