NVIDIA wird das X3D-Stacking-Design übernehmen und die GPU der nächsten Generation wird LPU einführen. unit

Obwohl NVIDIA im Bereich der KI-Ausbildung derzeit konkurrenzlos ist, plant das Unternehmen angesichts der wachsenden Nachfrage nach Echtzeit-Schlussfolgerungen eine „Geheimwaffe“, die die Branchenlandschaft verändern kann. Laut AGFNVIDIA plant, die LPU (Language Processing Unit) von Groq in die 2028 eingeführte GPU mit Feynman-Architektur zu integrieren, um die KI-Inferenzleistung deutlich zu verbessern.

Die Feynman-Architektur wird die Nachfolge der Rubin-Architektur antreten und den fortschrittlichsten A16-Prozess (1,6 nm) von TSMC verwenden. Um die physikalischen Beschränkungen von Halbleitern zu überwinden, plant NVIDIA, die SoIC-Hybrid-Bonding-Technologie von TSMC zu nutzen, um LPU-Einheiten, die speziell für die Inferenzbeschleunigung entwickelt wurden, direkt auf der GPU zu stapeln.

NVIDIA möchte X3D-Stacking-Design verwenden! Die nächste GPU-Generation wird LPU-Einheiten einführen

Dieses Design ähnelt der 3D-V-Cache-Technologie von AMD, allerdings stapelt NVIDIA keine gewöhnlichen Caches, sondern LPU-Einheiten, die speziell für die Inferenzbeschleunigung entwickelt wurden.

Die Kernlogik des Designs besteht darin, das Skalierungsdilemma von SRAM zu lösen. Beim extremen 1,6-nm-Prozess ist die Integration einer großen Anzahl von SRAMs direkt auf dem Hauptchip äußerst kostspielig und nimmt Platz in Anspruch.

Durch die Stacking-Technologie kann NVIDIA den Rechenkern auf dem Hauptchip belassen und den SRAM, der eine große Fläche benötigt, in eine andere Chipschicht stapeln.

Ein Hauptmerkmal des A16-Prozesses von TSMC besteht darin, dass er die rückseitige Stromversorgungstechnologie unterstützt. Diese Technologie kann auf der Vorderseite des Chips Platz für vertikale Signalverbindungen schaffen und so sicherstellen, dass gestapelte LPUs einen Hochgeschwindigkeits-Datenaustausch bei extrem geringem Stromverbrauch durchführen können.

NVIDIA möchte X3D-Stacking-Design verwenden! Die nächste GPU-Generation wird LPU-Einheiten einführen

In Kombination mit der „deterministischen“ Ausführungslogik der LPU werden zukünftige NVIDIA-GPUs einen qualitativen Geschwindigkeitssprung bei der Verarbeitung sofortiger KI-Antworten (z. B. Sprachdialog, Echtzeitübersetzung) erzielen.

Allerdings gibt es auch zwei potenzielle Herausforderungen, nämlich Probleme bei der Wärmeableitung und Probleme mit der CUDA-Kompatibilität.Beim Hinzufügen einer Chipschicht zu einer GPU mit extrem hoher Rechendichte ist die Vermeidung eines „thermischen Absturzes“ das größte Problem für das Ingenieurteam.

Gleichzeitig legt LPU Wert auf eine „deterministische“ Ausführungsreihenfolge und erfordert eine präzise Speicherkonfiguration, während das CUDA-Ökosystem auf Hardware-Abstraktion basiert. Um eine perfekte Synergie zwischen beiden zu erreichen, ist eine Softwareoptimierung auf höchstem Niveau erforderlich.