Führende Cloud-Dienstanbieter wie Oracle und CoreWeave beginnen mit der Bereitstellung von NVIDIA Vera Rubin NVL72

Die Vera Rubin-Ära der KI-Computing-Plattform der neuen Generation von NVIDIA hat offiziell begonnen. Dies gilt als die schnellste KI-Plattform der Welt. Es wurde an eine Reihe führender Cloud-Dienstanbieter zum Testen und Verifizieren geliefert und ebnete damit den Weg für die nächste Stufe der Bereitstellung großer Modelle und der Schulung von Agentic AI.

Berichten zufolge ist die Vera Rubin-Plattform in die Massenproduktionsphase eingetreten und die erste Charge kompletter Systeme wurde an die Computerräume großer KI-Cloud-Anbieter geliefert, darunter Unternehmen wie Oracle und CoreWeave. Zuvor hatte NVIDIA im vergangenen Monat die erste Charge von Vera-CPUs an eine Reihe führender KI-Unternehmen geliefert und damit den Grundstein für die Ökologie dieser neuen Plattform gelegt.

Mahesh Thiagarajan, Executive Vice President von Oracle Cloud Infrastructure, veröffentlichte erstmals physische Fotos des Vera Rubin NVL72-Racksystems auf sozialen Plattformen, die diesen riesigen Rack-Cluster bestehend aus 72 Rubin-GPUs und 36 Vera-CPUs zeigen. Sie positioniert sich offiziell als die aktuell beste GPU- und CPU-Kombination für KI-Workloads und soll nach Grace Blackwell eine weitere Meilensteinplattform in der KI-Produktlinie von Nvidia werden.

Thiagarajan sagte, dass Oracle einer der ersten Cloud-Anbieter sei, der das Vera Rubin NVL72-System in der Cloud einführe und Verifizierungstests durchführe. Die beiden Parteien werden eng zusammenarbeiten, um Unternehmenskunden eine neue Generation beschleunigter Rechenfunktionen in großen Cloud-Umgebungen bereitzustellen. Den Bildern vor Ort zufolge ist der NVL72-Schrank groß und verfügt über komplexe Verkabelungs- und Kühlstrukturen, was seine Designorientierung für extrem große Rechenzentren unterstreicht.

Neben Oracle gab auch das Cloud-Computing-Unternehmen CoreWeave den Abschluss der Installation des ersten Vera Rubin NVL72-Systems bekannt und veröffentlichte ein vollständiges Video, in dem die gesamte Maschine vom Transportfahrzeug in den Computerraum zur Bereitstellung entladen wird. Der Bildschirm zeigt, dass die Installation eines einzelnen Schranks die Zusammenarbeit von drei bis vier Technikern erfordert. Dies spiegelt gewissermaßen die Spezifikationen des Systems auf „Rechenzentrumsebene“ in Bezug auf Volumen und Gewicht wider. Dies impliziert auch, dass ähnliche Schränke in Zukunft möglicherweise zu Hunderten oder sogar Tausenden in KI-Rechenzentren eingesetzt werden.

CoreWeave betonte außerdem, dass es nicht nur einer der ersten Cloud-Dienstanbieter war, der Vera Rubin NVL72 eingeführt hat, sondern auch der erste, der das gemeinsame Debugging und die Verifizierung des gesamten Software- und Hardware-Stacks abgeschlossen hat. Zu diesem Zweck hat das Unternehmen ein eigenes softwaredefiniertes Flüssigkeitskühlsystem und einheitliche Schranksteuerungslösungen mit den Namen Valvey bzw. Racky entwickelt, die für das Flüssigkeitskühlungsmanagement und die einheitliche Planung der gesamten Schrank-Vera-Rubin-Plattform sowie über „CoreWeave Mission Control“ verwendet werden, um eine Betriebsüberwachung auf Schrankclusterebene zu erreichen.

In der von NVIDIA-CEO Jensen Huang vorgeschlagenen architektonischen Sichtweise „KI ist ein Kuchen mit fünf Schichten“ ist Vera Rubin NVL72 nur eine Hardwareschicht. Dahinter steckt auch eine hochentwickelte Infrastruktur einschließlich Stromversorgung, Kühlung, Verbindung, Netzwerk usw. sowie eine über viele Jahre aufgebaute Software-Stack-Unterstützung. Mit CUDA und dem CUDA-X-Ökosystem für KI-Workloads als Kernstück integriert NVIDIA Software und Hardware, was es für konkurrierende Hersteller schwierig macht, im Hinblick auf ökologische Reife und breite Akzeptanz direkt zu konkurrieren.

In Bezug auf die Leistung deuten Berichte darauf hin, dass die Vera Rubin-Plattform im Trainingsszenario des Mix of Experts (MoE)-Modells mit nur einem Viertel der Anzahl an GPUs die gleiche Trainingsgeschwindigkeit wie das Blackwell-System der vorherigen Generation erreichen kann, während die Kosten pro Token in der Inferenzphase auf ein Zehntel von Blackwell reduziert werden können. Dies bedeutet, dass Vera Rubin beim Einsatz groß angelegter Modelle und Agentic AI auf Fabrikebene voraussichtlich erhebliche Vorteile bei der Rechenleistungsdichte und Energieeffizienz bringen und Cloud-Anbietern wichtige Unterstützung bei der Kostenkontrolle und Skalierungserweiterung bieten wird.

Derzeit befindet sich die Vera-Rubin-Plattform in der vollständigen Massenproduktion und NVIDIA plant, im dritten Quartal dieses Jahres die erste Charge kundenorientierter Produktionslaufaufgaben offiziell zu starten. Da führende Cloud-Dienstleister wie Oracle und CoreWeave bei der Durchführung der Einführung und Verifizierung die Führung übernehmen, geht die Branche allgemein davon aus, dass Vera Rubin bald zu einer der Kernkomponenten der neuen Generation der KI-Rechenzentrumsinfrastruktur wird und die Implementierung von „Agentic AI Factories“ und komplexeren großen Modellanwendungen vorantreibt.