Jen-Hsun Huangs Aussagen zu DLSS 5 scheinen denen seiner eigenen Mitarbeiter

Anfang dieser Woche veröffentlichte Nvidia DLSS 5 – diese KI-gesteuerte visuelle Superauflösungstechnologie behauptet, „bahnbrechende Fortschritte“ erzielt zu haben und kann „die Farb- und Bewegungsvektoren jedes Frames des Spiels als Eingabe verwenden, um fotorealistische Licht- und Materialeffekte in das Bild einzufügen“. Allerdings löste die Ankündigung der Technologie sofort eine starke negative Reaktion im Internet aus. Internetnutzer kritisierten es als minderwertigen, von KI generierten Inhaltsfilter.

Später in dieser Woche widerlegte Nvidia-CEO Jensen Huang diese Aussage auf einer Offline-Veranstaltung und sagte, dass alle „völlig falsch“ lägen und dass DLSS 5 tatsächlich „überhaupt keine Nachbearbeitungstechnologie für Einzelbilder“ sei. Diese Aussage soll veranschaulichen, dass diese Technologie im Vergleich zum online übertragenen „minderwertigen Filter“, der das endgültige 2D-Bild auf der Grundlage umfangreicher Internet-Trainingsdaten modifiziert, über eine feinere Granularität und Steuerungsmöglichkeiten verfügt.

Jen-Hsun Huangs Aussagen zu DLSS 5 scheinen denen seiner eigenen Mitarbeiter zu widersprechen

Allerdings scheinen die neuesten Details, die von NVIDIAs eigenem „GeForce-Evangelisten“ und Marketingspezialisten Jacob Freeman veröffentlicht wurden, Huang Jen-Hsuns Charakterisierung dieser umstrittenen Technologie zu widersprechen. Daniel Owens, ein YouTube-Blogger im Bereich PC-Gaming-Hardware, fragte Freeman, ob DLSS 5 „tatsächlich einen einzelnen 2D-Frame (mit Bewegungsvektoren) als Eingabe verwendet, um einen Ausgabe-Frame zu generieren?“ Der NVIDIA-Vertreter antwortete: „Ja, DLSS 5 benötigt 2D-Frames plus Bewegungsvektoren als Eingabe.“ Er fügte außerdem hinzu: „DLSS 5. Nach einem umfassenden Training kann es komplexe Szenensemantiken wie Charaktere, Haare, Stoffe, durchscheinende Haut und Umgebungslichtbedingungen wie Frontbeleuchtung, Gegenlicht und bewölktes Wetter verstehen, indem es nur ein einziges Bild analysiert.“

Leser, die nicht viel über Technologie wissen, fragen sich vielleicht, wo hier der Kernwiderspruch liegt. Das Problem besteht darin, dass diese Aussage direkt der Rede von Huang Renxun vom 17. März widerspricht. Damals wurde Huang Renxun während der Frage-und-Antwort-Runde von dem bekannten Hardware-Medium Tom's Hardware interviewt: „Dies ist keine Nachbearbeitung, überhaupt keine Nachbearbeitung für einen einzelnen Frame, sondern generative Steuerung auf der geometrischen Ebene. All dies steht unter der Kontrolle des Spieleentwicklers – direkte und vollständige Kontrolle. Dies unterscheidet sich völlig von gewöhnlicher generativer KI. Das ist.“ inhaltssteuerbare generative KI, weshalb wir sie neuronales Rendering nennen.“

Vereinfacht ausgedrückt sagte der Nvidia-Mitarbeiter, dass DLSS 5 ein generativer KI-Filter sei, der ein einzelnes Bild als Referenz verwende, während Huang Renxun sagte, dass er nicht einen einzelnen Frame als Referenz verwende, sondern volldimensionale Spieldaten einschließlich 3D-Geometriedaten aufrufe.

Kurz gesagt, wie Owens es ausdrückt, erstellt DLSS 5 im Wesentlichen einen Screenshot eines Spiels und fügt darauf eine Ebene mit Filtern hinzu. Aus diesem Grund sind Internetnutzer, die sich ursprünglich gegen die erste Demonstration gewehrt hatten, jetzt noch wütender und beschuldigen Huang in seiner jüngsten Rede, über die technischen Möglichkeiten von DLSS 5 gelogen zu haben. Und dies ist nicht das erste Mal, dass ihm vorgeworfen wird, Verbraucher irrezuführen.

Derzeit scheint es, dass DLSS 5 tatsächlich keine zusätzlichen Informationen über einen einzelnen Frame hinaus abruft. Dies erklärt in gewisser Weise auch, warum einige der Lichteffekte in der ersten Demo schlecht abschnitten – denn DLSS 5 bezieht sich nur auf das Beleuchtungsbild im Bild und verfügt über keine anderen zugrunde liegenden Daten, um ein neues Bild zu generieren. DLSS 5 ist überhaupt keine brandneue Rendering-Technologie auf Geometrieebene. Es handelt sich lediglich um die Version 2.0 für KI-unterlegene Inhalte, da sich ihre Funktionsweise nicht von den gängigsten generativen KI-Filtern auf dem Markt unterscheidet.