Am Donnerstag veröffentlichte OpenAI offiziell eine neue Generation von Basismodellen, GPT-5.4, und positionierte es als „das bisher leistungsstärkste, effizienteste und modernste Modell für professionelle Arbeit“. Zusätzlich zur Standardversion brachte OpenAI gleichzeitig zwei Varianten auf den Markt: GPT-5.4 Thinking, das komplexe Denkfähigkeiten hervorhebt, und GPT-5.4 Pro, das auf Hochleistungsanwendungsszenarien ausgerichtet ist.

Was die Modellfunktionen angeht, unterstützt die API-Version von GPT-5.4 ein Kontextfenster von bis zu 1 Million Token und übertrifft damit jedes bisher von OpenAI bereitgestellte Modell bei weitem, was für die Verarbeitung langkettiger Arbeitsabläufe wie langer Dokumente, komplexer Projekte oder mehrstufiger Aufgaben von Vorteil ist. OpenAI betonte auch die Verbesserung der Token-Nutzungseffizienz und sagte, dass GPT-5.4 Aufgaben mit der gleichen Schwierigkeit wie das Modell der vorherigen Generation mit deutlich weniger Token erledigen kann, was Vorteile bei Kosten und Reaktionsgeschwindigkeit bietet.

Die neuesten Benchmark-Testergebnisse zeigen, dass GPT-5.4 in mehreren maßgeblichen Bewertungen einen deutlichen Vorsprung erzielt hat, darunter das Aufstellen neuer Rekorde in den beiden Szenariotests „Computerbetrieb“ von OSWorld-Verified und WebArena Verified sowie das Erreichen der höchsten Punktzahl von 83 % im OpenAI-eigenen Wissensarbeitsbewertungssatz GDPval. GPT-5.4 belegte außerdem den ersten Platz im APEX-Agents-Benchmark des Startups Mercor für berufliche Fähigkeiten wie Recht und Finanzen.

Brendan Foody, CEO von Mercor, sagte in einer Erklärung, dass GPT-5.4 sich durch die Erstellung langfristiger Ergebnisse auszeichnet, einschließlich Präsentationen, Finanzmodellen und rechtlichen Analysen, „bei gleichzeitiger Beibehaltung der Spitzenleistung, schneller und zu geringeren Kosten als vergleichbare Spitzenmodelle.“

In Bezug auf die Zuverlässigkeit setzt GPT-5.4 die Forschungs- und Entwicklungsrichtung von OpenAI fort, um „Illusionen“ und sachliche Fehler zu reduzieren. Offizielle interne Bewertungsergebnisse zeigen, dass das neue Modell im Vergleich zu GPT-5.2 eine Reduzierung der Fehlerwahrscheinlichkeit auf der Ebene einer einzelnen Aussage um 33 % und eine Reduzierung der Fehlerwahrscheinlichkeit in der Gesamtantwort um 18 % aufweist.

Diese Version bringt auch eine wichtige Änderung der API-Ebene mit sich: OpenAI führt einen neuen Tool-Aufrufmechanismus namens Tool Search ein. In der alten Lösung muss die Systemeingabeaufforderung die Definitionen aller verfügbaren Tools auf einmal in das Modell einfügen. Wenn die Anzahl der Tools zunimmt, wird dieser Teil der Eingabeaufforderung selbst eine große Menge an Token belegen. Die neue Tool-Suche ermöglicht es Modellen, Tool-Definitionen bei Bedarf abzufragen, was den Overhead in Systemen mit größeren Tool-Größen erheblich reduziert und Aufrufe schneller und kostengünstiger macht.

OpenAI konzentriert sich auf Sicherheit und Kontrollierbarkeit und hat dieses Mal eine neue Sicherheitsbewertung hinzugefügt, um die „Gedankenketten“-Leistung des Modells in mehrstufigen Aufgaben zu testen. Forscher befürchten seit langem, dass Modelle mit Argumentationsfähigkeiten den wahren Denkpfad während des Kettendenkenprozesses „verschleieren“ oder verbergen könnten. Frühere Untersuchungen haben gezeigt, dass dies unter bestimmten Bedingungen tatsächlich passieren kann. Neue Auswertungsergebnisse von OpenAI zeigen, dass in der Version von GPT-5.4 Thinking die Wahrscheinlichkeit einer solchen „trügerischen“ Leistung noch geringer ist. „Dies zeigt, dass das Modell nicht in der Lage ist, den Argumentationsprozess aktiv zu verbergen, und dass die Überwachung der Denkkette immer noch ein wirksames Sicherheitsinstrument ist.“

Durch die gleichzeitige Einführung von GPT-5.4 und seinen Pro- und Thinking-Versionen versucht OpenAI, ein neues Gleichgewicht zwischen professioneller Produktivität, Kosteneffizienz und Sicherheitskontrollierbarkeit zu finden und große Modelle weiter in hochwertige Szenarien wie Recht, Finanzen und Wissensarbeit zu drängen.