Der nächste große Sprung nach vorne für große Models? Der „neue Durchbruch“ von OpenAI: Universal Verifier

Da das Großmodell GPT-5 der nächsten Generation mit Spannung erwartet wird, entsteht eine neue Technologie namens „Universal Verifier“, die die „Geheimwaffe“ von OpenAI enthüllt, mit deren Hilfe sich der Wettbewerbsunterschied vergrößern lässt. Der „Universal Verifier“ von OpenAI kann sich direkt auf die Wettbewerbsfähigkeit des GPT-5-Modells auf dem Markt auswirken. Am 4. August berichtete das Technologiemedium The Information unter Berufung auf mit der Angelegenheit vertraute Personen, dass diese Technologie im Entwicklungsprozess von GPT-5 eingesetzt wurde.

Der Kernmechanismus der Technologie wird mit einem „Prüfer-Verifizierer-Spiel“ verglichen. Kurz gesagt, ermöglicht es einem KI-Modell, die Rolle eines „Verifizierers“ zu übernehmen, um die von einem anderen „Prüfer“-Modell generierten Antworten zu überprüfen und zu beurteilen. Durch diese interne Auseinandersetzung und Rückmeldung wird die Ausgabequalität des Modells systematisch verbessert. Dieser automatisierte Prozess zielt darauf ab, den Engpass des Reinforcement Learning (RL) zu lösen, der in subjektiven Bereichen wie kreativem Schreiben oder komplexen Bereichen wie mathematischen Beweisen schwer zu überprüfen ist.

Interne OpenAI-Forscher haben indirekt die Wirksamkeit verwandter Methoden auf der sozialen Plattform Dies zeigt auch, dass OpenAI versucht, das Hauptproblem bei der kommerziellen Anwendung von KI zu überwinden: Glaubwürdigkeit.

Das „Beweiser-Verifizierer“-Spiel

Die technischen Details des „Universal Verifier“ wurden erstmals in einem Artikel mit dem Titel „Prover-Verifier Game Improves the Readability of Large Language Models“ erläutert, der im Juli 2024 von OpenAI veröffentlicht wurde. Diese Methode baut ein exquisites internes gegnerisches Trainingsgerüst auf, hinter dem ein „Prover-Verifier Game“-Modell steht.

Die beiden Rollen „Beweiser und Verifizierer“ in diesem Rahmen ähneln der Aufteilung zweier „Persönlichkeiten“ innerhalb eines Modells:

Während des Trainingsprozesses verbessert das „Verifier“-Modell kontinuierlich seine „Fälschungs“-Fähigkeiten, indem es lernt, zwischen richtigen und falschen Lösungen zu unterscheiden. Gleichzeitig wird das „Prüfer“-Modell anhand des Feedbacks des „Prüfers“ optimiert und lernt, korrekte Antworten zu generieren, die überzeugender und schwieriger zu fälschen sind. In dem Papier heißt es eindeutig, dass der Validator klein genug für den Einsatz in großem Maßstab ist und „für zukünftige GPT-Einsätze konzipiert“ ist.

Ein Forscher sagte gegenüber The Information, dass dieser Mechanismus generativen gegnerischen Netzwerken (GANs) ähnelt, die einen „Diskriminator“ verwenden, um echte Daten von KI-generierten Daten zu unterscheiden, wodurch der „Generator“ gezwungen wird, sich weiter zu verbessern.

Das „technische Erbe“ des Super Alignment Teams?

Es ist erwähnenswert, dass diese Schlüsseltechnologie als „technisches Erbe“ des ehemaligen „Super Alignment“-Teams von OpenAI bezeichnet wird. Von den sechs Autoren, die den Artikel „The Prover-Verifier Game Improves the Readability of Large Language Models“ veröffentlicht haben, verbleiben derzeit nur noch Yining Chen und Nat McAleese in OpenAI.

Es wird berichtet, dass das Team vom Firmenmitbegründer Ilya Sutskever geleitet wurde und gegründet wurde, um zu untersuchen, wie Superintelligenz kontrolliert werden kann, die in der Zukunft auftauchen könnte. Sie wurde jedoch schnell aufgelöst, nachdem Sutskever und ein weiterer Verantwortlicher, Jan Leike, gegangen waren.

Dies fügt der Anwendung dieser Technologie eine Ebene komplexer unternehmensinterner dynamischer Kontexte hinzu. Obwohl das Team nicht mehr existiert, wurden seine technischen Ergebnisse offenbar in den Kernproduktentwicklungspfad von OpenAI integriert, um die Ausrichtungs- und Zuverlässigkeitsprobleme des aktuellen Modells zu lösen.

GPT-5-Erwartungen hoch

Dieser technologische Durchbruch steht in direktem Zusammenhang mit dem mit Spannung erwarteten GPT-5. Informationen in sozialen Medien zeigen, dass einige Leute glauben, dass das Modell-Selbstkritiksystem, das in der GPT-4-Code-Hilfsfunktion getestet wurde, nun offiziell in das „nächste Hauptmodell“ von GPT-5 integriert wurde. Dies hat die Erwartungen von außen an GPT-5 auf ein neues Niveau gehoben.

Sam Altman, CEO von OpenAI, selbst warb kürzlich in einem Podcast für GPT-5 und sagte, es sei „in fast jeder Hinsicht intelligenter als wir“, was die Markterwartungen weiter steigerte. Gleichzeitig haben auch Wettbewerber wie xAI und Google Reinforcement Learning als wichtigen technischen Weg zur Verbesserung der Modellfähigkeiten übernommen und ihre Investitionen verdoppelt. In diesem Zusammenhang ist der „Universal Verifier“ nicht nur eine technische Innovation von OpenAI, sondern wird auch als sein zentraler Vorteil angesehen, um seinen Vorsprung im harten Wettbewerb um künstliche Intelligenz zu behaupten. Seine endgültige Wirkung wird nach der Veröffentlichung von GPT-5 vom Markt getestet.

Durchbrüche und Herausforderungen existieren nebeneinander

Der wichtigste Wert eines „universellen Validators“ ist seine „Universalität“. Berichten zufolge hat diese Technologie OpenAI-Modellen nicht nur dabei geholfen, Fortschritte in Bereichen wie der Softwareprogrammierung zu erzielen, in denen Antworten leicht als richtig oder falsch überprüft werden können, sondern hat auch Verbesserungen in subjektiveren Bereichen wie dem kreativen Schreiben gezeigt. Das bedeutet, dass die Fähigkeiten der KI vom objektiven Bereich in den subjektiven Bereich vordringen.

Beispielsweise kann ein Prüfer bei komplexen mathematischen Beweisen sicherstellen, dass jeder Schritt den Regeln der formalen Logik folgt und miteinander konsistent ist, anstatt nur die endgültige Antwort zu überprüfen. Berichten zufolge dürften die jüngsten bahnbrechenden Ergebnisse des OpenAI-Modells im Wettbewerb der Internationalen Mathematikolympiade von Technologien wie dem „universellen Verifizierer“ profitieren. Alexander Wei, leitender Forscher bei OpenAI, sagte auf der sozialen Plattform

Allerdings ist der Weg zu Technologiesprüngen nicht einfach. Früheren Medienberichten zufolge steht die Forschung und Entwicklung von GPT-5 vor großen Herausforderungen, darunter die zunehmende Knappheit hochwertiger Trainingsdaten und die abnehmenden Vorteile der Leistungsverbesserung durch groß angelegtes Vortraining. Darüber hinaus besteht immer noch das Problem der Leistungseinbuße, nachdem das Modell von internen Tests zur öffentlichen Bereitstellung bereitgestellt wurde. Beispielsweise hat das „o3“-Modell, das in internen Tests gut abgeschnitten hat, in tatsächlichen Anwendungen einen erheblichen Leistungsabfall erlitten. Diese Faktoren haben zu Unsicherheit darüber geführt, ob GPT-5 letztendlich den erwarteten Durchbruch erzielen kann.