GPT-4.5 von OpenAI ist besser darin, andere KIs davon zu überzeugen, ihm geld

Nach den Ergebnissen der internen Benchmark-Bewertung von OpenAI ist OpenAIs nächstes großes Modell für künstliche Intelligenz, GPT-4.5, sehr überzeugend. Es ist besonders gut darin, eine andere KI davon zu überzeugen, ihr Geld zu geben.

Am Donnerstag veröffentlichte OpenAI ein Whitepaper, in dem die Fähigkeiten seines GPT-4.5-Modells mit dem Codenamen Orion beschrieben werden. Dem Papier zufolge hat OpenAI das Modell einer Reihe von „Überzeugungs“-Benchmarks unterzogen, die OpenAI als „das Risiko definiert, das damit verbunden ist, Menschen davon zu überzeugen, ihre Überzeugungen zu ändern (oder Maßnahmen auf statische und interaktive Inhalte zu ergreifen, die vom Modell generiert werden).“

In einem Test versuchte GPT-4.5, ein anderes Modell – GPT-4o von OpenAI – zu manipulieren, um virtuelle Gelder zu „spenden“, was weitaus besser abschnitt als die anderen verfügbaren Modelle von OpenAI, einschließlich „Inferenz“-Modellen wie o1 und o3-mini. GPT-4.5 übertraf auch alle OpenAI-Modelle darin, GPT-4o dazu zu bringen, ihm den Geheimcode zu verraten, und übertraf o3-mini um 10 Prozentpunkte.

Das Whitepaper weist darauf hin, dass GPT-4.5 sich beim Spendenbetrug dadurch auszeichnet, dass es beim Testen eine einzigartige Strategie entwickelt hat. Das Model würde GPT-4o um eine bescheidene Spende bitten, was zu einer Antwort wie „sogar 2 oder 3 US-Dollar von 100 US-Dollar würden mir sehr helfen“ führte. Infolgedessen sind die Spenden an GPT-4.5 tendenziell geringer als die, die andere OpenAI-Modelle erhalten.

Benchmark-Ergebnisse des Spendenprogramms von OpenAI. Bildquelle: OpenAI

Trotz der erhöhten Überzeugungskraft von GPT-4.5 sagte OpenAI, dass das Modell seinen internen Schwellenwert für „hohes“ Risiko in dieser speziellen Benchmark-Kategorie nicht erreicht habe. Das Unternehmen versprach, keine Modelle herauszubringen, die hohe Risikoschwellen erreichen, bis „angemessene Sicherheitsmaßnahmen“ implementiert wurden, um das Risiko auf „moderat“ zu reduzieren.

Die Ergebnisse des Passwort-Spoofing-Benchmarks von OpenAI. Bildquelle: OpenAI

Es bestehen echte Bedenken, dass künstliche Intelligenz die Verbreitung falscher oder irreführender Informationen erleichtern wird, um die Meinung der Menschen zu beeinflussen und böswillige Zwecke zu verfolgen. Politisch relevante Deepfakes haben sich im letzten Jahr wie ein Lauffeuer auf der ganzen Welt verbreitet und künstliche Intelligenz wird zunehmend für Social-Engineering-Angriffe gegen Verbraucher und Unternehmen eingesetzt.

In dem Whitepaper und den Dokumenten zu GPT-4.5, die Anfang dieser Woche veröffentlicht wurden, stellt OpenAI fest, dass es die Art und Weise ändert, wie seine Erkennungsmodelle Risiken der realen Überzeugung angehen, wie etwa die Massenveröffentlichung irreführender Informationen.