Eine aktuelle Studie der Washington State University in den Vereinigten Staaten zeigt, dass das große Sprachmodell ChatGPT bei komplexen wissenschaftlichen Behauptungen oft „die Antwort errät“, obwohl seine Antworten sehr sicher klingen. Die Genauigkeit ist nicht nur begrenzt, sondern sie ist auch in Bezug auf dieselbe Frage inkonsistent, was es besonders schwierig macht, falsche Informationen zu identifizieren.


Die Forschung wurde von Mesut Cicek geleitet, einem außerordentlichen Professor in der Abteilung für Marketing und International Business am Washington State University College of Business. Er und sein Team extrahierten eine große Anzahl hypothetischer Aussagen aus wissenschaftlichen Forschungsarbeiten und übermittelten sie wiederholt an ChatGPT mit der Bitte, zu beurteilen, ob diese Aussagen durch bestehende Forschungsergebnisse gestützt würden. Lassen Sie die KI im Wesentlichen über „wahr oder falsch“ urteilen. Die Forscher wählten seit 2021 insgesamt 719 Forschungshypothesen aus Veröffentlichungen in Wirtschaftszeitschriften aus und reichten jede Hypothese zehnmal bei ChatGPT ein, um die Konsistenz ihrer Antworten zu prüfen.

Im ersten Experiment, das im Jahr 2024 durchgeführt wurde, war ChatGPT in 76,5 % der Fälle „angeblich“ richtig; Als das Experiment im Jahr 2025 wiederholt wurde, stieg diese Zahl leicht auf 80 %. Nach Eliminierung des „Blind“-Faktors und statistischer Anpassung der Ergebnisse auf der Grundlage zufälliger Schätzungen stellte das Forschungsteam jedoch fest, dass die tatsächliche Leistung des Modells nur etwa 60 % höher war als die zufällige Antwort durch „Münzwurf“, was alles andere als zuverlässig ist. In den Augen der Forscher kommt es eher einer „D-Note mit niedriger Punktzahl“ gleich. Vor allem bei der Identifizierung falscher Aussagen ist die Leistung von ChatGPT besonders schwach, mit einer korrekten Urteilsrate von nur 16,4 % für „falsche Aussagen“.

Auch die Frage der Konsistenz steht im Vordergrund. Selbst wenn die Frage mehrmals mit genau denselben Aufforderungswörtern wiederholt wird, kommt ChatGPT nicht immer zum gleichen Ergebnis. Cicek stellte fest, dass das Modell bei zehn wiederholten Fragen und Antworten nur in etwa 73 % der Fälle konsistente Antworten lieferte. In einigen konkreten Beispielen wird ChatGPT unter den 10 Antworten auf dieselbe Hypothese in der Situation des „Wechsels von wahr und falsch“ und sogar in der Extremsituation „die Hälfte der Antworten ist wahr und die Hälfte der Antworten sind falsch“ auftauchen.

Die Autoren der im Rutgers Business Review veröffentlichten Studie sind der Ansicht, dass die Ergebnisse die Notwendigkeit äußerster Vorsicht beim Einsatz generativer KI in wichtigen Entscheidungsbereichen verdeutlichen, insbesondere wenn es um komplexe Überlegungen und Nuancen geht. Cicek betonte, dass aktuelle groß angelegte Sprachmodelle Fragen mit sehr flüssiger und überzeugender Sprache beantworten können, dies bedeute jedoch nicht, dass sie über echte „Verständnisfähigkeiten“ verfügen. „Bestehende KI-Tools verstehen die Welt nicht auf die gleiche Weise wie Menschen – sie haben nicht wirklich ein ‚Gehirn‘“, sagte er. „Sie merken sich hauptsächlich etwas und ordnen es zu, was einige Erkenntnisse liefern kann, aber sie wissen nicht wirklich, wovon sie reden.“

In Bezug auf die spezifische Methode wurde das Forschungsteam von Cicek in Zusammenarbeit mit Sevincgul Ulu von der Southern Illinois University, Can Uslay von der Rutgers University und Kate Karniouchina von der Northeastern University vervollständigt. Sie wählten Forschungshypothesen aus 719 Artikeln in Wirtschaftszeitschriften aus. Solche Hypothesen werden oft von mehreren Variablen beeinflusst. Zu beurteilen, ob eine Studie eine bestimmte Hypothese „stützt“, ist an sich schon ein äußerst komplexer Denkprozess. Diese Komplexität in ein einfaches „Ja/Nein“-Urteil zu komprimieren, stellt das Verständnis und die Argumentationsfähigkeit des Tools auf eine harte Probe.

Es ist erwähnenswert, dass das Team die kostenlose Version von ChatGPT-3.5 im Jahr 2024 und das aktualisierte ChatGPT-5 mini im Jahr 2025 getestet hat. Die Ergebnisse zeigten, dass die Gesamtleistung der beiden Modellgenerationen bei dieser Aufgabe ähnlich war. Nach Anpassung an den zufälligen Schätzfaktor betrug die Verbesserung des Modells im Vergleich zur 50-prozentigen „Ratewahrscheinlichkeit“ in beiden Experimenten nur etwa 60 %.

Die Studie wies außerdem darauf hin, dass es eine erhebliche Lücke zwischen „Sprachkompetenz“ und „echter Denkfähigkeit“ großer Sprachmodelle gibt. Diese Systeme können zwar gut strukturierte, natürlich formulierte und überzeugende Texte produzieren, aber sie haben oft Probleme mit tieferen logischen Urteilen, der Abwägung von Beweisen und der Identifizierung von Fehlinformationen, was zu Antworten führen kann, die zwar richtig klingen, aber tatsächlich problematisch sind.

Basierend auf den oben genannten Erkenntnissen empfehlen die Forscher, dass Unternehmensmanager und Entscheidungsträger die Ausgabeergebnisse stets überprüfen und eine notwendige Skepsis beim Einsatz generativer KI-Tools wie ChatGPT bewahren sollten. Sie forderten außerdem eine stärkere Benutzerschulung innerhalb der Organisationen, um den Mitarbeitern zu helfen, die Stärken und Grenzen solcher Tools zu verstehen und sie nicht als „autoritären“ Ersatz für professionelles Urteilsvermögen zu betrachten. Cicek wies darauf hin, dass das Thema dieser Studie zwar ChatGPT sei, andere ähnliche KI-Systeme in verwandten Tests jedoch ungefähr die gleichen Leistungen erbrachten. Diese Arbeit führt auch die bisherige Forschung zum „Overhype of AI“ fort. Beispielsweise ergab eine landesweite Umfrage aus dem Jahr 2024, dass die Kaufabsicht einiger Verbraucher tatsächlich sinkt, wenn Unternehmen im Marketing den Schwerpunkt auf „powered by AI“ legen.

„Egal was passiert, seien Sie skeptisch“, sagte Cicek. „Ich bin nicht gegen KI, ich nutze sie selbst, aber man muss damit sehr vorsichtig sein.“