Neue Forschung: Chatbots mit künstlicher Intelligenz sind kreativer als der Durchschnitt people

Eine kürzlich in der Fachzeitschrift „Scientific Reports“ veröffentlichte Studie legt nahe, dass Chatbots mit künstlicher Intelligenz (Large Language Model, LLM) gewöhnliche Menschen bei kreativen Aufgaben übertreffen könnten, etwa beim Brainstorming alternativer Verwendungszwecke für häufig verwendete Gegenstände – ein Ausdruck unterschiedlichen Denkens. Allerdings übertrafen die Personen mit der höchsten Punktzahl bei diesen Aufgaben immer noch die Ergebnisse der Chatbots mit der besten Leistung.

Divergentes Denken ist ein oft mit Kreativität verbundener Denkprozess, bei dem es darum geht, viele verschiedene Ideen oder Lösungen für eine bestimmte Aufgabe zu generieren.

Die Bewertung erfolgt typischerweise durch die Alternative Use Task (AUT), bei der die Teilnehmer gebeten werden, in kurzer Zeit möglichst viele alternative Verwendungsmöglichkeiten für Alltagsgegenstände zu finden. Die Antworten wurden in vier verschiedene Kategorien unterteilt: Geläufigkeit, Flexibilität, Originalität und Ausführlichkeit.

Mika Koivisto und Simone Grassini verglichen die Antworten von 256 menschlichen Teilnehmern mit denen von drei KI-Chatbots (ChatGPT3, ChatGPT4 und Copy.Ai) und ihren AUT-Reaktionen auf vier Objekte: ein Seil, eine Kiste, einen Bleistift und eine Kerze. Die Autoren bewerteten die Originalität der Antworten anhand der semantischen Distanz (wie eng die Antwort mit der ursprünglichen Verwendung des Objekts zusammenhängt) und der Kreativität.

Die semantische Distanz wird mit rechnerischen Methoden auf einer Skala von 0 bis 2 quantifiziert, während menschliche Bewerter, die den Initiator der Antwort nicht kennen, die Kreativität subjektiv auf einer Skala von 1 bis 5 bewerten. Im Durchschnitt generierten Chatbots Antworten, die bei der semantischen Distanz (0,95 vs. 0,91) und der Kreativität (2,91 vs. 2,47) deutlich bessere Ergebnisse erzielten als menschliche Antworten.

Die menschlichen Reaktionen wiesen bei beiden Metriken eine größere Bandbreite auf – die niedrigsten Werte waren viel niedriger als die KI-Antworten, aber die höchsten Werte waren im Allgemeinen höher. Die beste Reaktion des Menschen übertraf in sieben der acht Bewertungskategorien die beste Reaktion jedes Chatbots.

Diese Ergebnisse legen nahe, dass KI-Chatbots mittlerweile mindestens genauso gut Ideen generieren können wie Menschen. Allerdings weisen die Autoren darauf hin, dass sie nur die Leistung bei einer einzigen Aufgabe berücksichtigten, die für die Beurteilung der Kreativität relevant war. Die Autoren schlagen vor, dass zukünftige Forschungen untersuchen könnten, wie künstliche Intelligenz in den kreativen Prozess integriert werden kann, um die menschliche Leistung zu verbessern.