Neben dem Spielen von Videospielen wurde auch das Töten von Werwölfen als „soziales Artefakt“ des Menschen von der KI erlernt. Acht ChatGPTs „sitzen“ zusammen und spielen lebendig fünf Rollen, genau wie echte Menschen. Dieses neueste Experiment zur Simulation der menschlichen Gesellschaft wurde gemeinsam von der Tsinghua-Universität und dem Zhongguancun-Labor durchgeführt.
Von Stanford Town bis zur Tsinghua Game Company war der Einsatz von KI zur Simulation der menschlichen Gesellschaft schon immer ein heißes Forschungsthema in der akademischen Gemeinschaft.
Während die Tsinghua Game Company die Arbeitsszene sozialer Tiere simulierte, wurde nun auch das soziale Leben sozialer Tiere in ihrer Freizeit von KI simuliert.
In diesem aus 8 ChatGPTs bestehenden Werwolf-Tötungsspiel werden die Verkleidung und das Vertrauen, die Führung und die Konfrontation in der realen Welt anschaulich widergespiegelt.
Auch ohne menschlichen Unterricht entdeckte die KI viele Spielfähigkeiten durch ihre eigene Erkundung.
All dies kann durch Design-Eingabeaufforderungen erreicht werden, ohne dass die Parameter im Modell angepasst werden müssen.
Was sind also die wunderbaren Szenen in dieser „Werwolfwelt“? Schauen wir es uns gemeinsam an.
Strategien und Fähigkeiten können erlernt werden, ohne dass sie ihnen beigebracht werden
Bevor wir diese 8 ChatGPT-Dialoge zeigen, erklären wir zunächst die Spielkonfiguration: zwei Dorfbewohner und zwei Werwölfe, ein Wächter, eine Hexe und ein Prophet sowie ein Gott.
Während des Experiments stellten die Forscher fest, dass ChatGPT Strategien verwendete, die in den Spielanweisungen und Eingabeaufforderungen nicht explizit erwähnt wurden.
Guter Kerl, man kann Autodidakt werden, ohne unterrichtet zu werden.
Konkret spiegeln diese sieben ChatGPT-Gespräche Vertrauen, Tarnung, Konfrontation und Führung in menschlichen Spielen wider.
Lassen Sie uns zunächst über Vertrauen sprechen.
Die Forscher definierten Neulinge als Menschen, die darauf vertrauen, dass andere Spieler die gleichen Ziele verfolgen wie sie selbst, und gemeinsam auf diese Ziele hinarbeiten.
Spezifische Erscheinungsformen sind der aktive Austausch von Informationen, die für einen selbst schädlich sind, oder der Zusammenschluss mit anderen Spielern, um jemandem Feindseligkeit vorzuwerfen.
Die Forscher beobachteten, wie sich Vertrauensbeziehungen im Laufe des Spiels im Laufe der Zeit veränderten.
Im Bild unten zeigt der gelbe Kreis an, dass der links nummerierte Spieler dem oben nummerierten Spieler vertraut, und der gepunktete Kreis stellt das Verschwinden der Vertrauensbeziehung dar.
Schauen wir uns die Konfrontation an, also die Aktionen, die gegen das gegnerische Lager ergriffen werden, wie zum Beispiel Werwölfe, die nachts andere angreifen oder andere tagsüber beschuldigen, Werwölfe zu sein.
Eines Tages im Spiel forderte Spieler Nr. 1 (der Werwolf) die Vertreibung der Dorfbewohner aus Nr. 5, wurde aber von Nr. 3 (dem Wächter) abgelehnt.
Als der Wolf sah, dass die Verschwörung scheiterte, beschloss er, Nr. 5 direkt in der Nacht zu töten, aber Wächter Nr. 3 entschied sich dafür, die Dorfbewohner zu beschützen.
Daraus können wir erkennen, dass diese ChatGPTs nicht blind dem folgen, was andere Spieler tun, sondern unabhängige Urteile auf der Grundlage vorhandener Informationen fällen.
Neben Kooperation und Konfrontation ist Verkleidung auch eine wesentliche Fähigkeit im Werwolf-Spiel und der Schlüssel zum Sieg.
Beispielsweise gab Werwolf Nr. 1 einen Tag nach Heiligabend vor, unschuldig zu sein.
Neben der Vortäuschung, ein guter Mensch zu sein, kann die Verkleidung auch dazu dienen, die kleinen Gedanken des Spielers zu verwirklichen. Schauen wir uns zum Beispiel die Rede des Propheten an.
Der Seher erwähnte, dass er Werwölfe reden sah, aber tatsächlich sprachen Werwölfe nachts nicht.
Nach Einschätzung des Autors handelt es sich bei diesem Phänomen nicht um eine Illusion von ChatGPT, sondern um Absicht.
Lassen Sie uns abschließend über Führung sprechen.
Obwohl es in der vom Forschungsteam entworfenen Umgebung keine konkurrierenden Charaktere gibt, können Spieler dennoch die Kontrolle über den Spielablauf erlangen.
Beispielsweise versuchen die beiden Wölfe Nr. 1 und Nr. 4, das Tempo vorzugeben und andere Spieler ihren eigenen Ideen folgen zu lassen.
Wahrscheinlich, um Chancen zu schaffen, indem man sie überrascht.
Es scheint, dass diese ChatGPTs tatsächlich gut gespielt werden.
Wie hat das Forschungsteam diese ChatGPTs trainiert, die Werwolf spielen können?
Lassen Sie ChatGPT seine eigenen Erfahrungen zusammenfassen
Es gibt vier Schlüsselpunkte bei der Art und Weise, wie das Forschungsteam die Leistung von ChatGPT-Spielern verbessert, nämlich wertvolle Informationen V, ausgewählte Fragen Q, Reflexionsmechanismus R und Kettendenken-Argumentation C.
Die Ergebnisse des Ablationsexperiments zeigen, dass die Q- und C-Paare den größten Einfluss auf die Rationalität der Sprache des Spielers haben (von Menschen beurteilt).
Auf dieser Grundlage ist auch Prompt konzipiert. Zuvor müssen natürlich noch die Spielregeln eingeführt werden und schließlich bildet sich folgende Struktur:
Einführung in Spielregeln und Rolleneinstellungen, Chat-Aufzeichnungen, wertvolle Informationen und Erfahrungen, Reflexion über menschliche Vorschläge, die ChatGPT aufgrund ihrer Erfahrung gegeben wurden, Tipps zu Denkketten
Daraus ist nicht schwer zu erkennen, dass das Sammeln historischer Informationen und das Zusammenfassen von Erfahrungen daraus ein wichtiges Bindeglied ist. Wie also sind diese Erfahrungen zusammenzufassen?
Am Ende jeder Spielrunde werden die Antworten, Überlegungen und Punkte aller Spieler von allen Teilnehmern gesammelt, wobei die Punkte durch Siege und Niederlagen bestimmt werden.
In einer neuen Spielrunde rufen die Spieler relevante Erfahrungen ab und extrahieren Vorschläge basierend auf den Überlegungen des aktuellen Charakters.
Lassen Sie das große Modell insbesondere auf der Grundlage der Erfahrungsbewertungen ihre Unterschiede vergleichen und gute Erfahrungen für die anschließende Argumentation identifizieren.
Auf diese Weise kann ChatGPT Spielfähigkeiten erlernen, ohne Parameter anpassen zu müssen.
Obwohl Erfahrung wichtig ist, ist zu viel nicht unbedingt eine gute Sache.
Die Forscher fanden heraus, dass bei zu großer Erfahrung die Gewinnquote der Nicht-Wolf-Seite tatsächlich abnahm und sich auch die Spieldauer (Anzahl der Tage) verkürzte.
Ich frage mich, was das Ergebnis wäre, wenn wir diese ChatGPTs mit echten Menschen konkurrieren lassen würden?
Papieradresse: https://arxiv.org/abs/2309.04658