Forscher nutzen Super Mario als Benchmark zum Testen künstlicher Intelligenz

Ist Pokémon ein harter Maßstab für künstliche Intelligenz? Ein Forscherteam hält Super Mario Bros. für eine größere Herausforderung. Forscher des Hao Artificial Intelligence Laboratory (HaoAILab) der University of California in San Diego haben am Freitag künstliche Intelligenz in das Live-Streaming des Super Mario Bros.-Spiels integriert. Claude3.7 von Anthropic schnitt am besten ab, gefolgt von Claude3.5. Googles Gemini1.5Pro und OpenAIs GPT-4o schnitten schlecht ab.

Wissen Sie, die Version von Super Mario Bros. ist nicht genau die gleiche wie die Originalversion aus dem Jahr 1985. Das Spiel läuft in einem Emulator und lässt sich in das GamingAgent-Framework integrieren, damit künstliche Intelligenz Mario steuern kann.

Der von HaoAILab entwickelte GamingAgent liefert grundlegende Anweisungen an die künstliche Intelligenz, wie zum Beispiel „Wenn sich ein Hindernis oder ein Feind nähert, bewegen Sie sich nach links/springen Sie, um auszuweichen“ sowie Spiel-Screenshots. Die KI generiert dann die Eingaben, die Mario steuern, in Form von Python-Code.

Allerdings, so Hao, zwinge das Spiel jedes Modell dazu, zu „lernen“, komplexe Operationen zu planen und Spielstrategien zu entwickeln. Interessanterweise stellte das Labor fest, dass inferenzielle Modelle (wie das o1-Modell von OpenAI, das Schritt für Schritt über ein Problem „denkt“, um zu einer Lösung zu gelangen) weniger gut abschnitten als „nicht-inferentielle“ Modelle, obwohl sie bei den meisten Benchmarks im Allgemeinen stärker waren.

Forscher sagen, dass einer der Hauptgründe, warum Inferenzmodelle beim Spielen solcher Echtzeitspiele Schwierigkeiten haben, darin besteht, dass sie eine Weile – oft Sekunden – brauchen, um sich für eine Aktion zu entscheiden. In Super Mario Bros. kommt es auf das Timing an. Eine Sekunde kann den Unterschied zwischen einem sicheren Sprung oder einem Sturz in einen Abgrund ausmachen.

Spiele gelten seit Jahrzehnten als Maßstab für künstliche Intelligenz. Einige Experten bezweifeln jedoch, dass es sinnvoll ist, die Gaming-Fähigkeiten der KI mit technologischen Fortschritten zu verknüpfen. Im Gegensatz zur realen Welt sind Spiele tendenziell abstrakt, relativ einfach und stellen theoretisch unbegrenzte Datenmengen für das Training künstlicher Intelligenz bereit.

Jüngste auffällige Gaming-Benchmarks deuten darauf hin, dass der OpenAI-Forscher und Gründungsmitglied Andrej Karpathy vor einer „Bewertungskrise“ steht.

„Ich weiß im Moment wirklich nicht, auf welche [KI-]Metriken ich achten soll. TLDR, meine Reaktion ist, dass ich im Moment wirklich nicht weiß, wie gut diese Modelle sind“, schrieb er in einem Beitrag auf X.

Aber zumindest können wir der KI beim Spielen von Mario zusehen.