Der Chefwissenschaftler von OpenAI hat einen Plan, Wege zu finden, um Super-Künstliche Intelligenz zu kontrollieren

Laut Nachrichten vom 15. Dezember versprach OpenAI bereits bei seiner Gründung, künstliche Intelligenz zu entwickeln, die der gesamten Menschheit zugute kommen würde, auch wenn diese künstlichen Intelligenzen möglicherweise intelligenter sind als ihre Schöpfer. Seit dem Debüt von ChatGPT sind die Geschäftsambitionen von OpenAI nach und nach in den Vordergrund gerückt. Kürzlich gab das Unternehmen die Einrichtung eines neuen Forschungsteams bekannt, das sich der Erforschung zukünftiger superkünstlicher Intelligenz widmet, und hat bereits damit begonnen, einige Ergebnisse zu erzielen.

Leopold Aschenbrenner, ein Forscher bei OpenAI, betonte: „Die allgemeine künstliche Intelligenz (AGI) rückt schnell näher und wir werden superintelligente Modelle sehen, die große Fähigkeiten haben, aber auch sehr gefährlich sein können, und wir haben noch keinen Weg gefunden, sie zu kontrollieren.“ Er war Mitglied des im Juli dieses Jahres gegründeten Forschungsteams „Superalignment“ (Superalignment). OpenAI sagte, es werde ein Fünftel seiner verfügbaren Rechenleistung für das „Super Alignment“-Projekt verwenden, um zu untersuchen, wie die Sicherheit und Kontrollierbarkeit superkünstlicher Intelligenz gewährleistet werden kann.

OpenAI hat kürzlich ein Forschungspapier veröffentlicht, das die Ergebnisse eines Experiments beschreibt. Das Experiment sollte testen, wie ein schwächeres KI-Modell ein intelligenteres KI-Modell anleiten kann, ohne an Intelligenz zu verlieren. Obwohl die eingesetzte Technologie die menschliche Geschicklichkeit noch nicht übersteigt, ist das Experiment für eine zukünftige Zeit konzipiert, in der Menschen mit künstlichen Intelligenzsystemen arbeiten müssen, die intelligenter sind als sie selbst.

In Experimenten untersuchten OpenAI-Forscher einen Prozess namens Supervision, mit dem Systeme wie GPT-4 optimiert werden, um sie hilfreicher und weniger schädlich zu machen. GPT ist das große Sprachmodell hinter ChatGPT. Derzeit geht es darum, dass Menschen dem KI-System Rückmeldung geben, welche Antworten gut und welche schlecht sind. Mit der Weiterentwicklung der künstlichen Intelligenz erforschen Forscher, wie dieser Prozess automatisiert werden kann, um Zeit zu sparen. Darüber hinaus glauben sie, dass Menschen mit zunehmender KI möglicherweise nicht mehr in der Lage sind, nützliches Feedback zu geben.

In kontrollierten Experimenten verwendeten die Forscher den 2019 erstmals veröffentlichten GPT-2-Textgenerator von OpenAI, um GPT-4 zu unterrichten, und testeten zwei Problemumgehungen. Ein Ansatz besteht darin, größere Modelle schrittweise zu trainieren, um den Leistungsverlust bei jedem Schritt zu reduzieren. Ein weiterer Grund ist eine algorithmische Optimierung von GPT-4, die es stärkeren Modellen ermöglicht, den Anweisungen schwächerer Modelle zu folgen, ohne deren Leistung zu beeinträchtigen. Der zweite Ansatz erwies sich als effektiver, und obwohl die Forscher anerkennen, dass diese Methoden nicht garantieren, dass das stärkere Modell perfekt funktioniert, können sie als Ausgangspunkt für weitere Forschungen dienen.

„Es ist großartig zu sehen, dass OpenAI proaktiv das Problem der Kontrolle von Superintelligenz angeht, eine Herausforderung, die jahrelange harte Arbeit erfordern wird“, sagte Dan Hendryks, Direktor des Center for Artificial Intelligence Safety, einer in San Francisco ansässigen gemeinnützigen Organisation, die sich dem Management der Risiken künstlicher Intelligenz widmet.

Aschenbrenner und zwei weitere Mitglieder des Super Alignment-Teams, Collin Burns und Pavel Izmailov, sagten beide in Interviews, dass sie durch den wichtigen ersten Schritt zur Zähmung potenzieller superkünstlicher Intelligenz ermutigt seien. Izmailov führte eine Analogie an: „Es ist wie bei einem Sechstklässler, auch wenn er weniger Mathematik weiß als ein Student im Hauptfach Mathematik, ist er dennoch in der Lage, den Studenten mitzuteilen, was sie erreichen wollen, und das ist es, was wir erreichen wollen.“

Das Super Alignment-Team wird gemeinsam von Ilya Sutskever, dem Chefwissenschaftler und Mitbegründer von OpenAI, geleitet. Sultzkefer war eines der ursprünglichen Vorstandsmitglieder, die letzten Monat für die Entlassung von CEO Sam Altman gestimmt hatten. Später machte er jedoch seine Entscheidung rückgängig und drohte mit seinem Rücktritt, falls Altman nicht wieder eingestellt würde. Sutskefer ist Co-Autor des neuesten Artikels, aber OpenAI lehnte es ab, ihn zur Diskussion des Projekts zu bewegen.

Letzten Monat hat Altman eine Einigung mit OpenAI erzielt, die meisten Vorstandsmitglieder sind zurückgetreten und auch Sultzkefers Zukunft bei OpenAI ist voller Unsicherheit. Dennoch sagte Aschenbrenner: „Wir sind Sutzkefer sehr dankbar, der die treibende Kraft hinter diesem Projekt war.“

Auf dem Gebiet der künstlichen Intelligenz sind die Forscher von OpenAI nicht die erste Gruppe, die versucht, mithilfe bestehender Technologie zu testen, was dazu beitragen könnte, zukünftige Systeme der künstlichen Intelligenz zu zähmen. Wie bei früheren Studien in Unternehmens- und akademischen Labors können wir jedoch nicht sicher sein, dass Ideen, die in gut konzipierten Experimenten funktionieren, in Zukunft praktisch sein werden. Die Forscher werden ein schwächeres KI-Modell ein stärkeres KI-Modell trainieren lassen, eine Fähigkeit, die sie als „eine Schlüsselkomponente bei der Lösung des umfassenderen ‚Super-Alignment‘-Problems“ bezeichnen.

Dieses KI-Ausrichtungsexperiment wirft auch eine zentrale Frage auf: Wie vertrauenswürdig kann das Steuerungssystem sein? Der Kern der neuen Technologie von OpenAI ist die Idee, dass ein leistungsfähigeres KI-System selbst entscheiden kann, welche Anweisungen eines schwächeren Systems es ignorieren kann. Diese Entscheidung könnte dazu führen, dass es wichtige Informationen ignoriert, die es möglicherweise daran hindern, in Zukunft unsicher zu handeln. Damit ein solches System wirksam ist, müssen Fortschritte bei der Gewährleistung der Konsistenz erzielt werden. „Letztendlich braucht man ein hohes Maß an Vertrauen“, betonte Burns.

Stuart Russell, Professor an der University of California in Berkeley, der sich mit KI-Sicherheit befasst, sagte, die Idee, leistungsschwächere KI-Modelle zur Steuerung leistungsstärkerer Modelle zu verwenden, gebe es schon seit einiger Zeit. Er weist aber auch darauf hin, dass bislang unklar sei, ob die Methoden zur Vermittlung von KI-Verhalten realisierbar seien, da sie aktuelle Modelle noch nicht zuverlässig laufen ließen.

Während OpenAI seine ersten Schritte zur Steuerung fortschrittlicherer künstlicher Intelligenz unternimmt, ist das Unternehmen auf externe Hilfe angewiesen. OpenAI gab bekannt, dass es externen Forschern in Zusammenarbeit mit dem ehemaligen Google-CEO Eric Schmidt Zuschüsse in Höhe von 10 Millionen US-Dollar gewähren wird, um Fortschritte in Bereichen wie schwacher bis starker Regulierung, Interpretierbarkeit fortgeschrittener Modelle und Stärkung von Modellen mit Aufforderungen zur Überwindung von Beschränkungen zu fördern. Forscher, die an der Erstellung des neuen Papiers beteiligt waren, sagten, dass OpenAI nächstes Jahr auch eine Konferenz zum Thema „Super-Alignment“ abhalten wird.

Als Mitbegründer von OpenAI und Co-Leiter des Hyper-Alignment-Teams leitet er viele der wichtigsten technischen Bemühungen des Unternehmens. Gleichzeitig ist er einer der führenden Experten, der sich zunehmend Gedanken darüber macht, wie künstliche Intelligenz kontrolliert werden kann, wenn sie immer leistungsfähiger wird. Seit Anfang dieses Jahres hat die Frage, wie zukünftige Technologien der künstlichen Intelligenz gesteuert werden können, neue Aufmerksamkeit erlangt, was vor allem auf den Einfluss von ChatGPT zurückzuführen ist. Sulzkefer promovierte unter der Leitung des Pioniers der tiefen neuronalen Netze, Geoffrey Hinton. Letzterer verließ Google im Mai dieses Jahres aufgrund von Warnungen, dass künstliche Intelligenz bei einigen Aufgaben offenbar das menschliche Niveau erreicht. (wenig)