Der frühere Windows-Kernentwickler Dave Plummer führte das Transformer-Modell erfolgreich auf einem 47 Jahre alten PDP-11/44-Computer aus und absolvierte das KI-Training mit einer 6-MHz-CPU und 64 KB Speicher.Das von diesem PDP-11 ausgeführte Modell heißt ATTN-11 und wurde von Damien Boureille in der PDP-11-Assemblersprache geschrieben, um einen einschichtigen Transformator mit einem Kopf zu implementieren, der nur 1216 Parameter enthält.

Die Aufgabe des Modells scheint einfach zu sein: Geben Sie eine Zahlenfolge ein und geben Sie das umgekehrte Ergebnis aus.Um diese Aufgabe zu erfüllen, muss das Modell jedoch selbstständig die Strukturregeln der Sequenzumkehr erlernen. Plummer glaubt, dass dies genau die Funktionsweise moderner großer Modelle wie ChatGPT einfängt.

Um auf extrem begrenzter Hardware laufen zu können, hat ATTN-11 viele extreme Optimierungen vorgenommen. Die Vorwärtsausbreitungsgenauigkeit wird auf 8-Bit-Festkommazahlen reduziert und jeder CPU-Zyklus wird optimiert.

Schließlich benutzte Plummer dazu ein Cache-BoardNach etwa 350 Trainingsschritten erreichte das Modell eine Genauigkeit von 100 % und der gesamte Vorgang dauerte etwa 3,5 Minuten.

Plummer beschreibt den Trainingsprozess im Video:„Das Modell beginnt dumm, mit hohen Verlusten, und irgendwann beginnen die Gewichte zu konvergieren, der Aufmerksamkeitsmechanismus entdeckt die Inversionszuordnung und die Maschine überschreitet die unsichtbare Grenze vom Raten zum Wissen.“

Sein Kernpunkt ist, dass das Wesen moderner KI nicht irgendeine mysteriöse Kraft ist, sondern „die Maschine aktualisiert wiederholt die Stärke Tausender gewichteter Verbindungen, sodass die nächste Antwort etwas weniger falsch ist als beim letzten Mal.“

Plummer wies abschließend darauf hin, dass Unternehmen, die sich wieder dem ultimativen Streben nach Effizienz und Optimierung widmen können, im zukünftigen KI-Wettbewerb einen größeren Vorteil haben werden, da Rechenressourcen zunehmend zum Engpass werden.