Am Abend des 16. März äußerte sich Tesla-CEO Musk öffentlich auf sozialen Plattformen, lobte die neuesten technologischen Errungenschaften des Teams des chinesischen Unternehmens für künstliche Intelligenz Kimi, sagte, die Arbeit sei „beeindruckend“ und rückte die Spitzenforschung dieses im Inland produzierten Großmodells in die Öffentlichkeit.

Da die Fachbeiträge gleichzeitig veröffentlicht wurden, erregte Guangyu Chen, der in der Autorenliste an erster Stelle stand, die Aufmerksamkeit des gesamten Internets – der Hauptautor war tatsächlich ein 17-jähriger Oberstufenschüler aus Shenzhen, Guangdong.

Gemäß den im Anhang des Papiers vermerkten Informationen sind Chen Guangyu, Zhang Yu und Su Jianlin alle Co-Erstautoren mit gleichen Beiträgen, und die verbleibenden 34 teilnehmenden Autoren haben diese Qualifikation nicht markiert.

Unter ihnen ist Zhang Yu der Hauptentwickler der effizienten Modellarchitektur von Kimi und Su Jianlin ist der Antragsteller der Rotationspositionskodierung (RoPE).

Erwähnenswert ist, dass Chen Guangyu sich erst seit einem Jahr intensiv mit dem Bereich KI beschäftigt. In der Anfangsphase vervollständigte er schnell die Grundkenntnisse und praktischen Fähigkeiten der KI, indem er selbständig aktuelle Arbeiten studierte und GitHub-Open-Source-Projekte verfolgte.

Letzten Sommer ging er nach San Francisco, um ein siebenwöchiges Praktikum zu absolvieren. Nach seiner Rückkehr nach China schloss er sich im November letzten Jahres dem Kimi-Team an, um am Praktikum teilzunehmen.

Nach der Veröffentlichung des Papiers postete Chen Guangyu in seinem Freundeskreis einen Rückblick auf die Ergebnisse und erwähnte dabei insbesondere die drei Autoren, die zu gleichen Teilen beigetragen haben, sowie die Teamkollegen, die für die Modellerweiterung und den Infrastrukturbau verantwortlich sind. Er antwortete zurückhaltend: „Es ist eine Teamleistung, kein Gott.“

Berichten zufolge schlägt dieser vom Kimi-Team veröffentlichte technische Bericht einen neuen Aufmerksamkeitsrestmechanismus vor, um eine disruptive Rekonstruktion der traditionellen Restverbindung zu erreichen, die seit fast zehn Jahren im Bereich Deep Learning verwendet wird.

Kimis Innovation entspricht der Installation eines „intelligenten Filters“ auf der KI, der den Aufmerksamkeitsmechanismus des Transformers in die Tiefendimension des Modells migriert und es jeder Schicht ermöglicht, zuvor nützliche Informationen dynamisch zu filtern, Redundanz zu reduzieren und die Übertragungseffizienz zu verbessern.