NVIDIA führt eine KI-autonome „Coaching“-Lösung ein, um Roboter darin zu trainieren, GPUs zu installieren und Kabelbinder im Labor zu durchtrennen

Am 17. Juni, Ortszeit in den Vereinigten Staaten, kündigte NVIDIAs General Embodied Agent Research Laboratory (GEAR Lab) einen neuen Plan zur Selbstverbesserung von Robotern an: Durch ein „Coaching-Team“ bestehend aus KI-Programmierern wird ein Trainingsprozess für den Roboterarm nahezu ohne menschliches Eingreifen entwickelt, sodass der Roboter lernen kann, Plastikbinder zu durchtrennen, kleine Teile zu organisieren und sogar die GPU präzise in den Motherboard-Erweiterungssteckplatz einzusetzen.

Diese Lösung basiert auf einem „Agenten-Geschirr“ namens ENPIRE – es ist wie eine Software-Hülle, die um das große Modell gewickelt ist und es KI-Programmieragenten ermöglicht, verschiedene Tools aufzurufen und über die Fähigkeiten von Speicher, Kontextmanagement, Einschränkungskontrolle und Rückkopplungsschleifen zu verfügen, um Robotertrainingsaufgaben automatisch zu planen, auszuführen, auszuwerten und zu iterieren. Nvidia sagte, das Framework sei vom GEAR Lab-Team in Zusammenarbeit mit Forschern der Carnegie Mellon University und der University of California, Berkeley, entwickelt worden.

Jim Fan, Leiter von NVIDIA AI, beschrieb auf sozialen Plattformen, dass sich ein Teil des Labors nun nachts „selbst verbessern“ kann und Forscher morgens nur den Trainingsbericht überprüfen müssen, um den Fortschritt des Roboters in der Nacht zuvor zu verstehen. Er sagte halb im Scherz, dass in einer idealen Welt „jeder in den Urlaub fahren würde und Huang Renxun es nicht erfahren würde“, und dass das Team plant, die relevanten Ergebnisse als Open Source bereitzustellen, damit jeder zu Hause sein eigenes „selbstlaufendes Roboterlabor“ bauen kann.

Das ENPIRE-Framework umfasst derzeit vier Kernmodule: Erstens bietet es einen automatischen Reset und eine Ergebnisüberprüfung für Roboteraufgaben; Zweitens optimiert es automatisch die Steuerungsstrategien des Roboters. Drittens werden verschiedene Strategien parallel an mehreren physischen Robotern bewertet. Viertens behandelt es Fehlerfälle im Training, indem es Protokolle analysiert, Papiere liest und die Trainingsinfrastruktur und Algorithmuscodes verbessert. Das Forschungsteam veröffentlichte am 16. Juni ein technisches Papier, in dem die Implementierungsdetails und experimentellen Ergebnisse des Systems detailliert beschrieben werden.

In dem Experiment führten die Forscher drei Arten gängiger KI-Programmierungsagenten ein: Agenten basierend auf OpenAI Codex und GPT-5.5, Agenten basierend auf Anthropic Claude Code Opus 4.7 und Agenten basierend auf Dark Side of the Moon (Moonshot AI) Kimi Code K2.6. Diese Agenten schlagen unabhängig voneinander als Team verschiedene Pläne zur Verbesserung des Algorithmus vor, führen Trainingsexperimente an echten Robotern durch und behalten dann Änderungen bei, die die Gesamterfolgsrate verbessern können, und iterieren weiter.

Die Ergebnisse zeigen, dass KI-Programmierer unter der Planung von ENPIRE automatisch effektive Selbstverbesserungsstrategien für eine Vielzahl von Roboterarm-Bedienaufgaben entwerfen können: Bei der Standard-Push-T-Desktop-Bedienaufgabe muss der Roboter T-förmige Bausteine präzise in den Zielbereich schieben; Bei anderen Aufgaben muss der Roboter kleine Nadeln in der Nadelbox organisieren, Plastikbänder binden und durchtrennen oder die GPU in den Motherboard-Steckplatz einsetzen und nach jeder Testrunde herausziehen, um sie zurückzusetzen. Bei mehreren Aufgaben erreichte das System letztendlich eine Erfolgsquote von 99 %, wobei das KI-gesteuerte Trainingsprogramm sogar noch schneller eine Erfolgsquote von fast 100 % erreichte als der „moderne menschliche partizipatorische Ansatz“, bei dem Menschen an Stifteinsteck- und Sortieraufgaben beteiligt waren.

Experimente zeigen auch, dass eine Erhöhung der Anzahl der Agenten den Lernprozess erheblich beschleunigen kann: Bei der Push-T-Aufgabe steigerte ein Team aus 8 Agenten die Erfolgsquote in nur 2 Stunden Recherchezeit auf 99 %, während ein Team aus 4 Agenten 3 Stunden und ein einzelner Agent fast 5 Stunden benötigte, um das gleiche Niveau zu erreichen. Allerdings stellten die Forscher auch fest, dass sich die Effizienz der Zusammenarbeit mehrerer Agenten nicht linear verbessert. Wenn die Anzahl der Agenten zunimmt, wird mehr Zeit damit verbracht, zusammenzufassen und miteinander zu kommunizieren, anstatt Roboter tatsächlich für die Durchführung von Schulungen einzuplanen.

Das Forschungsteam wies auch auf mehrere Einschränkungen des aktuellen Systems hin: Über viele Zeiträume verharrt der Roboter im Leerlauf auf dem Versuchsstand und wartet darauf, dass der KI-Programmierungsagent Protokolle liest, Code schreibt und debuggt oder auf die Antwort des zugrunde liegenden Sprachmodells wartet. Darüber hinaus nutzen Agenten beim parallelen Training manchmal die vorhandenen Rechenressourcen nicht vollständig aus, was dazu führt, dass der experimentelle Durchsatz unter der theoretischen Obergrenze liegt. Aus Kostensicht bedeutet die Erhöhung der Anzahl der Agenten und der Schulungshäufigkeit auch einen deutlich höheren Token-Verbrauch, der direkt damit zusammenhängt, dass viele KI-Dienstleister derzeit darüber nachdenken, die tokenbasierte Abrechnungsmethode zu erhöhen.

Obwohl es immer noch Defizite gibt, steigert Nvidia deutlich seine Ambitionen für das, was es „physische KI“ nennt. Mit dem reichlichen Cashflow, den die KI-Welle mit sich bringt, investiert das Unternehmen weiterhin in mehrere Roboterprojekte: Ende Mai dieses Jahres kündigte NVIDIA an, mit Unitree, einem Konkurrenten des chinesischen Roboterunternehmens Unitree, zusammenzuarbeiten, um Forschungseinrichtungen eine „universelle Referenzplattform für humanoide Roboter“ für die Forschung und Entwicklung allgemeiner KI-Roboter zur Verfügung zu stellen. Anfang Juni dieses Jahres stattete Huang Renxun Südkorea einen intensiven Besuch ab und traf sich mit dem Vorstandsvorsitzenden der Hyundai Motor Group, Chung Eui-sun, um zu besprechen, wie die Massenproduktion von KI-Robotern ausgeweitet werden kann. Hyundai hat zuvor Boston Dynamics übernommen, ein amerikanisches Unternehmen, das für seinen vierbeinigen „Roboterhund“ Spot bekannt ist, und treibt die Kommerzialisierung des zweibeinigen humanoiden Roboters Atlas voran.

Auf diesem Weg gelten ENPIRE und das dahinter stehende Team von KI-Programmierern als Schlüsselkomponenten auf dem Weg zum „selbstfahrenden Roboterlabor“. Sie versuchen, einen Großteil der Arbeit menschlicher Experten in den Bereichen Versuch und Irrtum, Parameteranpassung und Literaturlesen an die KI zu übergeben, sodass Forscher eher die Rolle eines „täglichen Morgenrückblicks“ übernehmen können. Mit der Open Source relevanter Codes und Frameworks wird die Frage, ob ähnliche autonome Trainingssysteme in Zukunft bei Universitäten, Unternehmen und sogar einzelnen Enthusiasten populär werden, zu einem wichtigen Fenster, um die Geschwindigkeit der Implementierung von „Physics AI“ zu beobachten.