Im Jahr 2024 wird neben dem anhaltenden Aufschwung großer Modelle auch die Entwicklung von Robotern ihren Höhepunkt erreichen. „Multimodales LLM mit Roboterarmen als physischen Eingabe-/Ausgabegeräten, Algorithmen zur Überbrückung der Lücke zwischen System1 und System2 …“ Die Robotertechnologie wird sich im Jahr 2024 rasant weiterentwickeln.
Ende letzten Jahres twitterte Jim Fan, Nvidias „Internet-Promi-Forscher“ und erster Praktikant von OpenAI, dass neben großen Modellen im Jahr 2024 vor allem Roboter im Vordergrund stehen. Wir sind noch etwa drei Jahre vom ChatGPT-Moment der „verkörperten Intelligenz“ entfernt.
Jim wies darauf hin, dass die Menschen seit langem mit dem „Moravec-Paradoxon“ (Moravecs Paradoxon) beunruhigt sind, einem Phänomen, das für Menschen kontraintuitiv ist, das heißt: „Aufgaben, die Menschen leicht finden, sind für künstliche Intelligenz äußerst schwierig und umgekehrt.“
Jim geht jedoch optimistisch davon aus, dass 2024 das erste Jahr sein wird, in dem die Community der künstlichen Intelligenz aufsteht, um diesem Paradox entgegenzuwirken. Jim sagte: „Wir werden nicht sofort gewinnen, aber wir werden auf dem Weg zum Sieg sein.“
Gleichzeitig listete Jim die Entwicklung grundlegender Modelle und Plattformen für zukünftige Roboter im Jahr 2023 auf:
1. Multimodales LLM mit Roboterarmen als physische Eingabe-/Ausgabegeräte: VIMA, PerAct, RvT (NVIDIA), RT-1, RT-2, PaLM-E (Google), RoboCat (DeepMind), Octo (Berkeley, Stanford, CMU) usw.
2. Algorithmen, die die Lücke zwischen System1 (zuständig für die Steuerung auf niedriger Ebene) und System2 (zuständig für das Denken auf hoher Ebene) schließen (und es dem System ermöglichen, Entscheidungen auf hoher Ebene zu nutzen, um Entscheidungen zu treffen und diese Entscheidungen zu verstehen und in tatsächliche Abläufe und Kontrolle umzuwandeln): Eureka (NVIDIA), CodeasPolicies (Google) usw.
3. Erstaunliche Fortschritte bei leistungsstarker Hardware: Tesla Optimus Prime, Figure, 1X, Apptronik, Sanctuary, Agility+Amazon, Unitree usw.
4. Daten waren schon immer die Achillesferse der Robotik. Die Forschungsgemeinschaft plant gemeinsam das nächste ImageNet (ein Schlüsselprojekt für Durchbrüche im Deep Learning mit künstlicher Intelligenz), beispielsweise die Eröffnung des OpenX-Embodiment (RT-X)-Datensatzes. Obwohl der Datensatz noch nicht vielfältig genug ist, ist er ein wichtiger Schritt nach vorne.
5. Simulation und synthetische Daten werden eine Schlüsselrolle bei der Lösung von Robotergeschicklichkeitsproblemen und sogar Computer-Vision-Problemen im Allgemeinen spielen.
(1) NVIDIA Isaac kann die Realität 1.000-mal schneller als in Echtzeit simulieren, und der eingehende Datenstrom wird mit zunehmendem Rechenumfang größer;
(2) Durch hardwarebeschleunigtes Raytracing können realistische Effekte erzielt werden. Zu fotorealistischen Renderings gehören außerdem kostenlose Ground-Truth-Anmerkungen wie Segmentierung, Tiefe, 3D-Pose und mehr.
(3) Der Simulator kann sogar reale Daten erweitern, um größere Datensätze zu erstellen, wodurch teure manuelle Demonstrationsarbeiten erheblich reduziert werden. MimicGen (NVIDIA) ist ein typisches Beispiel.