2024 wird ein großes Jahr an der Schnittstelle zwischen generativer KI/großen Basismodellen und Robotik sein. Vom Lernen bis zum Produktdesign ist das Anwendungspotenzial spannend. Die DeepMind-Robotikforscher von Google sind eines von vielen Teams, die das Potenzial dieses Bereichs erforschen. In einem heutigen Blogbeitrag beleuchtet das Team die laufende Forschung, die darauf abzielt, Robotern ein besseres Verständnis dafür zu vermitteln, was wir Menschen von ihnen erwarten.

Traditionell konzentriert sich das Leben eines Roboters auf die wiederholte Ausführung einer einzelnen Aufgabe. Einzweck-Bots sind in dieser einen Sache in der Regel sehr gut, aber selbst dann können sie Schwierigkeiten haben, wenn unbeabsichtigte Änderungen oder Fehler auftreten.

Das neu veröffentlichte AutoRT ist darauf ausgelegt, große Basismodelle für verschiedene Zwecke zu nutzen. In einem Standardbeispiel des DeepMind-Teams nutzt das System zunächst ein visuelles Sprachmodell (VLM), um das Situationsbewusstsein zu verbessern. AutoRT verwaltet eine Flotte von Robotern, die zusammenarbeiten und mit Kameras ausgestattet sind, um den Aufbau der Umgebung und der darin befindlichen Objekte zu erfassen.

Gleichzeitig können große Sprachmodelle auch Aufgaben vorschlagen, die von Hardware, einschließlich Terminal-Executoren, ausgeführt werden können. Viele glauben, dass Sprachmodelle der Schlüssel zur Erschließung der Robotik sind, da sie es ihnen ermöglichen, Anweisungen in natürlicher Sprache effektiver zu verstehen und den Bedarf an fest codierten Fähigkeiten zu verringern.

Das System wurde in den letzten mehr als sieben Monaten umfangreichen Tests unterzogen. AutoRT ist in der Lage, bis zu 20 Roboter und 52 verschiedene Geräte gleichzeitig zu koordinieren. Insgesamt hat DeepMind rund 77.000 Tests gesammelt, darunter mehr als 6.000 Aufgaben.

Ebenfalls neu im Team ist RT-Trajectory, das Videoeingaben zum Lernen von Robotern nutzt. Viele Teams erforschen die Verwendung von YouTube-Videos als Möglichkeit, Roboter in großem Maßstab zu trainieren, aber RT-Trajectory fügt eine interessante Ebene hinzu, indem es 2D-Skizzen von Armbewegungen über die Videos legt.

„Diese Flugbahnen in Form von RGB-Bildern liefern dem Modell praktische visuelle Hinweise auf niedriger Ebene, während es Robotersteuerungsstrategien lernt“, bemerkte das Team.

Laut DeepMind war die Erfolgsquote dieses Trainings bei Tests an 41 Aufgaben mit 63 % bzw. 29 % doppelt so hoch wie die des RT-2-Trainings.

„RT-Trajectory nutzt die reichhaltige Fülle an Roboterbewegungsinformationen, die in allen Roboterdatensätzen vorhanden sind, aber derzeit nicht ausreichend genutzt werden“, stellte das Team fest. „RT-Trajectory stellt nicht nur einen weiteren Schritt auf dem Weg zum Bau von Robotern dar, die sich in neuen Situationen effizient und präzise bewegen können, sondern erschließt auch Wissen aus vorhandenen Datensätzen.“