Gibt es einen Stanford-Roboter mit „lebenden Augen“? Dutzende All-Inclusive-Hausarbeiten kosten nur etwa 30.000 US-Dollar

Nachdem er seine Kochkünste unter Beweis gestellt hatte, veröffentlichte der vom chinesischen Stanford-Team entwickelte Roboter heute Morgen früh in Peking ein neues Video mit dem Titel „Ein Tag im Leben von Mobile ALOHA“, in dem Dutzende Hausarbeitsfähigkeiten gezeigt werden, darunter Blumen gießen, das Zimmer aufräumen, Kaffee kochen, den Besitzer rasieren, Geschirr spülen, mit Katzen spielen, Müll wegwerfen, Kleidung waschen, Bettbezüge wechseln und Kleidung aufbewahren. Man kann sie als „Allround-Haushälterin“ bezeichnen.

Netizens kommentierten: „Das Seltenste ist, dass Leben in den Augen ist.“

Das „Moravec-Paradoxon“, ein kontraintuitives Phänomen, beunruhigt die Menschen seit langem: „Aufgaben, die Menschen leicht finden, sind für künstliche Intelligenz extrem schwierig und umgekehrt.“

Mit anderen Worten: Ein Roboter, der Hausarbeit erledigen kann, ist sehr selten.

Aber sei nicht zu glücklich. Obwohl MobileALOHA über „lebende Augen“ verfügt, werden seine Bewegungen immer noch von Menschen gesteuert (siehe Bild unten) und es handelt sich nicht um einen vollständig intelligenten autonomen Betrieb.

Einer der Teamleiter sagte, dass die menschliche Kontrolle nur vorübergehend sei und sie bereits untersuchen, wie die Lücke zwischen menschlicher Kontrolle und Roboter-Selbstkontrolle geschlossen werden könne. Tony Z. Zhao, ein weiterer Leiter des Teams, sagte optimistisch: „2024 wird das Jahr des Roboters sein, und dieser (Haushaltsroboter) ist erst der Anfang!“

Die größere Bedeutung von MobileALOHA besteht darin, dass seine Bewegungssteuerungsfähigkeiten leistungsfähiger sind als vergleichbare Systeme, die fünf- bis zehnmal teurer sind, was die Machbarkeit universeller Roboter demonstriert. Ein günstiger und einfach zu bedienender Heimroboter könnte bald auf den Markt kommen.

ALOHA, Alow-cost Open-Source Hardware System for Bimanual Teleoperation, ist ein kostengünstiges Open-Source-Hardwaresystem für die Zweihand-Fernbedienung, also einen Open-Source-Roboterarm. Sein Algorithmus ActionChunkingwithTransformers (ACT) verwendet das neuronale Netzwerkmodell Transformers und verfügt daher über Nachahmungslernfähigkeiten. In nur 15 Minuten Demonstration kann der Roboterarm eine Aktion erlernen – indem er ein durchgängiges Imitationslernen direkt aus realen Demonstrationen durchführt und über eine benutzerdefinierte Fernbedienungsschnittstelle erfasst.

Laut dem oben genannten chinesischen Team kann MobileALOHA verschiedene komplexe Aufgaben mit nur 50 Demonstrationen erledigen. Die Kosten betragen nur 32.000 US-Dollar (ca. 220.000 Yuan) und die Software und Hardware sind alle Open Source.

Das Team stellte die Hardwarekonfiguration von MobileALOHA in dem Artikel ausführlich vor – die teuersten sind der Roboterarm und die mobile Basis, wobei die mobile Basis unter ähnlichen Produkten relativ günstig ist; Der Sensor ist mit 2 Handgelenkkameras und 1 Oberkamera ausgestattet; ausgestattet mit Bordnetz und Berechnungen, d.h. 1,26 kWh Batterie mit einem Gewicht von 14 kg. Alle Berechnungen während der Datenerfassung und Schlussfolgerung wurden auf einem Consumer-Laptop mit einer Nvidia 3070ti-GPU (8 GB VRAM) und Intel i7-12800H durchgeführt.

Hochwertige Teile in der Stückliste

Jim Fan, ein „Internet-Promi-Forscher“ bei Nvidia und erster Praktikant bei OpenAI, hatte zuvor optimistisch vorhergesagt, dass 2024 das erste Jahr sein wird, in dem die Community der künstlichen Intelligenz voll auf die Beine kommt, um Moravecs Paradoxon entgegenzuwirken. „Wir werden nicht sofort gewinnen, aber wir werden auf Siegeskurs sein.“

Dies ist nicht nur ein Moment der Aufregung. Verschiedene Entwicklungen in der Branche zeichnen sich in einem endlosen Strom ab. Jim listete die Entwicklung grundlegender Modelle und Plattformen für zukünftige Roboter im Jahr 2023 auf:

1. Große multimodale Modelle, die Roboterarme als physische Eingabe-/Ausgabegeräte verwenden: VIMA, PerAct, RvT (NVIDIA), RT-1, RT-2, PaLM-E (Google), RoboCat (DeepMind), Octo (Berkeley, Stanford, CMU) usw.;

2. Algorithmen, die die Lücke zwischen System1 (zuständig für die Steuerung auf niedriger Ebene) und System2 (zuständig für das Denken auf hoher Ebene) schließen (und es dem System ermöglichen, Entscheidungen auf hoher Ebene zu nutzen, um Entscheidungen zu treffen und diese Entscheidungen zu verstehen und in tatsächliche Abläufe und Kontrolle umzuwandeln): Eureka (NVIDIA), CodeasPolicies (Google) usw.;

3. Erstaunliche Fortschritte bei leistungsstarker Hardware: Tesla Optimus Prime, Figure, 1X, Apptronik, Sanctuary, Agility+Amazon, Unitree usw.;

4. Daten waren schon immer die Achillesferse der Robotik. Die Forschungsgemeinschaft plant gemeinsam das nächste ImageNet (ein Schlüsselprojekt für Durchbrüche im Deep Learning mit künstlicher Intelligenz), beispielsweise die Öffnung des OpenX-Embodiment (RT-X)-Datensatzes. Obwohl der Datensatz noch nicht vielfältig genug ist, handelt es sich um einen wichtigen Schritt;

5. Simulation und synthetische Daten werden eine Schlüsselrolle bei der Lösung von Robotergeschicklichkeits- und sogar Computer-Vision-Problemen insgesamt spielen;

Der Grundstein wird Schritt für Schritt gelegt. Zu Beginn des Jahres 2024 können wir uns auf das atemberaubende Debüt leistungsstärkerer Roboter freuen.