Forscher am MIT und am MIT-IBM Watson Artificial Intelligence Laboratory haben EfficientViT vorgestellt, ein Computer-Vision-Modell, das die semantische Segmentierung hochauflösender Bilder in Echtzeit beschleunigt und für Geräte mit begrenzter Hardware, wie etwa selbstfahrende Autos, optimiert ist.

Selbstfahrende Autos müssen Objekte, auf die sie stoßen, schnell und genau identifizieren, vom leerstehenden Lieferwagen, der an einer Straßenecke parkt, bis zum Radfahrer, der auf eine Kreuzung zurast.

Modelle des maschinellen Lernens für hochauflösende Computer Vision können rechenintensive Bildverarbeitungsanwendungen wie autonomes Fahren oder medizinische Bildsegmentierung auf Edge-Geräten ermöglichen. Das Bild zeigt eine künstlerische Interpretation der autonomen Fahrtechnologie. Bildquelle: MIT News

Zu diesem Zweck können selbstfahrende Autos leistungsstarke Computer-Vision-Modelle verwenden, um jedes Pixel in einem hochauflösenden Bild einer Szene zu klassifizieren, sodass Objekte, die in Bildern mit geringerer Qualität möglicherweise verdeckt sind, nicht ignoriert werden. Diese als semantische Segmentierung bezeichnete Aufgabe ist jedoch komplex und erfordert viele Berechnungen bei hohen Bildauflösungen.

Forscher des MIT, des MIT-IBM Watson Artificial Intelligence Laboratory und anderer Institutionen haben ein effizienteres Computer-Vision-Modell entwickelt, das die Rechenkomplexität dieser Aufgabe erheblich reduziert. Ihr Modell kann eine semantische Segmentierung in Echtzeit auf Geräten mit begrenzten Hardware-Ressourcen genau durchführen, beispielsweise auf Bordcomputern, die es selbstfahrenden Autos ermöglichen, Entscheidungen in Sekundenbruchteilen zu treffen.

Optimieren Sie die Echtzeitverarbeitung

Aktuelle hochmoderne semantische Segmentierungsmodelle lernen direkt die Interaktionen zwischen jedem Pixelpaar in einem Bild, sodass sich ihr Rechenaufwand mit der Bildauflösung vervierfacht. Aus diesem Grund sind diese Modelle zwar genau, aber zu langsam, um hochauflösende Bilder in Echtzeit auf Sensoren oder Edge-Geräten wie Mobiltelefonen zu verarbeiten.

MIT-Forscher haben einen neuen Baustein für semantische Segmentierungsmodelle entwickelt, der die gleichen Fähigkeiten wie diese hochmodernen Modelle erreicht, jedoch nur eine lineare Rechenkomplexität aufweist und mit Hardware-Effizienz arbeitet.

Das Ergebnis ist eine neue Familie von Modellen für hochauflösendes Computer Vision, die beim Einsatz auf mobilen Geräten bis zu neunmal schneller arbeiten als frühere Modelle. Wichtig ist, dass diese neue Modellfamilie eine gleiche oder höhere Genauigkeit aufweist als diese alternativen Modelle.


EfficientViT ermöglicht selbstfahrenden Autos die effiziente Durchführung semantischer Segmentierung, einer hochauflösenden Computer-Vision-Aufgabe, bei der jedes Pixel in einer Szene klassifiziert wird, damit das Auto Objekte genau identifizieren kann. Abgebildet ist ein Foto aus dem Demovideo, das die verschiedenen Farben zeigt, die zur Objektklassifizierung verwendet werden. Bild von Forschern bereitgestellt

Ein genauerer Blick auf Lösungen

Diese Technologie wird nicht nur selbstfahrenden Autos dabei helfen, Entscheidungen in Echtzeit zu treffen, sondern auch die Effizienz anderer hochauflösender Computer-Vision-Aufgaben verbessern, beispielsweise der Segmentierung medizinischer Bilder.

„Während Forscher schon seit langem traditionelle Vision-Transformatoren verwenden und beeindruckende Ergebnisse erzielt haben, hoffen wir, dass sich die Menschen auch auf die Effizienzaspekte dieser Modelle konzentrieren. Unsere Arbeit zeigt, dass es möglich ist, die Rechenlast deutlich zu reduzieren, sodass eine Bildsegmentierung in Echtzeit lokal auf dem Gerät durchgeführt werden kann.“ sagte Han Song, außerordentlicher Professor am Department of Electrical Engineering and Computer Science (EECS), Mitglied des MIT-IBM Watson AI Lab und leitender Autor des Artikels, der das neue Modell beschreibt.

Mit ihm schreiben auch Cai Han, ein Doktorand am Fachbereich Elektrotechnik und Informatik, der Erstautor des Papiers, Li Junyan, ein Bachelor-Student an der Zhejiang-Universität, Hu Muyan, ein Bachelor-Student an der Tsinghua-Universität, und Gan Chuang, ein leitender Forscher am MIT-IBM Watson Artificial Intelligence Laboratory. Die Forschung wird auf der International Conference on Computer Vision vorgestellt.

Vereinfachte Lösung

Die Klassifizierung jedes Pixels in einem hochauflösenden Bild, das Millionen von Pixeln enthalten kann, ist für Modelle des maschinellen Lernens eine schwierige Aufgabe. Kürzlich wurde ein leistungsstarkes neues Modell namens Visual Converter effektiv eingesetzt.

Transformer wurden ursprünglich für die Verarbeitung natürlicher Sprache entwickelt. In diesem Fall kodieren sie jedes Wort im Satz als Token und erstellen dann eine Aufmerksamkeitskarte, die die Beziehung zwischen jedem Token und allen anderen Token erfasst. Diese Aufmerksamkeitskarte hilft, den Kontext zu verstehen, wenn das Modell Vorhersagen trifft.

Nach dem gleichen Konzept teilt der visuelle Transformator das Bild in Pixelfelder auf, kodiert jedes Feld in eine Beschriftung und generiert dann eine Aufmerksamkeitskarte. Beim Generieren dieser Aufmerksamkeitskarte lernt das Modell mithilfe einer Ähnlichkeitsfunktion direkt die Interaktionen zwischen den einzelnen Pixelpaaren. Auf diese Weise bildet das Modell ein sogenanntes globales rezeptives Feld, das heißt, es hat Zugriff auf alle relevanten Teile des Bildes.

Da hochauflösende Bilder Millionen von Pixeln enthalten und in Tausende von Segmenten unterteilt sein können, können Aufmerksamkeitsdiagramme schnell sehr groß werden. Daher erhöht sich der Rechenaufwand mit zunehmender Bildauflösung um das Vierfache.

In einer neuen Modellfamilie namens EfficientViT haben MIT-Forscher einen einfacheren Mechanismus zum Erstellen von Aufmerksamkeitskarten übernommen und nichtlineare Ähnlichkeitsfunktionen durch lineare Ähnlichkeitsfunktionen ersetzt. Daher können sie die Reihenfolge der Operationen neu anordnen und den gesamten Rechenaufwand reduzieren, ohne die Funktionalität zu ändern und das globale Empfangsfeld zu verlieren. In ihrem Modell wächst der Rechenaufwand für die Vorhersage linear mit der Bildauflösung.

„Aber es gibt kein kostenloses Mittagessen. Lineare Aufmerksamkeit kann nur den globalen Hintergrund des Bildes erfassen und geht dabei lokale Informationen verloren, wodurch die Genauigkeit schlechter wird“, sagte Han. Um den Genauigkeitsverlust auszugleichen, fügten die Forscher dem Modell zwei zusätzliche Elemente hinzu, die jeweils nur einen geringen Rechenaufwand erforderten.

Eine der Komponenten kann dem Modell helfen, die Interaktion lokaler Merkmale zu erfassen und die Schwäche linearer Funktionen bei der lokalen Informationsextraktion zu mildern. Das zweite Element ist ein Modul, das mehrskaliges Lernen implementiert und dem Modell hilft, große und kleine Objekte zu erkennen.

Cai Han sagte: „Das Wichtigste dabei ist, dass wir Leistung und Effizienz sorgfältig ausbalancieren müssen.“ Sie haben EfficientViT mit einer hardwarefreundlichen Architektur entworfen, die die Ausführung auf verschiedenen Gerätetypen, wie VR-Headsets oder Edge-Computern für selbstfahrende Autos, erleichtert. Ihr Modell kann auch auf andere Computer-Vision-Aufgaben wie die Bildklassifizierung angewendet werden.

Vereinfachen Sie die semantische Segmentierung

Als sie ihr Modell an einem für die semantische Segmentierung verwendeten Datensatz testeten, stellten sie fest, dass das Modell auf NVIDIA-Grafikprozessoren (GPUs) neunmal schneller lief als andere beliebte Visual-Transformer-Modelle, und das bei gleicher oder besserer Genauigkeit.

„Jetzt können wir das Beste aus beiden Welten herausholen und die Berechnungen so weit verlangsamen, dass sie auf Mobil- und Cloud-Geräten ausgeführt werden können“, sagte Han Song. Aufbauend auf diesen Ergebnissen hoffen die Forscher, die Technik anwenden zu können, um generative maschinelle Lernmodelle zu beschleunigen, beispielsweise solche, die zur Generierung neuer Bilder verwendet werden. Sie hoffen auch, die Anwendung von EfficientViT weiterhin auf andere Sehaufgaben auszuweiten.

LuTian, ​​​​Senior Director für Algorithmen für künstliche Intelligenz bei AMD, sagte: „Das vom Team von Professor Han Song entwickelte effiziente Transformatormodell ist mittlerweile zum Rückgrat modernster Technologie für verschiedene Computer-Vision-Aufgaben wie Erkennung und Segmentierung geworden. Ihre Forschung demonstriert nicht nur die Effizienz und Fähigkeiten des Transformators, sondern zeigt auch sein enormes Potenzial in realen Anwendungen, beispielsweise der Verbesserung der Bildqualität in Videospielen.“

„Modellkomprimierung und leichtes Modelldesign sind zentrale Forschungsthemen, um effizientes Computing mit künstlicher Intelligenz zu erreichen, insbesondere in großen Basismodellen. Die Forschungsgruppe von Professor Han Song hat erhebliche Fortschritte bei der Komprimierung und Beschleunigung moderner Deep-Learning-Modelle, insbesondere visueller Transformatoren, erzielt.“ Jay Jackson, globaler Vizepräsident für künstliche Intelligenz und maschinelles Lernen bei Oracle, der nicht an der Forschung beteiligt war, fügte hinzu. „Oracle Cloud Infrastructure hat sein Team dabei unterstützt, diese wirkungsvolle Forschung voranzutreiben, um effiziente, grüne künstliche Intelligenz zu ermöglichen.“