Video-to-Sound-Technologie hilft Blinden, Gesichter zu erkennen

Die Fähigkeit, Gesichter zu erkennen, ist beim Menschen und auch bei einigen unserer entfernten, sozial orientierten Primatenverwandten tief verwurzelt. Tatsächlich scheint es Bereiche im Gehirn zu geben – insbesondere einen Bereich, der als „fusiformer Gesichtsbereich“ oder „FFA“ in der unteren Schläfenrinde im unteren Rückenbereich des Gehirns bezeichnet wird – die besonders aufleuchten, wenn wir Gesichter sehen.

Interessanterweise ergab eine Studie aus dem Jahr 2009 auch, dass die FFA aktiviert wird, selbst wenn Menschen etwas sehen, das entfernt wie ein menschliches Gesicht aussieht – sie ist also am Phänomen der „Pareidolie“ beteiligt, bei der wir Gesichter auf unbelebten Objekten sehen. Derselbe Bereich beginnt auch zu aktivieren, wenn Menschen beginnen, Fachwissen in einem bestimmten Bereich zu entwickeln, was Autofreaks offenbar dabei hilft, beispielsweise visuell zwischen verschiedenen Automodellen zu unterscheiden, oder Schachexperten dabei hilft, vertraute Konfigurationen auf dem Schachbrett zu erkennen.

Im Jahr 2020 steckte eine MIT-Forschung blinde Menschen in einen fMRT-Scanner und forderte sie auf, verschiedene 3D-gedruckte Formen zu ertasten, darunter Gesichter, Hände, Stühle und Labyrinthe, und stellte fest, dass das Berühren dieser kleinen Gesichter die FFA auf ähnliche Weise aktivierte.

Visuelle Aktivierungskarte des fusiformen Gesichtsbereichs bei Probanden, die schematische Gesichter betrachten/Georgetown University

In gewisser Weise scheint es der FFA also egal zu sein, welches sensorische System sie mit gesichtsbezogenen Informationen versorgt – neue Forschungsergebnisse der Neuroscience Group des Georgetown University Medical Center liefern Beweise für diese Hypothese.

Das Team rekrutierte sechs blinde und zehn sehende Probanden und begann, sie mit dem „sensorischen Ersatzgerät“ zu trainieren. Das Gerät besteht aus einer am Kopf montierten Kamera, einer Schutzbrille mit verbundenen Augen, einem Kopfhörer und einem Verarbeitungscomputer, der die Eingaben der Kamera in Audio umwandelt, das Sichtfeld in ein 64-Pixel-Raster segmentiert und jedem Pixel seinen eigenen Hörton verleiht.

Das Forschungspapier beschreibt, dass, wenn das Bild nur ein Punkt in der oberen rechten Ecke des Sichtfelds der Kamera ist, der zugehörige Ton hochfrequent ist und hauptsächlich über den rechten Kopfhörer übertragen wird. Befindet sich der Punkt im oberen mittleren Teil des Gesichtsfelds, ist der Ton ein hochfrequenter Ton, der jedoch über den linken und rechten Kopfhörer die gleiche Lautstärke abgibt. Wenn das Bild eine Linie in der unteren linken Ecke wäre, wäre der zugehörige Ton eine Mischung aus niedrigen Frequenzen, die hauptsächlich über den linken Kopfhörer abgestrahlt werden.

Die Probanden führten 10 einstündige Sitzungen mit den Geräten durch und lernten dabei, mit den Ohren zu „sehen“, während sie ihren Kopf nach links und rechts bewegten. Auf den Karten erscheinen einige einfache Formen; horizontale und vertikale Linien, verschiedene Hausformen, geometrische Formen und grundlegende Emoji-ähnliche Ausdrücke von Freude, Wut, Trauer und Freude. Es war ein ziemlich schwieriger Trainingsprozess, aber am Ende des Trainings waren alle Probanden in der Lage, einfache Formen mit einer Genauigkeit von über 85 % zu identifizieren.

Die Auflösung des sensorischen Ersatzgeräts beträgt nur 64 Pixel. Unten rechts sind einige der Formen, die den Motiven gezeigt werden.

Während eines Formerkennungstests auf einem fMRT-Gerät zeigten sowohl sehende als auch blinde Probanden eine Aktivierung des FFA, wenn grundlegende Gesichtsformen dargestellt wurden. Einige blinde Probanden konnten Gesichter auch richtig als glücklich oder traurig identifizieren – das können Sie in einem 45-sekündigen Audioclip aus der Studie hören, in dem Sie auch erfahren, wie das Gerät klingt.

„Unsere Ergebnisse bei blinden Menschen deuten darauf hin, dass die Entwicklung der fusiformen Gesichtsregion nicht von der Erfahrung mit dem tatsächlichen visuellen Gesicht abhängt, sondern vielmehr vom Kontakt mit der geometrischen Konfiguration des Gesichts, die durch andere Sinnesmodalitäten vermittelt werden kann“, sagte Josef Rauschecker, Ph.D., Professor für Neurowissenschaften und leitender Autor der Studie, in einer Pressemitteilung.

Das Forschungsteam fand außerdem heraus, dass sehende Probanden eine Aktivierung hauptsächlich im rechten fusiformen Bereich zeigten, während blinde Probanden eine Aktivierung im linken FFA-Bereich zeigten.

„Wir glauben, dass der Links-Rechts-Unterschied zwischen blinden und nicht blinden Menschen möglicherweise damit zusammenhängt, wie die linken und rechten Spindelregionen Gesichter verarbeiten – entweder als verbundene Muster oder als unabhängige Teile, die wichtige Hinweise sein könnten, die uns dabei helfen könnten, sensorische Ersatzgeräte zu verfeinern“, sagte Rauschecker.

Das Team hofft, seine Experimente fortzusetzen und möglicherweise ein sensorisches Ersatzgerät mit höherer Auflösung zu entwickeln, das es geschulten Probanden schließlich ermöglicht, echte menschliche Gesichter zu erkennen.

Allerdings werden Bild-Ton-Umwandlungsgeräte wie dieses in der Praxis wahrscheinlich nicht sehr hilfreich sein – teils, weil sie umfangreiches Training erfordern, und teils, weil blinde Menschen bereits stark auf ihr Gehör angewiesen sind und es unwahrscheinlich ist, dass zusätzliche Piep- und Knackgeräusche ihre Wahrnehmung der Welt stören.

Ganz zu schweigen davon, dass es mit dem Aufkommen der multimodalen Deep-Learning-KI bereits Systeme gibt, die es Sprachmodellen im GPT-Stil ermöglichen, ein Bild oder Video anzusehen und das Geschehen in beliebiger Detailtiefe zu beschreiben. Diese Erzählung in natürlicher Sprache hat sich als einfacher zu implementieren, zu verwenden und an individuelle Bedürfnisse anzupassen als ein direkter Video-zu-Audio-Feed.

Dennoch ist es sehr faszinierend und zeigt, wie tief die alten Formen von zwei Augen und einem Mund in unserer Hardware vergraben sind und wie wichtig diese Formen für uns als soziale Tiere sind.

Die Forschung wurde öffentlich in der Zeitschrift PLOS veröffentlicht.