Forscher der University of Washington sagen, dass sie dank eines Schwarms kleiner Audioroboter, die mehrere sich bewegende Schallquellen autonom lokalisieren, lokalisieren und verfolgen können, jetzt verschiedene Teile eines lauten Raums zum Schweigen bringen oder ein Gespräch in einer überfüllten Umgebung isolieren können.
Dank der leicht verteilten Doppelmikrofonanordnung und der Audioabschirmung durch unsere Ohren können wir Menschen Schallquellen mit geschlossenen Augen lokalisieren. Aber wenn die Audioumgebung komplex wird, kann es sehr verwirrend werden – etwas, das unserer eigenwilligen Tendenz widerspricht, laute, überfüllte und lebhafte Räume aufzusuchen (wie ein Café am Sonntagmorgen) und dann zu versuchen, dort ein Gespräch zu führen.
In diesen überfüllten Audioräumen besteht die einzige Möglichkeit, einzelne Schallquellen zu isolieren und andere stummzuschalten, darin, größere Mikrofonarrays einzusetzen und dann alle Audioströme zusammen zu verarbeiten, um eine Karte des Raums zu erstellen, die den Ort jedes Tons trianguliert und die winzigen Zeitunterschiede misst, die der Ton benötigt, um durch die Luft zu wandern und jedes Mikrofon zu erreichen. Anschließend können Sie schwer fassbare Deep-Learning-Algorithmen verwenden, um alle Audiostreams erneut zu verarbeiten, unabhängige Audiostreams für jede Tonquelle zu erstellen und sämtliches Rauschen von anderen Tonquellen zu entfernen.
Die Idee selbst ist nicht neu, aber Forscher der University of Washington haben dem Konzept nun eine neue Wendung gegeben, indem sie einen Schwarm von sieben kleinen Mikrofonrobotern auf Rädern verwenden, von denen jeder etwa die Größe eines Schokoladentrüffels hat, die sich autonom von einer Ladestation aus entfalten und innerhalb des verfügbaren Raums eine selbstoptimierende Anordnung bilden.
Die Roboter nutzen eingebaute Mikrofone und Lautsprecher, um per Sonar auf der Tischoberfläche zu navigieren, Hindernissen auszuweichen und sich so weit wie möglich auszubreiten, um den Zeitunterschied zwischen den Mikrofonen zu maximieren. Leider bedeutet dies, dass sie einzeln bewegt werden müssen, aber sobald sie an Ort und Stelle sind, funktionieren sie ganz erstaunlich, wie Sie im Video unten sehen können.
Was ist also das ultimative Ziel? Das Forschungsteam geht davon aus, dass solche Roboter-Arrays als tragbare, automatisch eingesetzte, schallisolierende Mikrofon-Arrays für Live-Übertragungen in Konferenzräumen und dergleichen verwendet werden könnten, wobei sie theoretisch ihre eigenen Stimmen besser verbreiten als Menschen.
Das Team sagt, dass es bei bidirektionalen Videoanrufen keinen großen Nutzen haben wird, da es zwar effizient arbeitet, aber derzeit etwa 1,82 Sekunden benötigt, um jeden dreisekündigen Tonblock zu verarbeiten. Die Latenz bedeutet auch, dass in einem lauten Café in kurzer Zeit kein sauberer Ton von einem Gesprächspartner auf die Kopfhörer gestreamt werden kann – obwohl beide Anwendungen möglich sind, da sich die Rechenleistung und die Geschwindigkeit verbessern.
Natürlich kann es auch zu einem sehr praktischen Überwachungstool werden, das den Maskierungseffekt von Menschenlärm beseitigt und private Gespräche aufzeichnet. Interessanterweise sagt das Forschungsteam der University of Washington, dass es genau das Gegenteil bewirken könnte.
„Es hat das Potenzial, die Privatsphäre wirklich zu verbessern, über das hinaus, was aktuelle intelligente Lautsprecher ermöglichen“, sagte Doktorand Malek Itani, Co-Erstautor der Studie. „Ich könnte sagen: ‚Nimm nichts auf, was sich um meinen Schreibtisch herum befindet‘, und unser System würde alles um mich herum aufzeichnen.“ ft. (0,9 Meter). Alles in dieser Blase wird nicht aufgezeichnet. Oder wenn sich zwei Gruppen von Personen in der Nähe unterhalten und eine Gruppe ein privates Gespräch führt, während die andere Gruppe aufzeichnet, kann das Gespräch einer Gruppe in eine Stummschaltungszone gelegt werden und privat bleiben.
In der Realität werden statisch verteilte Mikrofonarrays möglicherweise in Smart-Room- oder Smart-Home-Designs zum Einsatz kommen, wo sie Sprachsteuerungsbefehle problemlos auf verschiedene Bereiche isolieren können. Sie können beispielsweise den Fernseher steuern, indem Sie einfach die Geräusche von der Couch aus hören, oder sogar Getränkebestellungen von der Person entgegennehmen, die an einem lauten Ort an der Bar steht.
Der Artikel wurde in der Zeitschrift Nature Communications veröffentlicht.