KI-Kopfhörer mit Apple M2 können mehrere Sprecher gleichzeitig übersetzen

Die kabellosen Ohrhörer Pixel Buds von Google bieten schon seit einiger Zeit eine fantastische Echtzeit-Übersetzungsfunktion . In den letzten Jahren haben Marken wie Timkettle ähnliche Ohrhörer für Geschäftskunden angeboten . Allerdings können alle diese Lösungen jeweils nur einen Audiostream für die Übersetzung verarbeiten.

Die Leute an der University of Washington (UW) haben etwas wirklich Bemerkenswertes entwickelt: KI-gesteuerte Kopfhörer, die die Stimme mehrerer Sprecher gleichzeitig übersetzen können. Stellen Sie es sich wie einen Polyglotten in einer überfüllten Bar vor, der in der Lage ist, die Sprache der Menschen um ihn herum zu verstehen und gleichzeitig in verschiedenen Sprachen zu sprechen.

Das Team bezeichnet seine Innovation als räumliche Sprachübersetzung und wird dank binauraler Kopfhörer zum Leben erweckt. Für Unwissende: Binaurales Audio versucht, Klangeffekte genau so zu simulieren, wie menschliche Ohren sie auf natürliche Weise wahrnehmen. Um sie aufzunehmen, werden Mikrofone auf einem Kunstkopf angebracht, und zwar im gleichen Abstand wie menschliche Ohren auf beiden Seiten.

Der Ansatz ist von entscheidender Bedeutung, da unsere Ohren nicht nur Geräusche hören, sondern uns auch dabei helfen, die Richtung ihres Ursprungs einzuschätzen. Das übergeordnete Ziel besteht darin, eine natürliche Klangbühne mit Stereoeffekt zu erzeugen, die ein Live-Konzert-Feeling vermitteln kann. Oder im modernen Kontext räumliches Zuhören .

Die Arbeit stammt von einem Team unter der Leitung von Professor Shyam Gollakota, zu dessen umfangreichem Repertoire Apps gehören, die Unterwasser-GPS auf Smartwatches übertragen können , Käfer in Fotografen verwandeln , Gehirnimplantate, die mit Elektronik interagieren können , eine mobile App, die Infektionen hören kann , und mehr.

Wie funktioniert die Übersetzung für mehrere Sprecher?

„Zum ersten Mal haben wir den Klang der Stimme jeder Person und die Richtung, aus der sie kommt, erhalten“, erklärt Gollakota, derzeit Professor an der Paul G. Allen School of Computer Science & Engineering des Instituts.

Das Team vergleicht seinen Stack mit einem Radar, das in Aktion tritt, indem es die Anzahl der Lautsprecher in der Umgebung identifiziert und diese Zahl in Echtzeit aktualisiert, wenn sich Personen in den Hörbereich hinein- und herausbewegen. Der gesamte Ansatz funktioniert auf dem Gerät und beinhaltet nicht das Senden von Benutzer-Sprachströmen an einen Cloud-Server zur Übersetzung. Ja, Privatsphäre!

Zusätzlich zur Sprachübersetzung behält das Kit auch „die Ausdrucksqualitäten und die Lautstärke der Stimme jedes Sprechers bei“. Darüber hinaus werden Richtungs- und Audiointensitätsanpassungen vorgenommen, während sich der Lautsprecher durch den Raum bewegt. Interessanterweise soll Apple auch ein System entwickeln, das es den AirPods ermöglicht, Audio in Echtzeit zu übersetzen .

Wie kommt alles zum Leben?

Das UW-Team testete die Übersetzungsfähigkeiten der AI-Kopfhörer in fast einem Dutzend Außen- und Innenumgebungen. Was die Leistung betrifft, kann das System innerhalb von 2–4 Sekunden Audiodaten aufnehmen, verarbeiten und übersetzen. Die Testteilnehmer bevorzugten offenbar eine Verzögerung von 3 bis 4 Sekunden, das Team arbeitet jedoch daran, die Übersetzungspipeline zu beschleunigen.

Bisher hat das Team nur Übersetzungen in die Sprachen Spanisch, Deutsch und Französisch getestet, hofft aber, weitere zum Pool hinzufügen zu können. Technisch gesehen haben sie blinde Quellentrennung, Lokalisierung, ausdrucksstarke Übersetzung in Echtzeit und binaurales Rendering in einem einzigen Fluss zusammengefasst, was eine ziemlich beeindruckende Leistung ist.

Was das System betrifft, hat das Team ein Sprachübersetzungsmodell entwickelt, das in Echtzeit auf einem Apple M2-Chip ausgeführt werden kann und so Echtzeit-Inferenzen ermöglicht. Die Audioaufgaben wurden von Sonys geräuschunterdrückenden WH-1000XM4-Kopfhörern und einem binauralen USB-Mikrofon Sonic Presence SP15C übernommen.

Und hier ist das Beste daran. „Der Code für das Proof-of-Concept-Gerät steht anderen zum Aufbau zur Verfügung“, heißt es in der Pressemitteilung der Institution. Das bedeutet, dass die wissenschaftliche und Open-Source-Tüftler-Community von den Grundlagen des UW-Teams lernen und fortgeschrittenere Projekte darauf aufbauen kann.