Google veröffentlicht seinen Lyra Low Bitrate Speech Codec

April 8, 2021 Eskere Guru

Google hat seinen Beta-Quellcode für den Lyra-Audio-Codec auf GitHub veröffentlicht, der allen Entwicklern eine Audioqualität mit unglaublicher Qualität und niedriger Bitrate zur Verfügung stellt. Der Codec ist am nützlichsten in Situationen mit eingebetteten und bandbreitenbeschränkten Situationen, in denen so viele Daten wie möglich gespeichert werden müssen.

Lyra: Fast nichts klang noch nie so gut

Der Audio-Codec arbeitet nach dem Prinzip, die natürlichste Sprache mit der niedrigstmöglichen Datenrate bereitzustellen. Es gelingt ihm, mit Bitraten von nur 3 kbps eine fast unheimliche Audiowiedergabe zu erzielen. Google verwendet die Lyra-Komprimierung in Echtzeit bereits in seiner Duo-App , obwohl Sie nicht dafür verantwortlich gemacht werden, dass Sie nicht einmal einen Unterschied zum normalen Audio mit Bandbreite erkannt haben.

Um zu demonstrieren, wie viel besser Lyra als andere Codecs ist, bietet Google Beispiele über einen Blog-Beitrag , in dem der durch maschinelles Lernen gesteuerte Komprimierungscodec mit anderen 3- und 6-kbit / s-Alternativen verglichen wird.

Es ist ein Unterschied zwischen Nacht und Tag, und Entwicklern auf der ganzen Welt diese Tools zur Verfügung zu stellen, wird ein wesentlicher Faktor für die Verbesserung der Kommunikationsqualität sein, wenn die Bandbreite knapp ist. Es ist auch ein hervorragender Motivator für Entwickler, die neue Apps in aufstrebenden Märkten erstellen möchten. Dies wird Google in der diesjährigen kostenlosen virtuellen Google I / O-Online-Konferenz sicher behandeln.

Der Beta-Quellcode wurde derzeit für 64-Bit-Arm-Geräte entwickelt. Die Beispiele können jedoch auch auf 64-Bit-x86-Linux-Systemen ausgeführt werden. Der Quellcode wird vollständig dokumentiert bereitgestellt, obwohl er sich in der Beta-Phase befindet. Auf der GitHub-Seite finden Sie Installationsanweisungen und Informationen zum Erstellen von Lyra unter Linux für Arm 64-Bit-Ziele.

Um den Lyra Beta-Quellcode zu erhalten, gehen Sie zur Lyra GitHub-Seite .

Wie funktioniert Lyra?

Während der eigentliche Prozess, den Lyra verwendet, eine unglaublich komplexe Kombination von maschinellen Lernmodellen ist, die auf Tausenden von Stunden Sprachdaten trainiert wurden, und Optimierungen der vorhandenen Audio-Codec-Technologie, ist die Theorie recht einfach.

Alle 40 ms werden Funktionen aus der Sprache entnommen und auf 3 KBit / s komprimiert. Diese Merkmale repräsentieren Spracheergiepunkte über das Frequenzspektrum, das der menschlichen auditorischen Sprachantwort am nächsten kommt – die Dinge, die wir erkennen und verstehen müssen, wenn jemand spricht.

Das Wesentliche an Lyra ist, wie es diese Informationen verwendet:

Herkömmliche parametrische Codecs, die einfach aus sprachkritischen Parametern extrahieren, die dann zum Wiederherstellen des Signals am Empfangsende verwendet werden können, erzielen niedrige Bitraten, klingen jedoch häufig roboterhaft und unnatürlich. Diese Mängel haben zur Entwicklung einer neuen Generation hochwertiger Audio-Generationsmodelle geführt, die das Feld revolutioniert haben, indem sie nicht nur zwischen Signalen unterscheiden, sondern auch völlig neue erzeugen können.

Nach der Übertragung baut Lyra die Wellenform neu auf, indem sie das, was fehlt, mit diesem Prozess ausfüllt, ohne dabei zu rechenintensiv zu sein.

Einerseits ist es ein technologisches Wunderwerk, das fast überall eingesetzt werden kann. Andererseits bin ich immer noch nicht zu 100% davon überzeugt, dass es keine Hexerei ist.