OpenAI benötigt nur 15 Sekunden Audio, damit seine KI eine Stimme klonen kann

April 1, 2024 Eskere Guru

In den letzten Jahren wird die Hörzeit, die eine KI benötigt, um die Stimme einer Person zu klonen , immer kürzer .

Früher waren es Minuten, jetzt sind es nur noch Sekunden.

OpenAI, das von Microsoft unterstützte Unternehmen hinter dem viralen generativen KI-Chatbot ChatGPT, hat kürzlich bekannt gegeben, dass seine eigene Technologie zum Klonen von Stimmen nur 15 Sekunden Audiomaterial benötigt, um die Stimme einer Person zu reproduzieren.

In einem Beitrag auf seiner Website veröffentlichte OpenAI eine kleine Vorschau auf ein Modell namens Voice Engine, das seit Ende 2022 entwickelt wird.

Voice Engine funktioniert, indem es ihm mindestens 15 Sekunden gesprochenes Material zuführt. Der Benutzer kann dann Text eingeben, um eine von OpenAI als „emotionale und realistische“ Sprache beschriebene Sprache zu erstellen, die „dem Originalsprecher sehr ähnlich ist“.

OpenAI besteht darauf, dass es bei einer breiteren Veröffentlichung aufgrund des Potenzials für den Missbrauch synthetischer Stimmen einen „vorsichtigen und informierten Ansatz“ verfolgt und fügt hinzu, dass es „einen Dialog über den verantwortungsvollen Einsatz synthetischer Stimmen und die Art und Weise, wie sich die Gesellschaft an diese neuen Bedingungen anpassen kann, beginnen möchte“. Fähigkeiten."

Es fügte hinzu: „Basierend auf diesen Gesprächen und den Ergebnissen dieser kleinen Tests werden wir eine fundiertere Entscheidung darüber treffen, ob und wie wir diese Technologie in großem Maßstab einsetzen.“

Einer der Missbrauchsfälle, auf die sich OpenAI bezieht, ist ein Betrug, den einige Kriminelle bereits mit ähnlicher Technologie durchführen, die seit einiger Zeit öffentlich verfügbar ist. Dabei wird eine Stimme geklont und dann ein Freund oder Verwandter dieser Person angerufen, um sie dazu zu bringen, per Banküberweisung Bargeld zu übergeben. Es gibt auch Befürchtungen darüber, wie diese Technologie bei den bevorstehenden Präsidentschaftswahlen eingesetzt werden könnte. Ein Problem, das kürzlich durch einen vielbeachteten Vorfall deutlich wurde, bei dem ein Robocall mit einem Klon der Stimme von Präsident Joe Biden die Menschen aufforderte, bei den Vorwahlen in New Hampshire im Januar nicht zu wählen .

Eine weitere Sorge besteht darin, wie sich die sich schnell verbessernde Technologie auf den Lebensunterhalt von Synchronsprechern auswirken wird, die befürchten, dass von ihnen zunehmend verlangt wird, die Rechte an ihrer Stimme zu übertragen, damit mithilfe von KI eine synthetische Version erstellt werden kann, gegen eine Vergütung für einen solchen Vertrag dürfte viel niedriger sein, als wenn der Schauspieler gebeten würde, den Job persönlich auszuführen.

Mit Blick auf positivere Einsätze der Technologie schlägt OpenAI vor, dass sie dazu genutzt werden könnte, Nichtlesern und Kindern Lesehilfe zu bieten, indem natürlich klingende, emotionale Stimmen verwendet werden, „die ein größeres Spektrum an Sprechern repräsentieren, als es mit voreingestellten Stimmen möglich ist“. als Sofortübersetzung von Videos und Podcasts, etwas, das Spotify bereits testet .

Es könnte auch dazu verwendet werden, Patienten, die aufgrund einer Krankheit allmählich ihre Stimme verlieren, dabei zu helfen, weiterhin mit etwas zu kommunizieren, das wie ihre eigene Stimme klingt.

OpenAI hat auf seiner Website einige Beispiele für KI-generiertes Audio und Referenz-Audio, und wir sind uns sicher, dass Sie mir zustimmen werden, sie sind ziemlich außergewöhnlich.