Diese KI kann Ihre Stimme nach nur drei Sekunden fälschen

Künstliche Intelligenz (KI) hat gerade einen Moment Zeit , und der Wind weht weiterhin in seinen Segeln mit der Nachricht, dass Microsoft an einer KI arbeitet, die jede Stimme imitieren kann, nachdem sie mit einem kurzen dreisekündigen Sample gefüttert wurde.

Das neue Tool mit dem Namen VALL-E wurde mit rund 60.000 Stunden Sprachdaten in englischer Sprache trainiert, die laut Microsoft „hundertmal größer als bestehende Systeme“ sind. Mit diesem Wissen behaupten seine Entwickler, dass es nur ein paar Brocken Spracheingabe braucht, um zu verstehen, wie man die Stimme eines Benutzers repliziert.

Mann spricht ins Telefon

Noch beeindruckender ist, dass VALL-E die Emotionen, Stimmtöne und die akustische Umgebung reproduzieren kann, die in jedem Sample zu finden sind, etwas, womit andere Sprach-KI-Programme zu kämpfen hatten. Das verleiht ihm eine realistischere Aura und bringt seine Ergebnisse näher an etwas heran, das als echte menschliche Sprache durchgehen könnte.

Im Vergleich zu anderen Text-to-Speech (TTS)-Konkurrenten übertrifft Microsoft laut Microsoft VALL-E „das hochmoderne Zero-Shot-TTS-System in Bezug auf Sprachnatürlichkeit und Sprecherähnlichkeit deutlich.“ Mit anderen Worten, VALL-E klingt viel mehr wie echte Menschen als konkurrierende KIs, die auf Audioeingänge stoßen, auf die sie nicht trainiert wurden.

Auf GitHub hat Microsoft eine kleine Bibliothek mit Beispielen erstellt, die mit VALL-E erstellt wurden. Die Ergebnisse sind größtenteils sehr beeindruckend, mit vielen Samples, die den Tonfall und Akzent der Stimmen der Sprecher reproduzieren. Einige der Beispiele sind weniger überzeugend, was darauf hindeutet, dass VALL-E wahrscheinlich kein fertiges Produkt ist, aber insgesamt ist die Leistung überzeugend.

Riesiges Potenzial – und Risiken

Eine Person, die einen Videoanruf auf einem Microsoft Surface-Gerät mit Windows 11 durchführt.

In einem Artikel, in dem VALL-E vorgestellt wird, erklärt Microsoft, dass VALL-E „potenzielle Risiken bei der missbräuchlichen Verwendung des Modells bergen kann, wie z. Ein solch leistungsfähiges Werkzeug zur Erzeugung realistisch klingender Sprache lässt das Gespenst immer überzeugenderer Deepfakes aufkommen , mit denen alles Mögliche nachgeahmt werden könnte, von einem ehemaligen romantischen Partner bis hin zu einer prominenten internationalen Persönlichkeit.

Um diese Bedrohung abzuschwächen, sagt Microsoft, „es ist möglich, ein Erkennungsmodell zu erstellen, um zu unterscheiden, ob ein Audioclip von VALL-E synthetisiert wurde.“ Das Unternehmen sagt, dass es bei der Entwicklung seiner Arbeit auch seine eigenen KI-Prinzipien verwenden wird. Diese Grundsätze decken Bereiche wie Fairness, Sicherheit, Datenschutz und Rechenschaftspflicht ab.

VALL-E ist nur das neueste Beispiel für Microsofts Experimente mit KI. Vor kurzem hat das Unternehmen daran gearbeitet , ChatGPT in Bing zu integrieren , KI zur Zusammenfassung Ihrer Team- Meetings zu verwenden und fortschrittliche Tools in Apps wie Outlook, Word und PowerPoint zu integrieren. Und laut Semafor beabsichtigt Microsoft , 10 Milliarden US-Dollar in den ChatGPT-Hersteller OpenAI zu investieren , ein Unternehmen, in das es bereits erhebliche Mittel investiert hat.

Trotz der offensichtlichen Risiken könnten Tools wie VALL-E in der Medizin besonders nützlich sein, um beispielsweise Menschen nach einem Unfall dabei zu helfen, ihre Stimme wiederzuerlangen. Die Möglichkeit, Sprache mit einem so kleinen Eingabesatz zu replizieren, könnte in diesen Situationen immens vielversprechend sein, vorausgesetzt, es wird richtig gemacht. Aber mit all dem Geld, das für KI ausgegeben wird – sowohl von Microsoft als auch von anderen – ist klar, dass es in absehbarer Zeit nicht verschwinden wird.