In nur 15 Minuten kann das iPhone Ihre Stimme „kopieren“.

Juni 6, 2023 Eskere Guru

Stephen Hawkings „mechanischer elektronischer Klang“ ist möglicherweise einer der bekanntesten Klänge der Welt.

Aber das war nicht Hawkings eigene Stimme.

Zu einer Zeit, als Hawking aufgrund von ALS seine Sprechfähigkeit verlor, reichte die Technologie nicht aus, um seine eigene Stimme zu erzeugen. Tatsächlich haben nur sehr wenige Menschen Zugang zu einem Sprachsynthesizer.

Obwohl ALS-Patienten heute mehr Möglichkeiten zur Sprachsynthese haben, sind die Gesamtkosten und der Zeitaufwand immer noch nicht niedrig und die Popularität begrenzt.

Kürzlich hat Apple eine neue barrierefreie Funktion Personal Voice angekündigt (noch nicht online), die es Benutzern nicht nur ermöglicht, ihre Stimmen kostenlos zu „sichern“, sondern auch einen interessanten Versuch unternimmt, KI-Technologie sicher anzuwenden.

Nur 15 Minuten „Tuning“ können Ihre Stimme erzeugen

▲ Bild von Fastcompany

In einer Zeit, in der generative KI alles imitieren kann, klingt die Verwendung von KI zur Nachahmung der Stimme einer Person nicht wie eine Neuheit, sondern fühlt sich einfach wie ein Sicherheitsrisiko an.

Was mich mehr interessiert, ist, wie Apple die Personal Voice-Funktion sicher und effizient implementieren kann.

Berichten zufolge müssen iPhone-, iPad- und Mac-Benutzer gemäß den Anweisungen nur 15 Minuten Audio aufnehmen, und Apple wird basierend auf maschineller Lerntechnologie auf der Geräteseite dieselbe Stimme wie der Benutzer generieren.

Im Gegensatz dazu müssen Unternehmen, die professionelle Sprachsynthesedienste für aphasische Gruppen anbieten, möglicherweise professionelle Ausrüstung verwenden, um mehrere Stunden Sprachmaterial aufzuzeichnen, und der Preis kann bei Hunderten von Dollar beginnen.

Eine weitere neue barrierefreie Funktion, Live Speech, ermöglicht es Benutzern, Text einzugeben, um Sprachinhalte zu generieren, wenn sie telefonieren, sich über FaceTime unterhalten oder sich persönlich mit anderen unterhalten, und bietet so eine weitere Möglichkeit für Benutzer, die aphasisch sind oder Schwierigkeiten beim Sprechen haben.

Durch die Kombination der beiden Funktionen „Personal Voice“ und „Live Speech“ können aphasische Benutzer mit anderen kommunizieren, indem sie eine generierte Stimme verwenden, die ihrer Originalstimme nahe kommt.

Es ist bequem zu verwenden, aber wie kann man verhindern, dass jemand die Stimmen anderer Leute generiert, indem er Sprachmaterial aus dem Internet verwendet?

Material-Randomisierung.

Bei der Aufnahme von 15 Minuten Sprachmaterial generiert Apple nach dem Zufallsprinzip Inhalte, die vom Benutzer gelesen werden müssen, wodurch die Wahrscheinlichkeit verringert wird, dass andere das Material erraten.

Physische Distanzbarriere.

Während des Aufnahmevorgangs muss der Benutzer die Aufnahme in einem bestimmten Raum von 6 bis 10 Zoll (ca. 15 bis 25 cm) vom Gerät durchführen.

Während des Generierungsprozesses werden alle Daten lokal auf dem Gerät durch die Neural Engine (Neural Engine) von Apple vervollständigt, ohne dass sie zur Verarbeitung in die Cloud hochgeladen werden müssen.

Wenn eine Drittanbieteranwendung nach der Sprachsynthese Personal Voice verwenden möchte, muss sie eine explizite Autorisierung vom Benutzer einholen.

Selbst wenn eine Drittanbieteranwendung zur Nutzung berechtigt ist, führt Apple einen zusätzlichen Hintergrundschutz ein, um sicherzustellen, dass die Drittanbieteranwendung weder Personal Voice noch das zuvor vom Benutzer aufgezeichnete Sprachmaterial abrufen kann.

Wenn Sie ein Apple „Family Bucket“-Benutzer sind, können Sie nach der Erstellung Ihrer eigenen persönlichen Stimme diese auch über iCloud mit verschiedenen Geräten synchronisieren und Ende-zu-Ende verschlüsseln.

Erst wenn Sie Ihre eigene Stimme verlieren, verstehen Sie, wie wichtig sie ist

Menschen sind emotionale Wesen und Geräusche sind ein starker emotionaler Auslöser.

Studien haben gezeigt, dass der Körper Oxytocin ausschüttet, wenn er die Stimme der Mutter hört, ähnlich wie beim Umarmen der Mutter. In einer anderen Studie wurde festgestellt, dass das Hören der eigenen Stimme die Selbstmotivation einer Person steigert.

Das klingt etwas abstrakt.

Aber wenn wir es verlieren, wird die Bedeutung deutlich.

Im März 2021 wurde bei Ruth Brunton ALS diagnostiziert. An Weihnachten in diesem Jahr war sie sprachlos.

Etwa 25 Prozent der Menschen mit ALS leiden an der „bulbar-onset“-Form der ALS, die sich vor allem in Sprach- oder Schluckbeschwerden äußert. Die Sprache dieser Patienten wird allmählich undeutlich, nasal und sogar aphasisch.

Bruntons Handeln war sehr entscheidend: Nach der Diagnose fand er sofort ein Unternehmen, das sich mit der Sprachgenerierung beschäftigte.

Es dauerte einen Monat, hin und her zu gehen und einen Korpus von mehr als 3.000 Sätzen aufzuzeichnen, aber das Endergebnis war nicht ideal.

Dieses Unternehmen verwendet eine Technik namens „Einheitenauswahl“.

Um es einfach und grob auszudrücken: Die Spracherzeugung erfolgt durch „Spleißen“, das Aufteilen des Korpus in eine große Anzahl kleiner Spracheinheiten und das anschließende Zusammenfügen der Elemente nach Bedarf.

▲Mit der Einheitenauswahltechnologie kann das Wort „Bob“ in verschiedene phonetische Elemente aufgeteilt werden, abgebildet von „Washington Post“

Die durch diese Technologie erzeugte Sprache ist klar zu hören, sie ist jedoch etwas elektronisch und klingt unnatürlich.

Infolgedessen wurde das von Brunton aufgenommene Korpus mit einer Stimme namens „Heather“ von Microsoft kombiniert. Die Stimme ähnelte nicht nur nicht seiner eigenen, sondern zwang die Briten sogar dazu, mit amerikanischem Akzent zu „sprechen“.

▲ Bruntons eigene echte Stimme

▲ Die Stimme der synthetisierten Version von Brunton

Gefangen in dieser Stimme wird Brunton „nur noch dann sprechen, wenn es nötig ist, nicht mehr, weil er sprechen möchte.“

Das Flirtgespräch mit ihrem Mann war verschwunden und Brunton war weniger geneigt, sich an Gruppengesprächen zu beteiligen.

Selbst wenn man „Ich liebe dich“ mit einer Stimme sagt, die nicht wie die eigene klingt, scheint die Bedeutung verloren zu gehen.

Sechs Monate später bekamen Brunton und ihr Mann das ursprünglich aufgenommene Stimmmaterial zurück, gründeten ein anderes Unternehmen und nutzten KI-Technologie, um eine Stimme zu synthetisieren, die ihrer eigenen ähnlicher war:

Es mag albern klingen, aber die Wiedererlangung meiner Stimme hat mir mehr Selbstvertrauen gegeben.

John M. Costello, der das Projekt „Enhanced Communication“ am Boston Children's Hospital leitet, hat festgestellt, dass Patienten, die eine realistischer erzeugte Sprache verwenden, offenbar in der Lage sind, tiefere Verbindungen zu ihnen nahestehenden Personen aufzubauen.

An Weihnachten 2022 nahm Brunton, der „eine neue Stimme wiedergefunden hat“, auch eine festliche Botschaft mit Stimme auf.

▲ Ruth hat das Gefühl, dass die neue synthetische Stimme mehr wie er selbst ist

Doch kurz nach Weihnachten bekam Brunton die neue Krone und verstarb schließlich im Februar dieses Jahres.

In der Nacht, als sie ging, hielt ihr Mann David die ganze Nacht ihre Hand:

Wir haben zwei Jahre Zeit, uns zu verabschieden.
Wir waren uns einig, wir werden sagen, was wir wollen.

Es ist schwer vorstellbar, ob Brunton alles, was sie sagen wollte, frei sagen könnte, wenn sich Brunton nicht in eine Stimme verwandelt hätte, die ihrer eigenen ähnlicher war.

Barrierefreies Denken sorgt für Inspiration, KI steigert die Produktivität

Ich habe immer geglaubt, dass barrierefreies Design tatsächlich die durch die menschliche Vielfalt geschaffenen fantasievollen Ressourcen freilegt.

Wir gehen zu Menschen, die völlig andere Lebenserfahrungen haben als wir, hören uns Geschichten und Erfahrungen an, die weniger erzählt werden, und schaffen eine neue Lebensweise, die wir uns noch nie vorgestellt haben, die aber für mehr Menschen freundlich ist.

Personal Voice kann es ALS-Patienten mit Aphasie ermöglichen, ihre Stimme wiederzuerlangen; es kann mir auch dabei helfen, meine eigene Stimme zu verwenden, um mit anderen Menschen zu sprechen, nachdem ich eine „Klingenstimme“ erlebt habe; selbst ich kann mir nur schwer vorstellen, dass ich diese Stimme verwenden sollte Bewahren Sie Ihre „Ersatzstimme“ für diejenigen auf, die Ihnen nahe stehen, damit Sie nicht eines Tages plötzlich sterben.

Und die KI-Technologie soll diese fantasievolle Produktivität verwirklichen.

Wie Redakteur Du zuvor sagte , hat Apple zwar nicht mit der Begeisterung für generative KI mithalten können, Apple hat jedoch schon immer KI eingesetzt, um das Benutzererlebnis zu verbessern, die Effizienz zu verbessern und die Privatsphäre zu schützen.

Die Verbesserung der Effizienz liegt in der Verbesserung der lokal ausgeführten maschinellen Lernalgorithmen und -modelle.

Neben Personal Voice nutzt eine weitere Barrierefreiheitsfunktion, die Apple diesmal vorgestellt hat, Point and Speak, auch maschinelle Lerntechnologie auf der lokalen Geräteseite.

In Zukunft können sehbehinderte Nutzer das iPhone mit ihren eigenen Fingern in einen „Zeigerleser“ verwandeln, der im Lieferumfang des iPhone enthalten ist, kombiniert mit den Point-and-Speak- und Erzählfunktionen – wohin man klickt, lasst das Das iPhone liest den Text für Sie vor.

Die letztjährige Funktion „Türerkennung“ funktioniert ähnlich und ermöglicht maschinelles Lernen auf der Geräteseite, um sehbehinderten Benutzern dabei zu helfen, die Tür zu identifizieren und die Informationen auf der Tür und den umliegenden Schildern zu lesen.

Was den Datenschutz betrifft, so Jobs: „Wenn Sie ihre (Benutzer-)Daten benötigen, fragen Sie sie (Benutzer). Jedes Mal.“

Dies ist auch im Hinblick auf die Barrierefreiheitsgestaltung besonders wichtig – denn der Ursprung dieser funktionalen Designs liegt darin, Menschen zu dienen, die vom sogenannten „konventionellen Design“ ignoriert werden, also häufig gefährdetere Gruppen sind, weshalb es umso notwendiger ist, dies sicherzustellen die Privatsphäre dieser Nutzer wird nicht verletzt.

In diesem Zusammenhang können wir auch weitere Diskussionen über Datenverwendungsrechte und Transparenz anstoßen.

Als Apple dieses Mal Personal Voice entwickelte, arbeitete es mit der Team Gleason Foundation zusammen, einer gemeinnützigen Organisation, die ALS-Patienten hilft.

▲ Blair Casey, CEO der Team Gleason Foundation (rechts)

Der CEO der Agentur, Blair Casey, hat Spracherzeugungsunternehmen dazu gedrängt, eine Reihe von Standardeinstellungen für Aufnahmematerial festzulegen, die es Benutzern ermöglichen, diesen Teil des Materials direkt aufzuzeichnen und die von verschiedenen Unternehmen erzeugten Spracheffekte zu erleben, anstatt „blind zu wetten“. es ist jetzt. ".

Gleichzeitig befürwortet Casey auch, dass Spracherzeugungsunternehmen den Benutzern die aufgezeichneten Sprachmaterialdaten zur Verfügung stellen (da viele Benutzer nach der Aufzeichnung möglicherweise aphasisch werden), damit sie diese Daten in Zukunft nicht in anderen Technologien verwenden möchten:

Würden Sie es nicht versuchen, wenn eine bessere Technologie herauskäme?
Wenn Sie Ihr Sprachmaterial nicht zurückerhalten können, können Sie es nicht versuchen.

KI ist möglicherweise die größte Produktivität unserer Zeit.

Doch wie man diese Kraft nutzt, vielleicht kann das menschenorientierte barrierefreie Design viele Hinweise geben.

#Willkommen, dem offiziellen öffentlichen WeChat-Konto von Aifaner zu folgen: Aifaner (WeChat-ID: ifanr). Weitere spannende Inhalte werden Ihnen so schnell wie möglich präsentiert.

Ai Faner | Ursprünglicher Link · Kommentare anzeigen · Sina Weibo