Wie funktioniert die Spracherkennung?
Manchmal sprechen wir mehr mit unseren digitalen Geräten als andere Menschen. Die digitalen Assistenten auf unseren Geräten verwenden die Spracherkennung, um zu verstehen, was wir sagen. Aus diesem Grund können wir viele Aspekte unseres Lebens verwalten, indem wir einfach ein Gespräch mit unserem Telefon oder Smart Speaker führen.
Obwohl die Spracherkennung einen so großen Teil unseres Lebens ausmacht, denken wir normalerweise nicht darüber nach, was sie funktioniert. Hinter den Kulissen passiert viel mit der Spracherkennung, also hier ein Blick darauf, wie es funktioniert.
Was ist Spracherkennung?
Moderne Geräte sind normalerweise mit einem digitalen Assistenten ausgestattet, einem Programm, das mithilfe der Spracherkennung bestimmte Aufgaben auf Ihrem Gerät ausführt. Spracherkennung ist eine Reihe von Algorithmen, mit denen die Assistenten Ihre Sprache in ein digitales Signal umwandeln und feststellen, was Sie sagen. Programme wie Microsoft Word verwenden die Spracherkennung , um Wörter einzutippen.
Das erste Spracherkennungssystem
Das erste Spracherkennungssystem hieß Audrey-System. Der Name war eine Abkürzung von "Automated Digit Recognition". Audrey wurde 1952 von Bell Laboratories erfunden und war in der Lage, numerische Ziffern zu erkennen. Der Sprecher sagte eine Zahl und Audrey würde eine von 10 entsprechenden Glühbirnen anzünden.
So bahnbrechend diese Erfindung auch war, sie kam nicht gut an. Das Computersystem selbst war ungefähr zwei Meter hoch und nahm enorm viel Platz ein. Unabhängig von seiner Größe konnte es nur die Zahlen 0-9 entziffern. Außerdem konnte nur eine Person mit einer bestimmten Art von Stimme Audrey verwenden, sodass sie hauptsächlich von einer Person besetzt war.
Obwohl es seine Fehler hatte, war Audrey der erste Schritt auf einem langen Weg, die Spracherkennung zu dem zu machen, was sie heute ist. Es dauerte nicht lange, bis das nächste Spracherkennungssystem entstand, das Wortfolgen verstehen konnte.
Die Spracherkennung beginnt mit der Umwandlung des Audios in ein digitales Signal
Spracherkennungssysteme müssen bestimmte Schritte durchlaufen, um herauszufinden, was wir sagen. Wenn das Mikrofon Ihres Geräts Ihr Audio aufnimmt, wird es in einen elektrischen Strom umgewandelt, der zum Analog-Digital-Wandler (ADC) geleitet wird. Wie der Name schon sagt, wandelt der ADC den elektrischen Strom (AKA, das analoge Signal) in ein digitales Binärsignal um.
Wenn der Strom zum ADC fließt, nimmt er Abtastwerte des Stroms und entschlüsselt seine Spannung zu bestimmten Zeitpunkten. Die Spannung zu einem bestimmten Zeitpunkt wird als Abtastwert bezeichnet. Jedes Sample ist nur einige Tausendstelsekunden lang. Basierend auf der Spannung des Samples weist der ADC eine Reihe von acht Binärziffern (ein Datenbyte) zu.
Das Audio wird für Klarheit verarbeitet
Damit das Gerät den Sprecher besser versteht, muss das Audio verarbeitet werden, um die Klarheit zu verbessern. Das Gerät hat manchmal die Aufgabe, Sprache in einer lauten Umgebung zu entschlüsseln; Daher werden dem Audio bestimmte Filter hinzugefügt, um Hintergrundgeräusche zu eliminieren. Bei einigen Spracherkennungssystemen werden Frequenzen herausgefiltert, die höher und niedriger als der Hörbereich des Menschen sind.
Das System beseitigt nicht nur unerwünschte Frequenzen; Bestimmte Frequenzen im Audio werden auch hervorgehoben, damit der Computer die Stimme besser erkennen und von Hintergrundgeräuschen trennen kann. Einige Spracherkennungssysteme teilen das Audio tatsächlich in mehrere diskrete Frequenzen auf.
Andere Aspekte, wie beispielsweise die Geschwindigkeit und Lautstärke des Audios, werden so angepasst, dass sie besser zu den Referenz-Audiosamples passen, die das Spracherkennungssystem zum Vergleichen verwendet. Diese Filter- und Entrauschungsprozesse tragen wirklich zur Verbesserung der Gesamtgenauigkeit bei.
Das Spracherkennungssystem beginnt dann mit der Wortbildung
Es gibt zwei gängige Methoden, mit denen Spracherkennungssysteme Sprache analysieren. Eine wird als Hidden-Markov-Modell bezeichnet, und die andere Methode verwendet neuronale Netze.
Die Hidden-Markov-Modellmethode
Das Hidden-Markov-Modell ist das Verfahren, das in den meisten Spracherkennungssystemen verwendet wird. Ein wichtiger Teil dieses Prozesses ist die Zerlegung der gesprochenen Wörter in ihre Phoneme (das kleinste Element einer Sprache). In jeder Sprache gibt es eine endliche Anzahl von Phonemen, weshalb die Methode des Hidden-Markov-Modells so gut funktioniert.
Es gibt etwa 40 Phoneme in der englischen Sprache. Wenn das Spracherkennungssystem einen identifiziert, bestimmt es die Wahrscheinlichkeit dessen, was der nächste sein wird.
Wenn der Sprecher beispielsweise den Laut "ta" ausspricht, besteht eine gewisse Wahrscheinlichkeit, dass das nächste Phonem "p" ist, um das Wort "tap" zu bilden. Es besteht auch die Wahrscheinlichkeit, dass das nächste Phonem ein "s" ist, aber das ist weitaus weniger wahrscheinlich. Wenn das nächste Phonem "p" ähnelt, kann das System mit hoher Sicherheit annehmen, dass das Wort "tap" ist.
Die neuronale Netzmethode
Ein neuronales Netz ist wie ein digitales Gehirn, das ähnlich lernt wie ein menschliches Gehirn. Neuronale Netze sind maßgeblich am Fortschritt von künstlicher Intelligenz und Deep Learning beteiligt.
Der Typ des neuronalen Netzes, das die Spracherkennung verwendet, wird als Recurrent Neural Network (RNN) bezeichnet. Laut GeeksforGeeks ist RNN eines, bei dem die "Ausgabe von [dem] vorherigen Schritt [en] als Eingabe in den aktuellen Schritt eingespeist wird". Das bedeutet, dass ein RNN, wenn es ein Datenbit verarbeitet, diese Daten verwendet, um zu beeinflussen, was es mit dem nächsten Datenbit macht – es lernt im Wesentlichen aus Erfahrung.
Je mehr ein RNN einer bestimmten Sprache ausgesetzt ist, desto genauer wird die Spracherkennung. Wenn das System den "ta"-Ton 100 Mal identifiziert und ihm 90 Mal der "p"-Ton folgt, dann kann das Netzwerk im Grunde lernen, dass "p" typischerweise nach "ta" kommt.
Aus diesem Grund verwendet das Spracherkennungssystem, wenn es ein Phonem identifiziert, die gesammelten Daten, um vorherzusagen, welches wahrscheinlich als nächstes kommt. Da RNNs kontinuierlich lernen, wird die Spracherkennung umso genauer, je häufiger sie verwendet werden.
Nachdem das Spracherkennungssystem die Wörter identifiziert hat (sei es mit dem versteckten Marvok-Modell oder mit einem RNN), werden diese Informationen an den Prozessor gesendet. Das System führt dann die Aufgabe aus, die es tun soll.
Spracherkennung ist zu einem festen Bestandteil der modernen Technologie geworden
Spracherkennung ist zu einem großen Teil unserer modernen Technologielandschaft geworden. Es wurde weltweit in mehreren Branchen und Dienstleistungen implementiert; Tatsächlich steuern viele Menschen ihr ganzes Leben mit sprachaktivierten Assistenten. Sie können Assistenten wie Siri auf Ihren Apple-Uhren finden. Was 1952 nur ein Traum war, ist Realität geworden und scheint nicht so schnell aufzuhören.