Speech Recognition [Sr] bietet die Möglichkeit, Wörter und Sätze in gesprochener Sprache und Audiosignalen zu erkennen und zu verstehen. Im ersten Schritt wird dabei die Sprache in ein maschinenlesbares Format übersetzt. Anschließend wird dieses durch linguistische Modelle, Algorithmen und Filter weiterverarbeitet. Eine erweiterte Anwendung ist das Erkennen von Gefühlslagen, des sogenannten Sentiments.
Speech Recognition [Sr] wird überall dort eingesetzt, wo gesprochene Sprache in Text umgewandelt werden muss. Sie liefert so die Grundlage dafür, Sprache automatisiert zu verarbeiten. So können sprachliche Informationen weiterverarbeitet oder Befehle ausgeführt werden.
Für Speech Recognition [Sr] gibt es viele Anwendungsszenarien wie die Sprachsuche oder die Weiterleitung eines Anrufs durch Sprachansagen. Interaktive Sprachanwendungen sind nur mit diesem KI-Element realisierbar. Der Anwender erhält auf seinen gesprochenen Input eine verbale Rückkopplung, wie es auch bei Assistenten auf Smartphones der Fall ist.
Ein weiteres Beispiel sind Callcenter-Anwendung, die den Gefühlszustand eines Anrufers automatisch erkennen und dem Callcenter-Agenten konkrete Vorschläge für die Behandlung des vorliegenden Falls liefern.
Der Einsatz künstlicher neuronaler Netze im Bereich Speech Recognition [Sr] führte in den vergangenen Jahren zu einer deutlichen Senkung von Fehlerraten. Dadurch erhöht sich die Durchdringung von Anwendungen mit Sprachtechnologien erheblich. Seit Februar 2016 bietet Google Docs Spracherkennung an und reduzierte die Fehlerquote der Erkennung bisher auf unter fünf Prozent. Im Juni 2017 zog auch Microsoft nach und bietet für Microsoft Office Lösungen die Erweiterung Dictate an.
Speech Recognition [Sr] steht in engem Zusammenhang zur Audio Recognition, das Audiosignale auswertet und klassifiziert. Sobald ein Sprachsignal in Text umgewandelt wurde, können KI-Elemente wie Text Extraction [Te] und Language Understanding [Lu] eine semantische Textanalyse durchführen und somit die Bedeutung des Gesprochenen analysieren. Nicht zu verwechseln ist die Speech Recognition [Sr] mit Speech Identification [Si]. Erstere ist für die Umwandlung eines Sprachsignals in Text zuständig während letztere einen konkreten Sprecher identifiziert.
Zu den weltweit meistverkauften Speech-Recognition-Lösungen im Bereich Diktiersysteme zählt Dragon von Nuance. Diese verspricht eine Adaption an die Stimme des Nutzers sowie eine schnelle und hohe Erkennungsrate für unterschiedliche Anwendergruppen. Sonix vom gleichnamigen Hersteller bietet die Möglichkeit, Videos zu transkribieren. Weiterhin bieten auch Google, Microsoft, Amazon und IBM Schnittstellen für Speech-to-Text.
Der Markt für Speech Recognition [Sr] soll vom Jahr 2017 von 1,1 Milliarden US-Dollar, zum Jahr 2020 auf 2,45 Milliarden US-Dollar und bis zum Jahr 2024 schließlich auf 7,1 Milliarden US-Dollar wachsen.
Eine Herausforderung der Speech Recognition [Sr] ist vor allem das Erfassen des relevanten Sprachsignals. Da es bei der Komponente auf den Sprachinhalt ankommt, müssen Hintergrundgeräusche als Störfaktoren erkannt werden. Des Weiteren kann das Erkennen von Wörtern an unterschiedlicher Aussprache und Akzenten scheitern. Dazu kommt, dass die Erweiterung der Komponenten insbesondere für die Entwicklung von Modellen für seltene Sprachen schwierig und aufwendig ist.
Bei der Weiterentwicklung von Speech Recognition [Sr] sind vor allem Unternehmen zu nennen, deren tägliches Geschäft diese Technologie beinhaltet. Beispiele dafür sind IBM, das im Kontext von Watson zahlreiche Dienste um Speech Recognition [Sr] anbietet, sowie Google, Amazon, Microsoft und Apple, die sowohl im Umfeld von Smart Home als auch in ihren Softwarelösungen Spracherkennung einsetzen. Weiterhin sind es Organisationen wie das Department of Defense der USA oder die Fraunhofer-Gesellschaft, die auf diesem Gebiet Forschungen betreiben.