Speech Identification [Si] bezeichnet das Verwenden akustischer Parameter zur Identifikation eines individuellen Sprechers. Dazu werden charakteristische Eigenschaften im Klangbild der Sprache eines Individuums genutzt, um diese von anderen Sprechern zu unterscheiden. Man unterscheidet zwischen eingeschränkter und uneingeschränkter Erkennung. Eingeschränkt bedeutet, dass für einen Sprecher vorgegebene Zahlen oder Worte als Muster hinterlegt sind. Flexibler ist die uneingeschränkte Variante, die anhand zufälliger Sprache die Identität feststellen kann, was höhere Anforderungen an das System mit sich bringt.
Das Erkennen von Sprechern wird zumeist in Systemen zum Authentifizieren und Verifizieren eingesetzt. Dies geschieht zum Beispiel beim Zugang zu Gebäuden oder zu Daten innerhalb einer Software und ist neben dem Fingerabdruck und der Gesichtserkennung eine häufig genutzte Methode. In Überwachungssystemen wird Speech Identification [Si] ebenfalls genutzt. Dabei geht es entweder darum, Personen zu Gruppen zusammenzufassen oder sie konkret zu erkennen, was bei Telefonkonferenzen oder in Radiosendungen der Fall sein kann. Bei der Überführung von Kriminellen ist diese Komponente ein wichtiger Bestandteil, da anhand von Überwachungsvideos oder Tonaufnahmen ein Täter ermittelt werden kann.
Speech Identification [Si] hat sich zeitgleich zu Speech Recognition [Sr] entwickelt. Begründet ist dies in derselben Datengrundlage sowie den ähnlichen Herausforderungen. Die ersten Prototypen für Speech Identification [Si] entstanden in den 1970er Jahren und wurden von der U.S. Air Force getestet. Im November 2017 gab Amazon bekannt, dass für Alexa Echo eine Speech-Recognition-Schnittstelle entwickelt werde, um einem Sprecher personalisierte Dienste anbieten zu können. Im Mai 2015 wurde erstmalig Speech Recognition [Sr] des Unternehmens HSBC in einer BBC Show eingesetzt. Außerdem nutzen einige große Banken (z. B. die Barclays Bank) die Komponente zur Authentifizierung ihrer Kunden. Mittlerweile folgen viele Banken dieser Entwicklung.
Ein wichtiger vorbereitender Schritt für Speech Identification [Si] ist die Audio Recognition [Ar] bzw. Audio Identification [Ai], um in einem Audiosignal eine menschliche Stimme zu erkennen. Des Weiteren besteht eine enge Verbindung zu Speech Recognition [Sr], um den Sprecher in einem Audiosignal festzustellen. Ebenfalls von großer Bedeutung ist Decision Making [Dm], wenn im Anschluss der Identifizierung eine Entscheidung getroffen wird, beispielsweise um Rechte zu gewähren.
GoVivace bietet eine Lösung an, die eine Sprachprobe schnell mit einer Vielzahl von Sprachaufzeichnungen abgleichen kann und zum Identifizieren von Anrufern dient. Das amerikanische Unternehmen SpeechPro bietet eine Standalone Software für Speech Identification [Si] an.
Laut eines Reports von Marketsandmarkets betrug die Größe des Marktes für Speech und Voice Recognition im Jahr 2017 6,19 Milliarden US-Dollar. Dieses Marktvolumen soll bis zum Jahr 2023 jährlich um 19,8 Prozent auf 18,3 Milliarden US-Dollar wachsen.
Die größten Herausforderungen der Speech Identification [Si] bestehen in ihrer Empfindlichkeit gegenüber Störungen im Übertragungskanal, der Mikrofonvariabilität sowie möglichen Hintergrundgeräuschen. Zusätzlich können je nach körperlicher Verfassung des Sprechers die Tonlage oder andere Charakteristika der Stimme das Erkennen verfälschen. Des Weiteren sind Systeme zur Sprechererkennung anfällig für Cyber-Attacken.
Seit 1996 unterstützt das National Institute of Standards and Technology die Entwicklung von Speech Recognition [Sr] und führt jährlich Workshops und Evaluationen zu Forschungsergebnissen durch. Amazon treibt durch die Erweiterung der Alexa-Schnittstelle die Weiterentwicklung der KI-Komponente voran, wie auch Microsoft: das Unternehmen bietet in Microsoft Azure eine Schnittstelle zum Authentifizieren von Sprechern.