Vom Erkennen einzelner akustischer Ereignisse bis zur Analyse komplexer Szenen bietet Audio Identification eine Vielzahl von Anwendungsmöglichkeiten. Dabei wird ein datenbasierter Fingerabdruck eines akustischen Objekts oder einer akustischen Szene erstellt. Technisch gesehen separiert es ein eindeutiges Signal aus einer Geräuschkulisse, z. B. ein bestimmtes Instrument in einer Musikaufnahme, eine einzelne Maschine in einer Produktionsanlage, ein ungewöhnliches oder sicherheitskritisches Geräusch. Nachgelagert kann dann eine entsprechende Aktion ausgelöst werden, z. B. das Absetzen eines Notrufs oder einer anderen Alarmsignalisierung.
Das Erkennen eines eindeutigen Signals im akustischen Hintergrund ist Grundlage für die maschinelle Inhaltsanalyse von akustischen Daten. Nur so gelingt z. B. die automatische Transkription von Interviews, also das Trennen individueller Stimmen in einem Gespräch. Auch der Trend zum Sprachdialog mehrerer Benutzer mit intelligenten Lautsprechern wie Alexa Echo oder Google Home setzt Audio Identification [Ai] voraus. Um die Effektivität von Werbekampagnen zu messen, erfassen Unternehmen die Reichweite von Ausstrahlungen automatisch. Hierzu werden akustische Markierungen in Werbebotschaften eingebettet, die dann bei Ausstrahlung erkannt werden können.
Der Nutzen von Musikdatenbanken steigt erheblich, wenn Anfragen durch Musikbeispiele möglich werden oder durch einfaches Summen einer Melodie. Audioanalyse ermöglicht auch die Verwaltung von Musikkatalogen und Sample-Bibliotheken, automatisches Verschlagworten von Audiodateien und die Erzeugung von Musikempfehlungen. Audio Identification [Ai] wird in der Audioforensik und in Sicherheitsanwendungen, z. B. dem Erkennen von Glasbruch, Einbrüchen, Vandalismus oder anderen kriminellen Handlungen, eingesetzt. Weitere Anwendungsfälle sind Smart Cities, z. B. zum Lärm-Monitoring, zur Sirenen-Erkennung oder für Verkehrszählungen sowie Smart-Home- und Pflegeumgebungen beim Erkennen von Notrufen oder Notsituationen und der Überwachung von Türklingeln, Babies oder Patienten. In der industriellen Produktion existieren ebenfalls zahlreiche Anwendungen. Hier können z. B. Prozesse akustisch überwacht werden, etwa zur prädiktiven Bestimmung von Wartungsintervallen für Maschinen. Veränderungen von Geräuschen, z. B. in Getrieben oder anderen mechanisch bewegten Teilen, können Hinweise für deren baldigen Ausfall geben. Auf diese Art können kostenintensive Stillstandzeiten von Maschinen minimiert werden. Die Beurteilung eines zu erfüllenden Zielklanges kann bei sogenannten End-of-Line-Tests in der Produktion eingesetzt werden, wodurch z. B. defekte Bauteile erkannt werden können.
Historisch stammt der Bedarf nach diesem KI-Element vorrangig aus der Telekommunikation. Die Technik findet z. B. Einsatz in Telekonferenzsystemen. In den meisten Fällen ist Audio Identification [Ai] kein eigenständiges Produkt, sondern integraler Bestandteil komplexerer Produkte und Dienste. Der Trend geht jedoch zum Angebot von Software-Diensten, wie bei Services zum Identifizieren von Sprechern bei Microsoft, zum Erkennen von Musikstücken bei Niland oder zum Interpretieren von Videos bei Valossa. Die Bedeutung dieses KI-Elements wird auch durch das steigende Marktinteresse an persönlichen Assistenten wie Amazon Echo oder Google Home getrieben. Im März 2016 gab Google seine Speech API für Entwickler frei und forscht an der Erkennung allgemeiner akustischer Ereignisse in Youtube-Videos; so wurden 2017 eine Million Videos auf akustische Ereignisse untersucht. Im Dezember 2017 verkündete Apple die Übernahme von Shazam, einem Anbieter eines Dienstes zum akustischen Erkennen von Musikstücken.
Einerseits ermöglicht das Identifizieren persönlicher Stimmen ein intuitives Arbeiten mit sprachgesteuerten Schnittstellen. Damit vergrößern sich Einsatzfelder wie Benutzergruppen in zwei Richtungen: Entweder vereinfacht sich der Zugriff auf bestehende digitale Dienste oder es können neue angeboten werden, die bisher nicht skalierbar sind. Wenn der Trend zu sprachgesteuerten Mehrbenutzer-Zugriffen auf Einzelgeräten anhält (z. B. Amazon Echo, Google Home), wird das Identifizieren von Stimmen zwingend erforderlich. Hier gibt es Abhängigkeiten zum Element Speech Identification [Si]. Andererseits setzen das Auswerten von Daten und die Erstellung von Prognosen das Erfassen brauchbarer Signale voraus. Je genauer akustische Klangteppiche erfasst werden können, desto einfacher ist es, in diesem Datenstrom Signale zu isolieren. Dadurch entsteht eine Beziehung zu Audio Recognition [Ar].
Das estnische Unternehmen Acoustid bietet eine Lösung, um Musikstücke automatisch zu verschlagworten. Der in Berlin beheimatete Anbieter Mufin bietet Lösungen, um die Reichweite von Rundfunkausstrahlungen zu messen. Das im Jahr 2002 gegründete Unternehmen Shazam findet mit seiner gleichnamigen App Musiktitel anhand kurzer Musikschnipsel. Nach eigenen Angaben hatte das Unternehmen vor fünf Jahren bereits 150 Millionen Benutzer in über 150 Ländern und verwaltete 10 Millionen Einträge von Musiktiteln. Im Jahr 2017 wurde es von Apple übernommen.
Durch die vielfältigen Einsatzmöglichkeiten in verschiedenen Märkten hat die Technologie ein hohes Potenzial, bestehende Lösungen zu verbessern. Jedoch stehen viele Lösungen erst auf der Schwelle zum Markteintritt. Das globale Marktvolumen für Voice Recognition soll nach Schätzung von Business Wire im Jahr 2023 126,5 Milliarden US-Dollar erreichen.
Algorithmen zum Identifizieren von Stimmen werden zunehmend besser. Sie stoßen aber weiterhin auf Grenzen beim Einsatz in Mehrbenutzer-Szenarien oder bei starker Geräuschkulisse (z. B. in Autos, Bahnhöfen oder Flughäfen). Das Identifizieren einer Stimme basiert heute auf analytischen Verfahren des akustischen Signals. Die Qualität der Auswertung könnte deutlich steigen, sobald dieses KI-Element z. B. semantische Informationen aus dem Kontext des Sprechers berücksichtigte. Wie für alle maschinellen Lernverfahren ist eine ausreichend große Menge an akustischen Signalen für ein Training des Systems essenziell. Insbesondere Audiodaten für selten auftretende akustische Ereignisse wie z. B. das Geräusch defekter Rotoren von Windkraftanlagen sind oft schwer für ein Training von Modellen zu beschaffen. Die zunehmende Verfügbarkeit von akustischen Datensätzen zur Modellbildung wird die Entwicklung von akustischen Modellen weiter vereinfachen.
Dieses KI-Element ist einerseits noch akademisch geprägt. Dafür stehen einschlägige Konferenzen wie die International Conference on Acoustics, Speech, and Signal Processing oder die International Society for Music Information Retrieval Conference. Andererseits befindet es sich gerade auf dem Sprung von akademischer Grundlagenarbeit hin zu marktreifen Produkten für neuartige Anwendungen. Typischerweise gründen Wissenschaftler ein Startup, das dieses KI-Element als Nischenprodukt platziert. Beispiele solcher Services sind eine AudioID für das Steuern von Zugriffen auf die Geräteklasse intelligenter Lautsprecher, das maschinelle Protokollieren von Dialogen zwischen mehreren Beteiligten, wie es die Lösung von Trint verspricht, oder die automatische Erkennung von Babyschreien der Firma Biloop. Häufig übernehmen Firmen wie Google, Amazon oder Facebook solche innovativen Dienste und integrieren diese in ihre Produkte und Services.