Audio Recognition [Ar], Speech Recognition [Sr] und Audio Identification [Ai] sind eng verwandt und überlappen sich teilweise. Nach einer Analyse des Audiosignals wird bei dem KI-Element Audio Recognition [Ar] das Signal von maschinellen Lernverfahren klassifiziert. Es wird entschieden, welche relevante Information im Signal vorhanden ist. Das kann beispielsweise ein Wort, ein akustisches Ereignis oder eine akustische Szene sein. So wie der Mensch laufend seine Umgebung akustisch analysiert, können auch Computer neben Sprache weitere akustische Signale erkennen und den Inhalt und die Relevanz für die aktuelle Situation bewerten. Hört ein Mensch z. B. eine Explosion oder das Einschlagen einer Scheibe, benötigt er keinen Blick auf das Ereignis, um zu wissen, worum es sich handelt. Menschen sind auf kritische Ereignisse – zu denen auch Sprachäußerungen gehören – sehr gut trainiert. Diese Fähigkeit bildet Audio Recognition [Ar] nach.
Für Hörgeräte, Freisprecheinrichtungen, assistive Hörhilfen, aber auch allgemeine Spracherkennungs- und akustische Analysesysteme ist das Verstehen der akustischen Umgebung wichtig, um ein gutes Ergebnis zu erzielen. Algorithmen in solchen Systemen funktionieren umso besser, je genauer sie den akustischen Kontext kennen. Systeme für Speech Recognition [Sr] werden für einen Einsatz einer Maschinensteuerung in lauten Fabrikhallen anders optimiert als für einen Einsatz in Diktiersystemen in ruhigeren Büroumgebungen. Dieser Teil der Audio Recognition [Ar] wird auch als akustische Szenenanalyse bezeichnet. Hier wird analysiert, ob sich das System z. B. innerhalb ruhiger Gebäude, auf offener Straße oder an einem Bahnhof befindet. Mithilfe dieser Kenntnis können für Speech Recognition [Sr] und Audio Identification [Ai] höhere Erkennungsraten erzielt werden, was wiederum die Nutzerakzeptanz erhöht.
Das KI-Element Audio Recognition [Ar] zur Analyse des akustischen Kontexts wird seit den 1990ern erforscht und fand ca. 10 Jahre später Einzug in Hörgeräte. Die Akzeptanz früher Systeme war gering, ähnlich wie bei Speech Recognition [Sr] und Audio Identification [Ai]. Durch neue Ansätze, insbesondere im Bereich neuronaler Netze, stieg die Erkennungsrate in den letzten Jahren stark an, so dass akustische Erkennungsverfahren nun zunehmend Einzug in den Markt finden. Am deutlichsten erkennbar ist dies im Bereich Speech Recognition [Sr]; allgemeine Verfahren zur Audio Recognition [Ar] arbeiten hier meist unbemerkt im Hintergrund und unterstützen andere Funktionen der Audioanalyse.
Technologisch ist Audio Recognition [Ar] sehr eng sowohl mit Audio Identification [Ai] als auch mit Speech Recognition [Sr] verwandt. Es kommen ähnliche Technologien und Algorithmen zum Einsatz und Audio Recognition [Ar] kann einerseits als Oberbegriff von Audio Identification [Ai] und Speech Recognition [Sr] angesehen werden. Andererseits sind grundlegende Erkennungsverfahren im Audiosignal für Hintergrundanalysen ein notwendiger Schritt für die Optimierung anderer akustischer Funktionen, z. B. der Analyse der akustischen Umgebung.
Nachdem Audio-Recognition-Technologien nach ihren ersten Einsätzen in Produkten, z. B. Spracherkennung in Telefon-Hotlines, wegen unzureichender Qualität von Nutzern abgelehnt wurden, hält die Technologie nun mit verbesserten Erkennungsraten verstärkt Einzug in den Markt. Bei Spracherkennungssystemen ist das am deutlichsten zu sehen; in Überwachungskameras, Babyfonen, in Licht- und Notrufsystemen für die Pflege oder in Hörgeräten werden aktuell akustische Erkennverfahren integriert.
Etwa 70 Millionen Personen in Europa leiden unter Hörverlust, in der Altersgruppe über 65 Jahre jeder zweite. Jedoch nutzen nur ca. 25 Prozent dieser Personen ein Hörgerät. Insbesondere beim Telefonieren sind Hörgeräteträger bisher unzufrieden. Allein in diesem Bereich ergibt sich also großes Potenzial, die aktuell eingesetzten Verfahren zu verbessern. Auch die Märkte für Spracherkennung und Klassifikation nichtsprachlicher Audiosignale, z. B. im Bereich Industrie 4.0, sind Wachstumsmärkte.
Während für das Training von Spracherkennungssystemen üblicherweise große Mengen an Sprachaufzeichnungen zur Verfügung stehen, ist die Beschaffung von geeignetem Audiomaterial nichtsprachlicher Ereignisse meist schwieriger (z. B. bei Trainingsmaterial für defekte teure Maschinen wie Windkraftanlagen). Die Erkennungsleistung und damit der Kundennutzen und die Kundenakzeptanz hängt aktuell also oft davon ab, ob geeignetes Beispielmaterial in ausreichender Menge beschafft werden kann.
Fortschritte im Bereich der Speech Recognition [Sr] unterstützen ebenfalls die Entwicklung im Bereich Audio Recognition [Ar]. Aktivitäten zur Sammlung von Audiomaterial befruchten wiederum die Weiterentwicklung der Erkennungsverfahren, insbesondere durch die Anwendung neuronaler Netze. Wie auch bei Speech Recognition [Sr] treiben Unternehmen mit Produkten und Services im Bereich Audio Recognition [Ar] die Entwicklung des Elements an. Firmen wie IBM, Google, Amazon, Microsoft und Apple integrieren ihre Softwarelösungen für Spracherkennung in Smart Home System. Auch das Department of Defense der USA und die Fraunhofer-Gesellschaft forschen auf diesem Gebiet.