Image Recognition [Ir] ermöglicht das Auffinden von Objekten in einem Bild. Die Art und die Anzahl der Objekte sind dabei offen und es spielt keine Rolle, ob es sich um ein einzelnes Bild oder um eine Reihe von Bildern in einem Video handelt. Allgemein besteht die Funktion dieses KI-Elements in der Zuordnung von Objekten in einer Abbildung zu einer zuvor bestimmten Kategorie wie beispielsweise Mensch, Fahrzeug oder Baum. Die Anwendung ist dabei nicht auf das Bildverständnis des Menschen beschränkt.
Image Recognition [Ir] stellt einen weitverbreiteten Anwendungsfall dar und bildet den ersten Schritt für komplexere Systeme. Kameras, Infrarot- oder Röntgengeräte liefern Daten, die dann als spezifische Objekte erkannt werden. Dies können beispielsweise ein Tumor, ein Straßenschild oder auch ein Kratzer auf einem Brillenglas sein.
Informationen, die Bildern entnommen werden, geben in der Qualitätssicherung Aufschluss über den Zustand eines Werkstoffes, identifizieren Menschen auf Bildern von Überwachungskameras, erkennen Anomalitäten auf CT-, MRT-, oder Ultraschallbildern oder ermöglichen Gestensteuerung auf TV-Geräten.
Image Recognition [Ir] ist keine neue Technologie, jedoch sind die Verbesserungen herausragend, die durch KI in den letzten Jahren erreicht wurden. An erster Stelle wäre das autonome Fahren zu nennen – unmöglich ohne Kameratechniken und KI. Nicht für jede Situation im Straßenverkehr können vorab Entscheidungsregeln festgelegt werden. Autonome Systeme müssen ad hoc reagieren können. Die Marktbedeutung wird durch das Entstehen von Bilddatenbanken wie Imagenet sowie hochdotierte Wettbewerbe zur genauen Objekterkennung unterstrichen.
Objekterkennung ist ein komplexer Vorgang, da bildgebende Geräte nur Daten liefern. Diese werden anschließend interpretiert, in einen Kontext gestellt und schließlich in eine Entscheidung überführt. Die Objekterkennung ist also unmittelbar verknüpft mit Image Identification [Ii] sowie mit ihren spezifischen Anwendungsfällen der Face Recognition [Fr] und Face Identification [Fi]. Ebenso besteht eine enge Verknüpfung mit Relationship Learning [Lr] und Decision Making [Dm].
Es gibt zahlreiche Anbieter für Spezialanwendungen. In Deutschland adressiert maßgeblich die Forschungsallianz 3Dsensation (die vom Fraunhofer IOF geführte Allianz besteht aktuell aus 20 Forschungsinstituten und über 40 Firmen, darunter Carl Zeiss, Jenoptik, Audi oder auch Festo) die Bedarfsfelder Produktion, Gesundheit, Mobilität und Sicherheit sowie neuartige Interaktionen zwischen Mensch und Maschine. Dazu gehören Anwendungen wie Follow-Me-Systeme in der Logistik, Assistenzroboter und Systeme zum Erfassen von Montageszenarien. Des Weiteren existieren Lösungen zum Erkennen von Fehlbeständen in Lagern oder im Einzelhandel sowie zur 2D- und 3D-Wandlung im Ultraschall wie auch in der endoskopischen Panoramabildgebung.
In einem Report des Verbands Deutscher Maschinen- und Anlagenbau wurde für die deutsche Bildverarbeitungsindustrie im Jahr 2014 ein Umsatz von 1,9 Milliarden Euro ermittelt. Die gesamtwirtschaftliche Bedeutung ist jedoch noch höher einzuschätzen: Ohne Image Recognition [Ir] wären viele Bereiche der Automatisierung und der Digitalisierung nicht möglich, angefangen bei der Robotik, über autonomes Fahren bis hin zur Mülltrennung.
Objekterkennung setzt eine Vernetzung unterschiedlicher Fähigkeiten voraus und erfordert in hohem Maße Erfahrung und Kontextwissen. Ein Mensch erkennt Objekte auch, wenn sie gedreht oder teilweise verdeckt sind oder wenn bewegliche Objekte in einem Bild verfolgt werden. Diese Fähigkeiten mit Hilfe von Software umzusetzen ist eine große Herausforderung. KI-Systeme nutzen große Datenmengen, um daraus Muster abzuleiten. Die Leistungsfähigkeit eines Systems zur Image Recognition [Ir] ist jedoch nur schwer vorherzusagen. Problematisch ist insbesondere, dass die notwendigen Daten oft nur spärlich und selten in guter Qualität vorliegen. Außerdem benötigen viele Algorithmen lange Trainingszeiten. Aufgrund der benötigten Rechenleistung ist die Nutzung von Cloud-Diensten notwendig. Dabei entstehen Fragen zur Datensicherheit und zum Datenschutz. Eine weitere Hürde ist fehlendes Personal mit Kenntnissen im Bereich Image Recognition [Ir].
Wesentliche Kräfte bei der Entwicklung der technischen Grundlagen sind große IT-Dienstleister wie Google, Facebook, IBM, Microsoft oder Amazon. In der universitären Forschung sind im Bereich Image Recognition [Ir] die Stanford University (vgl. das Projekt www.image-net.org) sowie in Deutschland das Deutsche Forschungszentrum für Künstliche Intelligenz und das Karlsruher Institut für Technologie führend. Durch Open-Source-Initiativen rücken Forschung und Anwendung aktueller Techniken näher zusammen. Eine notwendige Grundlage für die Entwicklung eines Image-Recognition-Systems bilden Referenzdaten und Gütemaße. Aus diesem Grund ist z. B. ImageNet unabdingbar für wissenschaftliche Fortschritte im Rahmen der Bildverarbeitung.