Die KI-Komponente Text Extraction [Te] erkennt und versteht Entitäten (z. B. Personen, Organisationen, Städte, Produkte) und Begriffe (z. B. Kommunikation, Innovation, Produktion) in Texten. Eine Kernfähigkeit für Text Extraction [Te] ist die Auflösung von Mehrdeutigkeiten in Namen und Wörtern: »Müller« bezeichnet, je nach Kontext, den Politiker Gerd Müller, den Fußballer Thomas Müller, die Drogeriekette Müller oder den Beruf Müller. Die Mehrdeutigkeit von Namen und Wörtern wird durch die Verknüpfung mit den passenden eindeutigen Entitäten und Konzepten in einer Wissensbank aufgelöst. Solche Wissensbanken werden häufig mit Hilfe von Wikipedia erstellt, indem jeder Artikel in eine maschinenverstehbare Entität oder ein Konzept transformiert wird. Für den Einsatz in speziellen Anwendungen oder Unternehmensfeldern muss die Wissensdatenbank angepasst werden. Text Extraction [Te] ordnet Namen und Wörtern eindeutige Bedeutungen zu.
Text Extraction [Te] ist Bestandteil von Suchmaschinen wie Google und Bing. Entitäten und Konzepte werden erkannt und helfen, Fragen direkt zu beantworten. Sucht man beispielsweise nach »Dylan Songs«, zeigt Google nicht nur die Lieder des Musikers an, sondern findet auch Webseiten, die beispielsweise »Like a Rolling Stone« erwähnen. Diese Auflistung wäre nicht möglich, ohne die Analyse der Suchanfrage, ob es sich hier um Bob Dylan (Entität) und dessen Lieder (Konzept) handelt. Diese Art von semantischer Suchfunktionalität ist für alle Unternehmen von Nutzen, die schnell große Textmengen durchforsten müssen. Ein konkretes Beispiel ist die Analyse sozialer Medien, etwa Produktbeschwerden: Schreibt ein Nutzer »Wrangler ist Mist«, sollte sich dann der Automobilhersteller oder Jeans-Hersteller Sorgen machen? Ohne Textextraktion kann diese Frage nicht eindeutig beantwortet werden. Das Zusammenspiel Text Extraction [Te] mit Language Understanding [Lu] ermöglicht viele weitere Anwendungsfälle. Beispiele hierfür finden sich im Kapitel zu Language Understanding [Lu].
Der Knowledge Graph in der Google-Suche schließt zum ersten Mal die kommerzielle Nutzung von riesigen Wissensdatenbanken mit hunderten Millionen von Entitäten und Konzepten ein. Nutzer der Suchmaschine bekommen nun direkt Bilder und relevante Fakten zu Personen und Unternehmen eingeblendet. Auch der Trend zu sprachbasierten Assistenten wie Siri, Alexa und Cortana zeigt den steigenden Bedarf an Text Extraction [Te]. Die Bedeutung des KI-Elements für den Unternehmenskontext wird dadurch ersichtlich, dass neben kleineren Unternehmen wie Ambiverse, Aylien, SpazioDati auch die großen IT-Unternehmen – allen voran Google, IBM und Microsoft – Schnittstellen für automatisiertes Textverständnis anbieten. Mit deren Hilfe können Entwickler dieses KI-Element in unternehmenseigenen Anwendungen nutzen.
Text Extraction [Te] ist die Basis für Language Understanding [Lu]. Entitäten und Konzepte in Texten agieren als Anker, deren Beziehungen Language Understanding [Lu] erlaubt. Häufig, beispielsweise bei sprachgestützten Assistenten, geht Text Extraction [Te] Speech Recognition [Sr] voraus, die Audiosignale in Text umwandelt. Die vollständige Verarbeitungskette ist dann Speech-to-Text-to-Knowledge [Sr]-[Te]-[Lu].
Große IT-Unternehmen wie Amazon, Google, IBM, Microsoft, SAP bieten alle Lösungen zum Erkennen und Verstehen von Entitäten und Konzepten an. Spezialanbieter erreichen häufig eine bessere Qualität oder bedienen eine besondere Nische: Ambiverse, Aylien, Basis Technologies, Bitext, SpazioDati und TextRazor.
Marketsandmarkets schätzt die Größe des Marktes für Text Analytics für das Jahr 2022 auf 8,8 Milliarden US-Dollar.
In einigen Anwendungsbereichen kann der volle Nutzen von Text Extraction [Te] erst bei Integration von Anwendungswissen ausgeschöpft werden. Dazu müssen unternehmenseigene Entitäten (Produkte, Partner, ...) und Konzepte (z. B. Fachbegriffe) in die Wissensdatenbanken eingebracht werden. Dies erfordert derzeit manuellen Aufwand, da die vollautomatische Integration und Erweiterung von Wissensdatenbanken in Unternehmen mit öffentlichen Wissensdatenbanken wie Wikidata, DBpedia oder YAGO noch fehlerbehaftet ist. Eine weitere Voraussetzung für die vollautomatische Integration ist die vollständige Digitalisierung unternehmensinterner Texte und Datenbanken.
Text Extraction [Te] ist seit Jahrzehnten Teil der Forschung. Auch heute gibt es viele Arbeiten auf Konferenzen wie der ACL, EMNLP, WWW oder ISWC oder in Fachzeitschriften wie Artificial Intelligence, die neue Methoden und Anwendungsfelder für das Erkennen und Verknüpfen von Namen und Worten mit Entitäten und Konzepten publizieren. Besonders Amazon, Google und Microsoft betreiben Forschung für Text Extraction [Te], was dem großen Nutzen des Elements bei der Websuche und sprachgesteuerten Assistenten geschuldet ist. Deutsche Unternehmen mit Produkten, die Text Extraction [Te] einsetzen, sind Intrafind und Empolis.