Künstliche Intelligenz, vor allem generative Künstliche Intelligenz, ist zunehmend präsent und beeinflusst unser tägliches Leben immer stärker. Zuweilen nehmen die Diskussionen rund um generative KI – insbesondere im Verhältnis zu Urhebern und dem Urheberrecht – emotionale Züge an. Es ist deshalb wichtig zu wissen, wie generative KI technisch funktioniert, welche rechtlichen Aspekte dabei eine Rolle spielen und was das Urheberrecht schützt – oder eben nicht schützt. Neue Technologien können aufgrund der Neuartigkeit und dem anfangs fehlendem Verständnis naturgemäß bei einigen Menschen Skepsis hervorrufen. Dieses Whitepaper soll einen leicht verständlichen Einblick in die Entwicklung von Large Language Models (LLM) und Large Multimodal Models (LMM) geben. Es handelt sich dabei um zwei der wesentlichen Technologien, die Anwendungen generativer KI zugrunde liegen.
LLM und LMM fußen in ihrer Entwicklung auf einem Trainingsschritt, in welchem sich die LLM und LMM die Regeln der Informationsverarbeitung anlernen. Grundlage dieses Trainings sind Trainingsdaten. Deshalb beginnt dieses Whitepaper mit den trainingsvorbereitenden Prozessen, in welchen die Trainingsdaten gesammelt und aufbereitet werden. Dabei steht die rechtliche Zulässigkeit der Trainingsdatenzusammenstellung im Mittelpunkt, insbesondere im Hinblick auf Web Crawling und -Scraping. Hierbei stellen sich Fragen nach dem Urheberrecht und den geltenden Schrankenregelungen, wie etwa der Text and Data Mining (TDM)-Schranke gemäß § 44b des Urheberrechtsgesetzes. Im Hinblick auf diesen Entwicklungsschritt wird dargelegt, welche Maßnahmen Urheberinnen und Urheber ergreifen können, um einer Verwendung ihrer Werke für das Training von generativer KI zu widersprechen.
In einem zweiten Schritt wird der eigentliche Trainingsprozess von KI-Modellen betrachtet. Dabei liegt ein Fokus auf der Parametrisierung des Modells und den verschiedenen Phasen des Trainings selbst. Besonderes Augenmerk liegt auf der rechtlichen Perspektive während des Trainings – vor allem darauf, dass im Training in der Regel keine urheberrechtlich relevanten Vervielfältigungshandlungen stattfinden.
Abschließend werden die rechtlichen Aspekte nach dem Training und im Betrieb von KI-Modellen untersucht. Hierbei wird untersucht, inwieweit KI-Output möglicherweise Urheberrechte verletzen könnte und wie und ob KI-Output urheberrechtlich geschützt ist.