Masterarbeit MSTR-2021-90

Bibliograph.
Daten
Vijayaruban, Mezak: Erklärbarkeit von Data Set Shifts in Zeitreihendaten von Feinstaubmessungen.
Universität Stuttgart, Fakultät Informatik, Elektrotechnik und Informationstechnik, Masterarbeit Nr. 90 (2021).
113 Seiten, deutsch.
Kurzfassung

AI-Verfahren sind heutzutage ein wesentlicher Bestandteil in der Analyse von Daten. Besonders in Bereichen, in denen sehr große Mengen an Daten generiert werden, sind AI-Verfahren unersetzlich. AI-Systeme unterstützen die automatisierte Erkennung von Regelmäßigkeiten in Daten und erlauben das so erlernte Wissen auf bereits vorhandene oder zukünftige Daten anzuwenden. Ein gravierendes Problem für dieses Vorgehen stellen Dataset Shifts dar. Dataset Shifts beschreiben statistische Veränderungen in Datenverteilungen und haben zur Folge, dass das erlernte Wissen nicht mehr auf die vorliegenden Daten angewendet werden kann. Das erneute Trainieren des Prognosemodells könnte zwar das Modell an die neue Datenverteilung anpassen, behebt aber nicht immer die Grundursache, da die Veränderung der Datenverteilung durch verschiedene Ursachen erzeugt werden kann. Für den Umgang mit Dataset Shifts im Kontext von AI-Systemen ist es essenziell Dataset Shifts zu erkennen und die Ursache zu bestimmen. Es existieren Verfahren sowohl für die Erkennung von Dataset Shifts als auch für die Erklärung von einzelnen Ausgaben von ML-Modellen (XAI). Es sind jedoch kaum Verfahren vorhanden, die Dataset Shifts erkennen und die erkannten Dataset Shifts erklären. Aktuell existieren nur zwei Verfahren in diesem Bereich, die aber nicht in der Lage sind domänenspezifische Erklärungen zu generieren. Aus diesem Grund wird ein neues Verfahren entwickelt, welches Dataset Shifts erkennt und mithilfe von Domänenwissen erklärt. Für die Erkennung von Dataset Shifts gibt es zwar einige Methoden, diese liefern jedoch nicht die benötigten Informationen und müssen entsprechend erweitert werden. In dieser Arbeit werden für die Generierung von Erklärungen sogenannte Probabilistische Ontologien verwendet. Diese ermöglichen es Erklärungen mithilfe von Domänenwissen zu modellieren und Aussagen auf Basis von unvollständigen und oft auch ungenauen Informationen zu treffen. Es werden verschiedene Modelle für die Erkennung von Dataset Shifts und probabilistische Ontologien analysiert und daraus ein Konzept zur Erklärung von Dataset Shifts entwickelt. Im Anschluss wird eine konkrete Umsetzung des Konzeptes vorgestellt und die Funktionsweise des Prototyps anhand mehrerer Beispiele veranschaulicht. In der abschliessenden Evaluation wird ersichtlich, dass das vorgestellte Verfahren das Potenzial besitzt Erklärungen anhand von Domänenwissen zu generieren, es aber einige Aspekte bei den verwendeten Techniken gibt, welche zukünftig noch verbessert werden müssen.

Volltext und
andere Links
Volltext
Abteilung(en)Universität Stuttgart, Institut für Parallele und Verteilte Systeme, Anwendersoftware
BetreuerMitschang, Prof. Bernhard; Weber, Dr. Christian; Reimann, Dr. Peter
Eingabedatum26. April 2022
   Publ. Informatik