Master Thesis MSTR-2023-63

Bibliography	Salaheddine, Ali: Context-aware machine-learning-based error detection. University of Stuttgart, Faculty of Computer Science, Electrical Engineering, and Information Technology, Master Thesis No. 63 (2023). 79 pages, english.
Abstract	ï»¿Kurzfassung: Der rasante Zuwachs an internetfähigen Geräten in den letzten Jahren führte zu immensen Datenmengen. Jedoch bergen die daraus generierten Daten auch ein inhärentes Risiko, nämlich die Präsenz von fehlerhaften Daten. Solche Fehler in den Daten führen zu einer Beeinträchtigung der zugrunde liegenden Anwendung der Daten. Fehler aus Daten zu eliminieren, ist daher ein weit untersuchtes Forschungsfeld. Mit dem Durchbruch, des maschinellen Lernen wurde eine neue Möglichkeit geschaffen, Fehlererkennungssysteme zu entwickeln. Solche Systeme benötigen jedoch große gelabelte Datenmengen, um die gewünschte Mächtigkeit zu erreichen. Da das Labeln von Daten eine äußerst repetitive und zeitaufwendige Arbeit ist, sind in der Praxis nur selten solche Datensätze verfügbar. 'Aktives Lernen' als Teilgebiet des maschinellen Lernens schafft es, mit dieser Einschränkung umzugehen. Mithilfe von wenigen gelabelten Daten werden dabei Modelle zur Fehlererkennung trainiert, die vielversprechende Ergebnisse erreichen. In unserer Arbeit beschäftigen wir uns damit, die Entwicklung solcher Modelle mithilfe von Informationen über den Kontext in dem die Daten generiert wurden, zu verbessern. Wir präsentieren drei verschiedene Pipeline-Ansätze zur Entwicklung von Fehlererkennungsmodellen, die jeweils auf einer zweistufigen Architektur basieren: Die erste Stufe sammelt Kontextwissen mittels eines Tools namens RTClean, und die nachfolgende Stufe nutzt dieses Wissen, um die durch aktives Lernen gesteuerte Fehlererkennung zu unterstützen. Die Evaluierungsergebnisse zeigten, dass diese zweistufige Struktur in optimalen Szenarien die Genauigkeit um 10-40% steigern konnte. Bestimmte Fälle weisen jedoch erhebliche Leistungsdefizite auf, was auf mögliche Ineffizienzen hinweist. Eine wichtige Erkenntnis ist, dass RTClean verbessert werden muss, um den Erfolg der darauf aufbauenden Pipelines zu gewährleisten. Zusammenfassend lässt sich sagen, dass die Verwendung von RTClean zur Verbesserung der auf aktivem Lernen basierenden Fehlererkennung vielversprechende Wege zur Minimierung menschlicher Eingriffe in den Prozess bietet. Abstract: The rapid growth of Internet-enabled devices in recent years has resulted in immense amounts of data. However, the data generated from this also carries an inherent risk, namely the presence of erroneous data. Such errors in the data lead to degradation of the underlying application. Eliminating errors from data is therefore a widely studied area of research. With the breakthrough, of machine learning, a new opportunity has been created to develop error detection systems. However, such systems require large amounts of labeled data to achieve the desired power. Since labeling data is an extremely repetitive and time-consuming task, such datasets are rarely available in practice. 'Active learning' as a subfield of machine learning manages to deal with this limitation. Using a small amount of labeled data, this involves training models for error detection that achieve promising results. In our work, we address how to improve the development of such models using information about the context in which the data was generated. We present three different pipeline approaches for developing error detection models, each based on a two-stage architecture: The first stage gathers context knowledge using a tool called RTClean, and the subsequent stage uses this knowledge to support error detection driven by active learning. Evaluation results showed that this two-stage structure could increase accuracy by 10-40% in optimal scenarios. However, certain cases showed significant performance deficits, indicating potential inefficiencies. A key finding was that RTClean needs to be improved to ensure the success of pipelines built upon it. In conclusion, the utilization of RTClean to enhance active learning-based error detection offers promising avenues for minimizing human intervention in the process.
Full text and other links	Volltext
Department(s)	University of Stuttgart, Institute of Parallel and Distributed Systems, Applications of Parallel and Distributed Systems
Superviser(s)	Schwarz, Prof. Holger; Del Gaudio, Daniel
Entry date	February 20, 2024

Publ. Computer Science