Bachelor Thesis BCLR-2023-53

BibliographySchneider, Michael: AutoML für Clustering zur Datenpartitionierung für einen Multi-Klassen-Anwendungsfall.
University of Stuttgart, Faculty of Computer Science, Electrical Engineering, and Information Technology, Bachelor Thesis No. 53 (2023).
54 pages, german.
Abstract

In der heutigen datengetriebenen Welt ist die effiziente und effektive Verarbeitung und Analyse von vorhandenen Datenmengen von essenzieller Bedeutung. Bisherige Arbeiten von Hirsch et al. [HRM19; HRM20] zeigen, wie man analytischen Herausforderungen eines Datensatzes aus Produk- tionsdaten, nämlich eine kleine Datensatzgröße, Klassenungleichverteilung und ein heterogenes Produktportfolio (C1-C3) angehen kann. Mit Hilfe von Ensemble-Learning-Verfahren kann die Klassifikation verbessert werden[HRM19]. Es wird aufgezeigt, dass verfügbares Domänenwissen in Form einer Produkthierarchie dazu genutzt werden kann, die Daten zu partitionieren, sodass die Vorhersage einer anschließenden Klassifikation signifikant verbessert werden kann [HRM20]. In Der Arbeit von Braun [Bra21] wird untersucht, ob die Vorhersage auf einem synthetisch generierten Datensatz mit denselben analytischen Herausforderungen, auch ohne vorhandenes Domänenwissen, verbessert werden kann. Dabei sollen die Daten durch eine rein datengetriebene Partitionierung mittels Clustering aufgeteilt werden, um die nachfolgende Klassifikation zu vereinfachen und homogenere Gruppen mit ähnlichen Eigenschaften zu erzeugen. Dabei werden vergleichbare oder sogar leicht verbesserte Ergebnisse, im Vergleich zur Klassifikation ohne Datenpartitionierung, erzielt. Jedoch zeigt sich, dass es Schwierigkeiten bei der Parameterwahl der Clustering-Algorithmen und die Bewertung der resultierenden Cluster gibt. Daher wird AutoML4Clust [TFS+21] eingesetzt, um die Parameterauswahl mittels intrinsischer Clustering-Metriken zu optimieren. In dieser Arbeit wird untersucht, ob die Erkenntnisse aus Brauns Vorarbeit [Bra21] auf realen Produktionsdaten eines Laserschneidemaschinenherstellers übertragen werden können. Hierbei sollen die Produktionsdaten dazu genutzt werden, den voll-automatisierten Prozess der Laserschnei- demaschinen zu optimieren, indem Fehlzustände vor dem eigentlichen Prozess erkannt werden können. Die Produktionsdaten weisen dieselben analytischen Herausforderungen C2 und C3 aus [HRM19] auf, jedoch stellt im Vergleich zu C1, durch eigener Analyse die große Datenmenge, bestehend aus 6,5 Millionen Datenpunkten und 155 Features, eine neue Herausforderung dar. Die Umsetzung einer datengetriebenen Partitionierung eines Datensatzes dieser Größenordnung erfordert zusätzliche Methoden wie Undersampling und Feature-Selection, um der Laufzeit- und Speicherkomplexität der verwendeten Algorithmen entgegenzuwirken. Außerdem liegen keine vorher bekannten Cluster-Labels vor, wodurch eine Optimierung, basierend auf Metriken mit diesen bekannten Cluster-Labels, unmöglich ist. Das Hauptziel dieser Arbeit besteht darin, ein automatisch optimiertes Vorhersagemodell speziell für diesen Anwendungsfall zu erstellen, welches die Parameter der Clustering und Klassifikations-Algorithmen kombiniert optimiert. Dazu wird das Clustering als Vorverarbeitung der Daten genutzt, um homogenere Gruppen zu bilden. Für die Analyse und um die Herausforderungen der Daten zu adressieren, wird eine vollständig modulare Pipeline in Python erstellt. Jeder Schritt, einschließlich Datenaufbereitung, Undersampling, Clustering, Klassifikation, automatisiertes maschinelles lernen (AutoML), Modell-Retraining und Evaluation, kann erweitert oder ausgetauscht werden. Zusätzlich werden Python-Module verwendet, um das Tracking und die Durchführung von Experimenten zu vereinfachen und die Algorithmen mit Hilfe von GPUs zu beschleunigen. Bei der Evaluation zeigt sich eine geringfügig schlechtere Vorhersagegenauigkeit bei der Optimierung des kombinierten Clusterings und Klassifikation im Vergleich zum optimierten Baseline Random- Forest-Klassifikator ohne Datenpartitionierung. Zudem resultiert dies, trotz erheblichem zeitlichem Mehraufwand, der durch die benötigten extra Schritte für die Optimierung verursacht wird.

Full text and
other links
Volltext
Department(s)University of Stuttgart, Institute of Parallel and Distributed Systems, Applications of Parallel and Distributed Systems
Superviser(s)Schwarz, Prof. Holger; Tschechlov, Dennis
Entry dateFebruary 23, 2024
New Report   New Article   New Monograph   Computer Science