Masterarbeit MSTR-2024-108

Bibliograph.
Daten
Dosdall, Sarah: Analyse von Datenvorverarbeitungsmethoden zur Verbesserung der Diversität in Klassifikationsensembles.
Universität Stuttgart, Fakultät Informatik, Elektrotechnik und Informationstechnik, Masterarbeit Nr. 108 (2024).
113 Seiten, deutsch.
Kurzfassung

Maschinelles Lernen wird mittlerweile in verschiedenen Bereichen verwendet. Eine wesentliche Einschränkung von maschinellen Lernalgorithmen liegt jedoch darin, dass diese häufig Annahmen über die Daten treffen, die in realen Szenarien nicht erfüllt sind. So wird oft vorausgesetzt, dass jede Klasse im Datensatz gleichmäßig repräsentiert ist oder alle enthaltenen Informationen relevant sind. Beim Fehlen dieser Vorraussetzungen in einem Datensatz hat sich die Verwendung von Ensembles bewährt, da diese eine bessere Vorhersagegenauigkeit als einzelne Klassifikatoren erreichen.

Im Rahmen dieser Arbeit wird ein Konzept entwickelt und evaluiert, das durch die gezielte Anwendung von Datenvorverarbeitungsmethoden, entsprechend den Datencharakteristiken eines Datensatzes, die Diversität in Klassifikationsensembles erhöht. Ziel ist es, durch die gezielte Vorverarbeitung die Diversität im Ensemble zu erhöhen und damit die Klassifikationsleistung des Ensembles zu verbessern. Das erarbeitete Konzept wird prototypisch in einem AutoML-Ensemble Framework implementiert, welches die automatische Erstellung und gleichzeitige Optimierung von Vorverarbeitungsmethoden sowie Ensembles unterstützt. Anschließend erfolgt die Evaluation des Konzepts anhand von 23 Datensätzen, die sowohl Echtwelt- als auch synthetische Datensätze umfassen. Zur Bewertung des Konzepts werden Vergleichsläufe durchgeführt. Hierbei weist das erarbeitete Konzept im Schnitt die beste Performanz sowie Diversität auf. Die Ergebnisse der Evaluation zeigen, dass der erarbeitet Ansatz vielversprechend ist, um Diversität in Klassifikationsensembles zu erzeugen. Allerding werden mehrere Faktoren identifiziert, die die Klassifikationsleistung der Ensembles beeinträchtigen. Daher ist weitere Forschung erforderlich, um die Schwächen des entwickelten Konzepts gezielt zu adressieren und dessen Effektivität zu steigern.

Volltext und
andere Links
Volltext
Abteilung(en)Universität Stuttgart, Institut für Parallele und Verteilte Systeme, Anwendersoftware
BetreuerMitschang, Prof. Bernhard; Voggesberger, Julius
Eingabedatum16. April 2025
   Publ. Informatik