Bachelor Thesis BCLR-2021-75

BibliographyBraun, Kai: Analyse von Clustering-Algorithmen zur Partitionierung von Trainingsdaten für komplexe Mehrklassenprobleme.
University of Stuttgart, Faculty of Computer Science, Electrical Engineering, and Information Technology, Bachelor Thesis No. 75 (2021).
61 pages, german.
Abstract

In den letzten Jahrzenten nahm die Anzahl der Datenmengen im Bereich der Informationstechnologie immer weiter zu. Mittlerweile können sie mithilfe algorithmischer Verfahren automatisch ausgewertet werden, um neue Informationen und Erkenntnisse zu erlangen. Diese algorithmischen Verfahren werden im Gebiet des Machine-Learnings fortlaufend weiterentwickelt. Daten aus der Industrie weisen meist komplexe Charakteristika auf, welche die Vorhersagegenauigkeit herkömmlicher Machine-Learning Klassifikatoren verringert. Bekannte Beispiele dafür sind etwa die Multi-Class Imbalance oder ein heterogenes Produktportfolio. Aus einer Vorarbeit \cite {Hirsch2020} geht hervor, dass eine geeignete Partitionierung der Daten die Vorhersagegenauigkeit der Klassifikatoren signifikant verbessert. Jedoch wird bei diesem Verfahren spezifisches Domänenwissen verlangt, mit dessen Hilfe die Daten partitioniert werden. Eine Methode, welche Daten unabhängig von Domänenwissen partitioniert, ist das Clustering. Im Rahmen dieser Arbeit soll geprüft werden, inwiefern eine rein datengetriebene Partitionierung mittels Clustering ähnliche Verbesserungen der Vorhersagegenauigkeit hervorbringen kann wie das domänengetriebene Verfahren. Hierfür wird ein Konzept zur datengetriebenen Partitionierung und anschließenden Klassifikation entwickelt. Ziel der datengetriebenen Partitionierung ist es herauszufinden, durch welche Clustering-Algorithmen eine verbesserte Vorhersagegenauigkeit möglich ist. Im Rahmen der Arbeit wird für die datengetriebene Partitionierung und Klassifikation folgendes Konzept entwickelt: Der erste Schritt der datengetriebenen Partitionierung sieht vor, den gesamten Datensatz mittels Clustering in einzelne Partitionen zu unterteilen. Im zweiten Schritt werden Klassifikatoren auf den einzelnen Partitionen angewendet. Dabei soll geprüft werden, durch welche Partitionierung der Daten die besten Klassifikationsergebnisse erreicht werden können. Mithilfe verschiedener Clustering-Metriken werden die Clustering-Ergebnisse der einzelnen Algorithmen evaluiert. Außerdem wird untersucht, welche Einflussfaktoren sich am stärksten auf die Klassifikationsergebnisse auswirken. Des Weiteren wird auf spezifische Herausforderungen, wie die Klassenungleichverteilung oder die fehlenden Features, eingegangen. Die Messergebnisse ergeben, dass eine Partitionierung mittels K-Means oder X-Means die besten Werte liefert.

Full text and
other links
Volltext
Department(s)University of Stuttgart, Institute of Parallel and Distributed Systems, Applications of Parallel and Distributed Systems
Superviser(s)Mitschang, Prof. Bernhard; Tschechlov, Dennis
Entry dateFebruary 15, 2022
New Report   New Article   New Monograph   Computer Science