Bachelor Thesis BCLR-2017-69

BibliographyTschechlov, Dennis: Metriken zur Evaluation von Teilschritten in Data Mining Analysen.
University of Stuttgart, Faculty of Computer Science, Electrical Engineering, and Information Technology, Bachelor Thesis No. 69 (2017).
103 pages, german.
CR-SchemaH.3.3 (Information Search and Retrieval)
I.5.3 (Pattern Recognition Clustering)
Abstract

In dieser Arbeit wurde ein Konzept entwickelt, bei der für den K-means und den K-means++ eine effiziente Berechnung der Metriken ermöglicht wurde. Mit Hilfe der Metriken wurde anschließend ein Konvergenzkriterium zur frühzeitigen Terminierung für den K-means und den K-means++ aufgestellt. In den Experimenten konnte gezeigt werden, dass sowohl für synthetische, als auch für reale Datensätze Einsparungen in den Iterationen und der Ausführungszeit von über 90% möglich waren. Zudem wurde verdeutlicht, dass eine höhere Einsparung der Ausführungszeit auch gleichzeitig mit einem höheren Qualitätsverlust verbunden ist. Des Weiteren wurden diese beiden Metriken genutzt, um geeignete Zeitpunkte für eine Visualisierung auszumachen. Dabei ergaben sich für beide Metriken, die für jeweils beide Algorithmen geprüft wurden, je unterschiedliche Werte für die Anzahl der Visualisierungen. Diese erstreckten sich von 0% bis 30% der Anzahl der Iterationen des jeweiligen Durchlaufs. Es wurde zudem aufgezeigt, dass für beide Metriken die meisten Durchläufe der Visualisierungen im Bereich von 5% bis 20% waren. Daraufhin wurden beide Ansätze kombiniert, das heißt, dass untersucht wurde wie viele Visualisierungen sich bis zum festgelegten Konvergenzkriterium ergeben. Dabei hat sich herausgestellt, dass sich dafür deutlich mehr Visualisierungen im Verhältnis von Visualisierungen und Iterationen bis zur Konvergenz ergab.

Full text and
other links
PDF (1647579 Bytes)
Department(s)University of Stuttgart, Institute of Parallel and Distributed Systems, Applications of Parallel and Distributed Systems
Superviser(s)Schwarz, PD Dr. Holger; Behringer, Michael; Fritz, Manuel
Entry dateSeptember 28, 2018
   Publ. Computer Science