Bachelorarbeit BCLR-2017-69

Bibliograph.
Daten
Tschechlov, Dennis: Metriken zur Evaluation von Teilschritten in Data Mining Analysen.
Universität Stuttgart, Fakultät Informatik, Elektrotechnik und Informationstechnik, Bachelorarbeit Nr. 69 (2017).
103 Seiten, deutsch.
CR-Klassif.H.3.3 (Information Search and Retrieval)
I.5.3 (Pattern Recognition Clustering)
Kurzfassung

In dieser Arbeit wurde ein Konzept entwickelt, bei der für den K-means und den K-means++ eine effiziente Berechnung der Metriken ermöglicht wurde. Mit Hilfe der Metriken wurde anschließend ein Konvergenzkriterium zur frühzeitigen Terminierung für den K-means und den K-means++ aufgestellt. In den Experimenten konnte gezeigt werden, dass sowohl für synthetische, als auch für reale Datensätze Einsparungen in den Iterationen und der Ausführungszeit von über 90% möglich waren. Zudem wurde verdeutlicht, dass eine höhere Einsparung der Ausführungszeit auch gleichzeitig mit einem höheren Qualitätsverlust verbunden ist. Des Weiteren wurden diese beiden Metriken genutzt, um geeignete Zeitpunkte für eine Visualisierung auszumachen. Dabei ergaben sich für beide Metriken, die für jeweils beide Algorithmen geprüft wurden, je unterschiedliche Werte für die Anzahl der Visualisierungen. Diese erstreckten sich von 0% bis 30% der Anzahl der Iterationen des jeweiligen Durchlaufs. Es wurde zudem aufgezeigt, dass für beide Metriken die meisten Durchläufe der Visualisierungen im Bereich von 5% bis 20% waren. Daraufhin wurden beide Ansätze kombiniert, das heißt, dass untersucht wurde wie viele Visualisierungen sich bis zum festgelegten Konvergenzkriterium ergeben. Dabei hat sich herausgestellt, dass sich dafür deutlich mehr Visualisierungen im Verhältnis von Visualisierungen und Iterationen bis zur Konvergenz ergab.

Volltext und
andere Links
PDF (1647579 Bytes)
Abteilung(en)Universität Stuttgart, Institut für Parallele und Verteilte Systeme, Anwendersoftware
BetreuerSchwarz, PD Dr. Holger; Behringer, Michael; Fritz, Manuel
Eingabedatum28. September 2018
   Publ. Abteilung   Publ. Institut   Publ. Informatik