Bachelor Thesis BCLR-2019-35

BibliographyRoggenbuck, Kay: Feature-getriebene Darstellung von Clustering-Resultaten.
University of Stuttgart, Faculty of Computer Science, Electrical Engineering, and Information Technology, Bachelor Thesis No. 35 (2019).
73 pages, german.
Abstract

Durch die voranschreitende Digitalisierung steigt die Menge an erzeugten und gespeicherten Daten schnell an. Um diese Datenmenge dem Menschen verständlich zu machen, werden häufig Data-Mining-Verfahren wie beispielsweise Clustering eingesetzt. Clustering-Verfahren separieren den zugrunde liegenden Datensatz in Gruppen mit Ähnlichkeiten. Da Clustering-Verfahren keine Dimensionsreduktion durchführen, besitzen die Resultate noch immer viele Dimensionen und Datenpunkte. Dies sorgt dafür, dass die Interpretation dieser Resultate für den Menschen schwer ist. In dieser Arbeit wird ein Ansatz vorgestellt, welcher eine ausreichend detaillierte und zudem einfach verständliche Darstellung für Clustering-Resultate liefert. Um eine solche Darstellung zu ermöglichen, werden einzelne Cluster durch eine geringe Anzahl ausgewählter Informationen repräsentiert. Dabei werden Features anhand ausgewählter und neu entwickelter Metriken nach ihrer Aussagekraft für das Clustering bewertet und ausgewählt. Für die Wertebereiche dieser Features werden statistische Kenngrößen ermittelt. Weiterhin werden verschiedene Darstellungsformen dieser Ergebnisse vorgestellt, wie zum Beispiel Tabellen oder Wortwolken. Eine Evaluation mithilfe eines Goldstandards zeigt, dass der entwickelte Ansatz für das Finden aussagekräftiger Features eine hohe Genauigkeit und eine lineare Laufzeitkomplexität besitzt.

Full text and
other links
Volltext
Department(s)University of Stuttgart, Institute of Parallel and Distributed Systems, Applications of Parallel and Distributed Systems
Superviser(s)Schwarz, PD Dr. Holger; Fritz, Manuel; Behringer, Michael
Entry dateAugust 7, 2019
   Publ. Computer Science