Bachelorarbeit BCLR-2019-23

Bibliograph.
Daten
Renz, Tobias: Auswirkungen von Textcharakteristika auf die Qualität von Clustern.
Universität Stuttgart, Fakultät Informatik, Elektrotechnik und Informationstechnik, Bachelorarbeit Nr. 23 (2019).
77 Seiten, deutsch.
Kurzfassung

In dieser Arbeit wird unterschucht inwiefern zwischen Textcharakteristiken insbesondere die lexikalische Diversität und der Qualität von Clustern einen Zusammanhang besteht. Die lexikalische Diversität eines Textes wird durch die Division aus der Vokabelmenge durch die Anzahl der Token im Text berechnet. Um festzustellen ob ein Zusammenhang zwischen der lexikalischen Diversität und der Qualität von Clustern besteht, wurden Experimente durchgeführt. Dazu wurde ein Prototyp in der Sprache Python implementiert, der verschiedene Textcharakteristika messen, die Textqualität mit verschiedenen Texttransformationsschritten ändern, bzw. verbessern (z. B. durch Entfernen von Stoppwörtern oder das Auflösen von Abkürzungen), die Textdaten vektorisieren, diese Vektoren clustern und aus ermittelten Clusterergebnissen Evaluationsmetriken berechnen kann. Um auf die Anforderungen der untschiedlichen Prozesschritte eingehen zu können, wurde der Prototyp so implementiert, dass er flexibel einsetzbar, mit wenig Aufwand für die Berechnung von weiterer Textcharaktersitika und Texttransformationsschritte erweiterbar und mit sehr wenig Aufwand auf Textdatensätze anwendbar ist. Im Rahmen der Experimente wurden acht Textdatensätze mit unterschiedlichen Inhalten, die teilweise mit Label annotiert wurden, ausgewählt und von allen genannten Prozessschritten verarbeitet. Für die Textdatensätze, nicht initial mit Label ausgeliefert werden, wurden mit Hilfe des Silhouette Score Clusteranzahlen ermittelt. Jeder Textdatensatz wurde jeweils zweimal mit unterschiedlichen Clusteranzahlen geclustert. Die Ergebnisse wurden in Tabellen zusammengetragen und in einzelnen Fällen als Säulendiagramme graphisch dargestellt. In den Experimenten stellte sich herraus, dass zwischen der lexikalischen Diversität und der Qualität von Clustern nicht in allen Fällen ein Zusammenhang besteht. Auch wenn im Einzelfall eine Tendenz festgestellt werden kann, ist die Qualität von Clustern von anderen Charakteristiken abhängig.

Abteilung(en)Universität Stuttgart, Institut für Parallele und Verteilte Systeme, Anwendersoftware
BetreuerMitschang, Prof. Bernhard; Kiefer, Cornelia; Fritz, Manuel
Eingabedatum7. August 2019
   Publ. Abteilung   Publ. Institut   Publ. Informatik