Bachelorarbeit BCLR-2019-92

Bibliograph. Daten	Buttgereit, Lars: Wird dieser Tweet gelöscht? Ein Ansatz zur automatischen Vorhersage durch maschinelles Lernen. Universität Stuttgart, Fakultät Informatik, Elektrotechnik und Informationstechnik, Bachelorarbeit Nr. 92 (2019). 82 Seiten, deutsch.
Kurzfassung	In sozialen Netzwerken wie Twitter werden täglich viele Beiträge bzw. Tweets erstellt. Davon werden einige im Nachhinein wieder gelöscht. Allerdings können durch die Löschung eines Tweets negative Folgen entstehen, weshalb ein System zur Erkennung solcher Tweets erstellt werden soll. Dafür wird in dieser Arbeit untersucht, wie gut es möglich ist, mit verschiedenen Featuremengen eine Löschung bereits im Voraus zu erkennen. Dabei werden Bag-of-Words-Feature, Nutzernamen der Ersteller und Emotionen in den Tweets als Featuremengen untersucht. Dafür wurde jeweils ein eigener Klassifikator für jede Featuremenge erstellt. Diese werden mit einer logistischen Regression als Klassifikationsalgorithmus erzeugt. Damit wird die Erkennung für einen gelöschten Tweet für jede Featuremenge einzeln untersucht. Außerdem werden die verschiedenen Klassifikatoren anschließend unterschiedlich miteinander kombiniert, um eine Verbesserung der Klassifizierung zu erreichen. Weiter werden die Tests mit zwei Datensätzen durchgeführt. Diese sind zum einen ein Twitterdatensatz mit Tweets von allen Nutzern (TweetAllNut) und zum andern ein Twitterdatensatz ohne Tweets von gelöschten Nutzern (OhneTweetGelNut). Hierbei wird der Korpus OhneTweetGel-Nut als realistischeres Abbild für die Löschung von Tweets angesehen, weil weniger Tweets mit störenden Eigenschaften vorhanden sind. Damit konnte bei der Nutzung der Bag-of-Words-Feature ein Recall von 0,42 und eine Precision von 0,16 erreicht werden. Wurde zusätzlich die Emotion mit einbezogen, konnte ein Recall von 0,47 und eine Precision von 0,13 erzielt werden. Mit allen Featuremengen können Werte von 0,41 beim Recall und von 0,70 bei der Precision erzeugt werden.Aus den Ergebnissen ist ersichtlich, dass eine Erkennung nur mit Features aus dem Text des Tweets, nur eingeschränkt möglich ist. Dabei haben hier die Emotionen und die Bag-of-Words-Feature nur eine geringe Verbesserung erzielt, gegenüber den Bag-of-Words-Features alleine. Weiter ist dieses Nutzernamenmodell trotz guter Werte in den Evaluationsmetriken nur eingeschränkt für diese Problemstellung nutzbar, weil mehrere Probleme mit diesem Modell entdeckt wurden. Außerdem konnte durch die Kombination aller Modelle keine Verbesserung gegenüber allen Einzelmodellen erzeugt werden.
Volltext und andere Links	Volltext
Abteilung(en)	Universität Stuttgart, Institut für Maschinelle Sprachverarbeitung
Betreuer	Padó, Prof. Sebastian, Klinger, Dr. Roman
Eingabedatum	26. Februar 2020

Publ. Informatik