Bachelorarbeit BCLR-2019-101

Bibliograph.
Daten
Niederhausen, Tim: Untersuchung der Auswirkungen von Autoencodern auf Datenanalyseprozesse.
Universität Stuttgart, Fakultät Informatik, Elektrotechnik und Informationstechnik, Bachelorarbeit Nr. 101 (2019).
75 Seiten, deutsch.
Kurzfassung

Dank neuer Technologien wächst die Menge an erhobenen und gesammelten Daten stetig an. Mittels komplexer Analysealgorithmen versuchen Analysten aus großen Datenmengen Wissen zu gewinnen. Die Folge sind lange Laufzeiten. Dadurch ist der Analyst gegebenenfalls gehemmt, mehrere Explorationsschritte durchzuführen, um zu belastbaren Ergebnissen zu gelangen. Um diese langen Laufzeiten zu reduzieren, können die Datensätze verkleinert werden. Eine Möglichkeit hierfür ist die Dimensionsreduzierung. Hierbei wird die Anzahl an Features eines Datensatzes verkleinert. Für diese Aufgabe existiert eine Vielzahl an Algorithmen. Darunter auch Autoencoder, ein speziell dafür ausgelegtes künstliches neuronales Netz. Allerdings besitzen Autoencoder eine Vielzahl an Hyperparametern, die sinnvoll gesetzt werden müssen, um ein belastbares Ergebnis zu erzielen. Die Suche einer solchen Konfiguration stellt eine zusätzliche Aufgabe für den Analysten dar. In dieser Arbeit wird ein Verfahren vorgestellt, mit dem eine Autoencoder-Konfiguration für einen noch ungesehenen Datensatz automatisch erstellt wird. Als Grundlage dienen belastbare Autoencoder bereits bekannter Datensätze, die für den noch ungesehenen Datensatz übernommen werden. Die Auswahl des am besten geeigneten bekannten Datensatzes findet anhand von Metafeatures des ungesehenen Datensatzes statt. Im Zuge dieser Arbeit wurde ein Werkzeug entwickelt, welches das beschriebene Konzept umsetzt und belastbare Konfigurationen von Autoencodern für bisher ungesehene Datensätze vorschlägt. Eine Evaluation dieses Ansatzes zeigt, dass große Laufzeiteinsparungen möglich sind, die Qualität allerdings abhängig vom Data-Mining-Algorithmus ist. Für Clustering sind stabile Ergebnisse zu sehen, die den Explorationszyklus deutlich beschleunigen können.

Volltext und
andere Links
Volltext
Abteilung(en)Universität Stuttgart, Institut für Parallele und Verteilte Systeme, Anwendersoftware
BetreuerSchwarz, PD Dr. Holger; Fritz, Manuel
Eingabedatum24. März 2020
   Publ. Informatik