Bachelor Thesis BCLR-2019-49

BibliographyFerati, Fatos: Interaktive Sampling-Verfahren im Kontext von Data-Mashup-Werkzeugen.
University of Stuttgart, Faculty of Computer Science, Electrical Engineering, and Information Technology, Bachelor Thesis No. 49 (2019).
63 pages, german.
Abstract

Durch die ansteigende Menge an Daten wird das Analysieren dieser immer aufwändiger. Weiterhin steigt auch der Bedarf der Analyse dieser Daten. Viele Unternehmen setzen vermehrt auf IoT und Industry 4.0. Dafür müssen riesige Datenmengen aufbereitet und analysiert werden. Die Analyse dieser Daten kann mit menschlichen Arbeitskräften nicht durchgeführt werden. Die Verwendung von Data-Mining-Algorithmen auf solchen Mengen an Daten erfordert große Rechenkapazitäten und -zeit.

Das Verwenden von Data Mashups ermöglicht es Daten aus verschiedenen Datenquellen zusammenzufassen und Datensätze zu erstellen. Diese Datensätze fördern die Analyse der Daten. Jedoch bleibt die Menge der zu analysierenden Daten riesig. Sampling ermöglicht es Teilmengen der Datensätze zu erstellen, die die Datensätze ersetzen sollen. Es kann auf Data Mashups aufbauen und die Analyse der riesigen Datenmengen verringern. Es gibt jedoch verschiedene Sampling- und Mining-Verfahren. Es ist im Voraus nicht klar, welches Sampling-Verfahren mit welchem Mining-Verfahren gute Ergebnisse erzeugt. Weiterhin sind die Datensätze ebenfalls im voraus unbekannt. In dieser Arbeit werden Verfahren zur Bewertung von Samples vorgestellt, mit denen die Qualität der Ergebnisse eingeschätzt werden können. Dafür werden Samples mithilfe von Goodness-of-Fit-Tests wie dem Chi-square-Test bewertet. Es werden für verschiedene Goodness-of-Fit-Tests gezeigt, inwiefern die Bewertung auf die Repräsentativität des Samples schließen lässt und wie hoch die erreichbaren Zeitersparnisse sind.

Department(s)University of Stuttgart, Institute of Parallel and Distributed Systems, Applications of Parallel and Distributed Systems
Superviser(s)Schwarz, PD Dr. Holger; Behringer, Michael; Fritz, Manuel
Entry dateOctober 23, 2019
   Publ. Computer Science