Diploma Thesis DIP-2017-06

BibliographyLaukart, Andreas: Untersuchung zur Qualität von Fertigungsdaten – Ein Beispiel für die Analyse großer Datenmengen.
University of Stuttgart, Faculty of Computer Science, Electrical Engineering, and Information Technology, Diploma Thesis No. 6 (2017).
85 pages, german.
CR-SchemaH.5.2 (Information Interfaces and Presentation User Interfaces)
C.4 (Performance of Systems)
I.2.7 (Natural Language Processing)
Abstract

In dieser Arbeit wurde prototypisch ein Jupyter Notebook implementiert, dass beim Data Wrangling unterstützt. Hierzu wurde zunächst eine Literaturrecherche durchgeführt. Die Ergebnisse flossen in das Konzept ein. Hauptfokus ist der Aspekt der Datenqualität. Das Notebook versteht sich als flexible Toolbox. Es soll möglich sein, Metriken und Skripte bei Bedarf einzubinden. Hierzu wurde beispielhaft Funktionalität aus unterschiedlichen Quellen eingebunden. Verwendet werden die Sprachen Python, Java und R. Verschiedene Datenqualitätsmetriken ermöglichen es, die Datenqualität zu messen. Dabei werden neben strukturierte Daten auch Textdaten berücksichtigt. Anschließend wurde das Notebook auf Datensätze aus der Praxis angewendet. Hierzu wird ein Überblick über die Daten gegeben. Zusätzlich werden mögliche Datenqualitätsprobleme analysiert. Um die Verarbeitung großer Datenmengen zu unterstützen, wurde die Laufzeit der Metriken betrachtet. Hierzu wurden ausgewählte Metriken in Apache Spark implementiert. Anschließend wurde eine Evaluation durchgeführt. Die ersten Resultate sind vielversprechend. Für die Validierung von Datumsangaben wurde durch eine einfache Implementierung eine Verbesserung der Laufzeit um Faktor 3,6 erreicht.

Full text and
other links
PDF (1058730 Bytes)
Department(s)University of Stuttgart, Institute of Parallel and Distributed Systems, Applications of Parallel and Distributed Systems
Superviser(s)Mitschang, Prof. Bernhard; Kiefer, Cornelia
Entry dateJuly 3, 2018
   Publ. Computer Science