Diplomarbeit DIP-2017-06

Bibliograph.
Daten
Laukart, Andreas: Untersuchung zur Qualität von Fertigungsdaten – Ein Beispiel für die Analyse großer Datenmengen.
Universität Stuttgart, Fakultät Informatik, Elektrotechnik und Informationstechnik, Diplomarbeit Nr. 6 (2017).
85 Seiten, deutsch.
CR-Klassif.H.5.2 (Information Interfaces and Presentation User Interfaces)
C.4 (Performance of Systems)
I.2.7 (Natural Language Processing)
Kurzfassung

In dieser Arbeit wurde prototypisch ein Jupyter Notebook implementiert, dass beim Data Wrangling unterstützt. Hierzu wurde zunächst eine Literaturrecherche durchgeführt. Die Ergebnisse flossen in das Konzept ein. Hauptfokus ist der Aspekt der Datenqualität. Das Notebook versteht sich als flexible Toolbox. Es soll möglich sein, Metriken und Skripte bei Bedarf einzubinden. Hierzu wurde beispielhaft Funktionalität aus unterschiedlichen Quellen eingebunden. Verwendet werden die Sprachen Python, Java und R. Verschiedene Datenqualitätsmetriken ermöglichen es, die Datenqualität zu messen. Dabei werden neben strukturierte Daten auch Textdaten berücksichtigt. Anschließend wurde das Notebook auf Datensätze aus der Praxis angewendet. Hierzu wird ein Überblick über die Daten gegeben. Zusätzlich werden mögliche Datenqualitätsprobleme analysiert. Um die Verarbeitung großer Datenmengen zu unterstützen, wurde die Laufzeit der Metriken betrachtet. Hierzu wurden ausgewählte Metriken in Apache Spark implementiert. Anschließend wurde eine Evaluation durchgeführt. Die ersten Resultate sind vielversprechend. Für die Validierung von Datumsangaben wurde durch eine einfache Implementierung eine Verbesserung der Laufzeit um Faktor 3,6 erreicht.

Volltext und
andere Links
PDF (1058730 Bytes)
Abteilung(en)Universität Stuttgart, Institut für Parallele und Verteilte Systeme, Anwendersoftware
BetreuerMitschang, Prof. Bernhard; Kiefer, Cornelia
Eingabedatum3. Juli 2018
   Publ. Informatik