Bachelor Thesis BCLR-2020-115

BibliographyMeiners, Malte: Bewertung von Daten-Verarbeitungsschritten mit Provenance.
University of Stuttgart, Faculty of Computer Science, Electrical Engineering, and Information Technology, Bachelor Thesis No. 115 (2020).
56 pages, german.
Abstract

Die Automobilindustrie produziert heutzutage etwa ein Zettabyte an Daten pro Tag. Diese Daten müssen verarbeitet und analysiert werden. Damit die Daten vernünftig und verantwortlich analysiert werden können, muss der Analyst wissen, welche Fehler in einer Verarbeitung behoben wurden, welche Fehler ignoriert wurden und welche Fehler evtl. hinzugefügt wurden. Das heißt, zu den Daten müssen Metadaten vorhanden sein, die die Daten zu Accountable Data machen. Um das Ziel der Accountable Data zu erreichen, wird in dieser Arbeit ein Modell für das Sammeln von Provenance bei der Verarbeitung von Autosensordaten erstellt. Als Grundlage wird hierzu das LiQuID Modell verwendet, welches weiter spezifiziert wird. Die benötigten Metadaten werden auf automatisierte Verarbeitung von Autosensordaten angepasst. Daraufhin wird am Beispiel eines Rennauto-Prototypen versucht Metadaten mit bereits bestehenden Python Tools zu sammeln. Diese Python Tools sind NoWorkflow, YesWorkflow und ein Open-Source Tool mit dem Namen Provenance. Bei der Erstellung des Modells tauchen einige Schwierigkeiten auf. Es ist aufgefallen, dass die konkret benötigten Informationen sehr stark vom Anwendungsfall abhängen. Es war daher schwierig die benötigten Informationen genau zu benennen. Insgesamt funktioniert das Modell aber gut. Das Sammeln der Metadaten am Beispiel des Prototypen hat nicht sehr gut funktioniert. Zum einen haben die bestehenden Tools eine sehr begrenzte Informationsquelle, zum anderen sind die Tools oft für einen bestimmten Anwendungsfall optimiert, der nicht mit dem Anwendungsfall dieser Arbeit übereinstimmt. Durch diese und andere Probleme konnten nur ein Bruchteil der benötigten Daten gesammelt werden.

Full text and
other links
Volltext
Department(s)University of Stuttgart, Institute of Parallel and Distributed Systems, Data Engineering
Superviser(s)Herschel, Prof. Melanie; Oppold, Sarah
Entry dateMay 3, 2021
   Publ. Computer Science