Master Thesis MSTR-2020-77

BibliographyLendl, Anne: Erfassen und Aufbereiten von Simulationsmetadaten zur Veröffentlichung.
University of Stuttgart, Faculty of Computer Science, Electrical Engineering, and Information Technology, Master Thesis No. 77 (2020).
129 pages, german.
Abstract

In der Wissenschaft, vor allem aber in den Simulationswissenschaften oder im Bereich des Machine Learnings, entstehen bei der Entwicklung von Modellen sehr viele Simulationsumläufe. Diese Umläufe werden für die Validierung des entwickelten Modells benötigt. Nach den FAIR-Prinzipien müssen genügend dieser Simulationsumläufe veröffentlicht werden, um die Ergebnisse reproduzieren zu können. Hierfür sind zusätzlich zu den Ergebnissen verschiedene Metadaten wie zum Beispiel die genutzte Hardware und Software anzugeben. Um diese Metadaten zusammen mit den Daten der Simulationsumläufe abzuspeichern, stellt die Universität Stuttgart das Datenrepositorium "`DaRUS"' zur Verfügung. Das Eingeben dieser Daten im DaRUS ist allerdings fehleranfällig und zeitaufwendig. Daher wird in dieser Arbeit ein Vorgehen entwickelt, um Daten automatisch im DaRUS hochladen zu können. Dieses automatische Vorgehen hat das Ziel die Daten möglichst vollständig hochzuladen, die Fehleranzahl bei der Eingabe zu reduzieren und die Zeit der Wissenschaftler einzusparen, damit diese mehr Zeit für ihre Forschung haben. Dieses Vorgehen wird mit Hilfe der Machine Learning Plattform MLflow umgesetzt. Die Ziele dieser Arbeit sind somit das Entwickeln eines Metadatenmodells, welches die hochzuladenden Metadaten abdeckt, die Erfassung dieser Metadaten mit Hilfe von MLflow und die Aufbereitung, Selektion und Veröffentlichung dieser. Die Aufbereitung, Selektion und Veröffentlichung soll hier möglichst automatisch und benutzerfreundlich geschehen. Am Ende der Arbeit wurde eine Nutzerstudie durchgeführt, welche eine deutliche Zeiteinsparung der Nutzer beim Hochladen der Daten mit dem automatischen Verfahren zeigt. Zudem wurden deutlich weniger Fehler bei einer Nutzung des automatischen Verfahrens gemacht. Auch ergab die Studie, dass die Nutzer eher das automatische Hochladeverfahren nutzen würden als die händische Eingabe in DaRUS.

Department(s)University of Stuttgart, Institute of Parallel and Distributed Systems, Data Engineering
Superviser(s)Herschel, Prof. Melanie; Diestelkämper, Ralf
Entry dateApril 27, 2021
   Publ. Computer Science