Master Thesis MSTR-2018-92

BibliographySudra, Constanze: Prädiktive Modelle in YesWorkflow.
University of Stuttgart, Faculty of Computer Science, Electrical Engineering, and Information Technology, Master Thesis No. 92 (2018).
101 pages, german.
Abstract

In der modernen Forschung sind Wissenschaftler zunehmend mit der komplexen Verarbeitung großer Datenmengen konfrontiert. Hierzu gibt es viele Systeme, die für die Definition und Ausführung solcher Workflows verwendet werden können. Sie bieten zahlreiche Vorteile, wie beispielsweise eine hohe Reproduzierbarkeit und eine Vereinfachung der Administration sowie der technischen Umsetzung. Da diese Systeme aber als komplex und die Migration der bestehenden Prozesse als zeitaufwendig angesehen werden, werden oftmals weiterhin vertraute Skriptsprachen für komplexe Datenverarbeitung und keine Workflowsysteme genutzt. Durch die Verwendung von YesWorkflow kann diese Lücke geschlossen werden und der Wissenschaftler weiterhin die vertrauten Skriptsprachen nutzen und dennoch von einigen der Vorteile von Workflowsystemen profitieren. Während von den Workflowsystemen bereits verschiedene Optimierungen (wie z.B. hinsichtlich der Laufzeit) unterstützt werden, wurde YesWorkflow diesbezüglich noch nicht erweitert. In dieser Arbeit wird ein Ablaufkonzept für eine YesWorkflow-Erweiterung erarbeitet, die Provenance-Informationen nutzt, um Optimierungen der verwendeten Skripte, basierend auf prädiktiven Modellen, zu unterstützen. Zum einen wird dazu untersucht, wie die bereits verfügbaren Informationen genutzt werden können. Zum anderen wird erörtert, ob durch zusätzliche Provenance-Informationen eine weitere Verbesserung erzielt werden kann. Der bestehende YesWorkflow-Prototyp wird im Rahmen dieser Arbeit dahingehend erweitert, dass zusätzliche Informationen erfasst und für Vorhersagen genutzt werden können. Dazu wird ein neuer Befehl eingefügt, der es erlaubt anhand von erfassten Provenance-Informationen beliebige Werte oder Metriken mittels verschiedener Verfahren vorherzusagen und dann für Optimierungen zu nutzen. Im Evaluationsteil der Arbeit wird anhand von zwei Skripten bestimmt wie groß die notwendige erfasste Trainingsdatenmenge für eine gewinnbringende Vorhersage sein muss und ob durch verschiedene Vorgehen bei der Vorhersage von Werten eine Verbesserung erzielt werden kann.

Full text and
other links
Volltext
Department(s)University of Stuttgart, Institute of Parallel and Distributed Systems, Applications of Parallel and Distributed Systems
Superviser(s)Schwarz, PD Dr. Holger; Reimann, Dr. Peter
Entry dateJune 18, 2019
   Publ. Computer Science