Masterarbeit MSTR-2018-92

Bibliograph.
Daten
Sudra, Constanze: Prädiktive Modelle in YesWorkflow.
Universität Stuttgart, Fakultät Informatik, Elektrotechnik und Informationstechnik, Masterarbeit Nr. 92 (2018).
101 Seiten, deutsch.
Kurzfassung

In der modernen Forschung sind Wissenschaftler zunehmend mit der komplexen Verarbeitung großer Datenmengen konfrontiert. Hierzu gibt es viele Systeme, die für die Definition und Ausführung solcher Workflows verwendet werden können. Sie bieten zahlreiche Vorteile, wie beispielsweise eine hohe Reproduzierbarkeit und eine Vereinfachung der Administration sowie der technischen Umsetzung. Da diese Systeme aber als komplex und die Migration der bestehenden Prozesse als zeitaufwendig angesehen werden, werden oftmals weiterhin vertraute Skriptsprachen für komplexe Datenverarbeitung und keine Workflowsysteme genutzt. Durch die Verwendung von YesWorkflow kann diese Lücke geschlossen werden und der Wissenschaftler weiterhin die vertrauten Skriptsprachen nutzen und dennoch von einigen der Vorteile von Workflowsystemen profitieren. Während von den Workflowsystemen bereits verschiedene Optimierungen (wie z.B. hinsichtlich der Laufzeit) unterstützt werden, wurde YesWorkflow diesbezüglich noch nicht erweitert. In dieser Arbeit wird ein Ablaufkonzept für eine YesWorkflow-Erweiterung erarbeitet, die Provenance-Informationen nutzt, um Optimierungen der verwendeten Skripte, basierend auf prädiktiven Modellen, zu unterstützen. Zum einen wird dazu untersucht, wie die bereits verfügbaren Informationen genutzt werden können. Zum anderen wird erörtert, ob durch zusätzliche Provenance-Informationen eine weitere Verbesserung erzielt werden kann. Der bestehende YesWorkflow-Prototyp wird im Rahmen dieser Arbeit dahingehend erweitert, dass zusätzliche Informationen erfasst und für Vorhersagen genutzt werden können. Dazu wird ein neuer Befehl eingefügt, der es erlaubt anhand von erfassten Provenance-Informationen beliebige Werte oder Metriken mittels verschiedener Verfahren vorherzusagen und dann für Optimierungen zu nutzen. Im Evaluationsteil der Arbeit wird anhand von zwei Skripten bestimmt wie groß die notwendige erfasste Trainingsdatenmenge für eine gewinnbringende Vorhersage sein muss und ob durch verschiedene Vorgehen bei der Vorhersage von Werten eine Verbesserung erzielt werden kann.

Volltext und
andere Links
Volltext
Abteilung(en)Universität Stuttgart, Institut für Parallele und Verteilte Systeme, Anwendersoftware
BetreuerSchwarz, PD Dr. Holger; Reimann, Dr. Peter
Eingabedatum18. Juni 2019
   Publ. Institut   Publ. Informatik