Bachelor Thesis BCLR-2021-48

BibliographyAltvater, Marc Arthur: Anforderungen von Data-Science-Anwendungsfällen im Zonenreferenzmodell.
University of Stuttgart, Faculty of Computer Science, Electrical Engineering, and Information Technology, Bachelor Thesis No. 48 (2021).
62 pages, german.
Abstract

Die Menge an weltweit generierten Daten, sowohl im privaten, als auch vor allem im wirtschaftlichen Umfeld wächst stetig. Daraus entsteht einerseits eine große Nachfrage nach Methoden, um das Volumen der Daten zu verarbeiten und schließlich daraus Wissen zu gewinnen. Andererseits benötigt es auch technologische Konzepte, um diese Daten schnell und kostengünstig speichern zu können. In diesem Bereich hat sich Data Science als Wissenschaftszweig etabliert, mit dem Ziel, Methoden aus verschiedenen Bereichen der Mathematik und Informatik zu nutzen, um fundiertes Wissen aus den zugrundeliegenden Daten zu extrahieren. Im Umfeld von Big Data gewinnen dagegen Data Lakes an Bedeutung, da sie es ermöglichen, (unternehmensweite) Daten zentral zu sammeln und in ihrem rohen, unverarbeiteten Zustand zu speichern. Durch die Erhaltung des ursprünglichen Zustands der Daten werden keine Informationen eingebüßt. Jedoch ist diese Art der Datenhaltung ineffizient. Aus diesem Grund wurden Zonenmodelle entwickelt, um Daten innerhalb eines Data Lakes in unterschiedliche Bereiche nach ihrem jeweiligen Verarbeitungsgrad zu unterteilen. Data Scientisten werden hierbei oftmals als Experten im Bereich der Datenanalyse einbezogen. Viele der vorhandenen Zonenmodelle stellen ihnen daher isolierte Bereiche für die Erprobung ihrer Methoden zur Verfügung. Jedoch gibt es wenig Forschung, welche die praktischen Anforderungen von Data Scientisten bei der Arbeit mit zonenbasierten Data Lakes betrachtet. Diese Arbeit befasst sich daher mit der Umsetzbarkeit von Data-Science-Anwendungsfällen in zonenbasierten Data Lakes. Hierfür werden sowohl allgemeine Anforderungen für Data Science, als auch charakteristische Beispiele anhand des Produktlebenszyklus, definiert. Im Anschluss wird daraus ein konzeptionelles Vorgehen für den Prozess der Datenanalyse abgeleitet, welches mittels einer prototypischen Implementierung erprobt wird. Bei der Evaluation der gewonnenen Erkenntnisse wird zudem zwischen der Nutzung einer zonenbasierten und einer zonenlosen Data-Lake-Architektur unterschieden. Es stellt sich heraus, dass durch die Einführung einer klaren Struktur und der konsequenten Speicherung der Daten in ihren jeweiligen Verarbeitungsgraden zusätzlicher Speicherplatz erforderlich wird. Jedoch profitiert die explorative Datenanalyse signifikant von der Nutzung der vorab berechneten Ergebnisse, was in messbar kürzeren Rechenzeiten resultiert. Dieser Effekt verstärkt sich mit zunehmendem Umfang des Data Lakes und wirkt sich somit auch positiv auf zukünftige Anwendungsfälle aus. Zudem wird auf die Rollen der unterschiedlichen Data-Science-Spezialisten in der Praxis eingegangen und ein Konzept zur Erweiterung der Zonenmodelle hinsichtlich eines optimierten, kooperativen Ansatzes vorgeschlagen.

Full text and
other links
Volltext
Department(s)University of Stuttgart, Institute of Parallel and Distributed Systems, Applications of Parallel and Distributed Systems
Superviser(s)Schwarz, PD Dr. Holger; Giebler, Corinna; Behringer, Michael
Entry dateOctober 11, 2021
   Publ. Computer Science