Bachelor Thesis BCLR-2020-94

BibliographyGeiger, Fabian: Realisierung des Zonenreferenzmodells auf Datenströmen.
University of Stuttgart, Faculty of Computer Science, Electrical Engineering, and Information Technology, Bachelor Thesis No. 94 (2020).
58 pages, german.
Abstract

Durch die zunehmende Digitalisierung erheben und verarbeiten Unternehmen und Organisationen eine wachsende Menge verschiedenster Daten. Ein Konzept für eine Software-Plattform zur Verwaltung, Verarbeitung und Analyse solch großer Datenmengen ist ein Data Lake. Die Kernidee eines Data Lake besteht darin, sämtliche Rohdaten zu erfassen, zu speichern und erst dann zu verarbeiten, wenn diese verwendet werden müssen. In einem zonenbasierten Data Lake werden Daten und Verarbeitungslogik abhängig vom Verarbeitungsgrad der Daten in verschiedene Zonen eingeteilt. Generell mangelt es in der wissenschaftlichen Literatur allerdings an Vorgehensweisen, Architekturbeschreibungen und Implementierungen von Data-Lake-Plattformen. Um eine Referenzarchitektur für zonenbasierte Data Lakes zu schaffen, entwickelten Giebler, Gröger et al. das Zonenreferenzmodell. Diese Arbeit umfasst die Konzeption, den Entwurf, die prototypische Implementierung sowie die Evaluation einer zonenbasierten Data-Lake-Architektur unter Verwendung des Zonenreferenzmodells. Dabei soll die Datenübertragung und -verarbeitung mithilfe von Datenströmen geschehen. Das Zonenreferenzmodell kann grundsätzlich auf eine Datenstromverarbeitung angewandt werden, allerdings lässt sich in der wissenschaftlichen Literatur noch keine Beschreibung des Modells im Streaming-Kontext auffinden. Diese Arbeit liefert ein entsprechendes Konzept nach. Anhand eines fiktiven Anwendungsszenarios, in welchem Daten zur Ausbreitung der Coronavirus-Pandemie gesammelt, verarbeitet und explorativ ausgewertet werden sollen, entstand eine zonenbasierte Data-Lake-Architektur, die Datensätze aus mehreren Datenstromquellen erhält und diese zur weiteren Nutzung transformiert, aggregiert und kombiniert. Die Implementierung erfolgte unter Einsatz der Technologien Apache Spark, Apache Kafka sowie Apache Cassandra. Bei der Evaluation der entstandenen Architektur und Implementierung zeigte sich eine hohe Wiederverwendbarkeit der rohen und vorverarbeiteten Daten sowie eine gute Skalierbarkeit der Komponenten. Zudem wurde deutlich, dass die Datenverarbeitung über mehrere Zonen hinweg zwar erheblich langsamer geschieht als mithilfe einer einzelnen Applikation, sich aber dennoch im Echtzeitbereich bewegt. Für äußerst zeitkritische Anwendungsfälle ist die entstandene Implementierung allerdings ungeeignet.

Full text and
other links
Volltext
Department(s)University of Stuttgart, Institute of Parallel and Distributed Systems, Applications of Parallel and Distributed Systems
Superviser(s)Mitschang, Prof. Bernhard; Giebler, Corinna
Entry dateApril 9, 2021
   Publ. Computer Science