Bachelorarbeit BCLR-2020-94

Bibliograph.
Daten
Geiger, Fabian: Realisierung des Zonenreferenzmodells auf Datenströmen.
Universität Stuttgart, Fakultät Informatik, Elektrotechnik und Informationstechnik, Bachelorarbeit Nr. 94 (2020).
58 Seiten, deutsch.
Kurzfassung

Durch die zunehmende Digitalisierung erheben und verarbeiten Unternehmen und Organisationen eine wachsende Menge verschiedenster Daten. Ein Konzept für eine Software-Plattform zur Verwaltung, Verarbeitung und Analyse solch großer Datenmengen ist ein Data Lake. Die Kernidee eines Data Lake besteht darin, sämtliche Rohdaten zu erfassen, zu speichern und erst dann zu verarbeiten, wenn diese verwendet werden müssen. In einem zonenbasierten Data Lake werden Daten und Verarbeitungslogik abhängig vom Verarbeitungsgrad der Daten in verschiedene Zonen eingeteilt. Generell mangelt es in der wissenschaftlichen Literatur allerdings an Vorgehensweisen, Architekturbeschreibungen und Implementierungen von Data-Lake-Plattformen. Um eine Referenzarchitektur für zonenbasierte Data Lakes zu schaffen, entwickelten Giebler, Gröger et al. das Zonenreferenzmodell. Diese Arbeit umfasst die Konzeption, den Entwurf, die prototypische Implementierung sowie die Evaluation einer zonenbasierten Data-Lake-Architektur unter Verwendung des Zonenreferenzmodells. Dabei soll die Datenübertragung und -verarbeitung mithilfe von Datenströmen geschehen. Das Zonenreferenzmodell kann grundsätzlich auf eine Datenstromverarbeitung angewandt werden, allerdings lässt sich in der wissenschaftlichen Literatur noch keine Beschreibung des Modells im Streaming-Kontext auffinden. Diese Arbeit liefert ein entsprechendes Konzept nach. Anhand eines fiktiven Anwendungsszenarios, in welchem Daten zur Ausbreitung der Coronavirus-Pandemie gesammelt, verarbeitet und explorativ ausgewertet werden sollen, entstand eine zonenbasierte Data-Lake-Architektur, die Datensätze aus mehreren Datenstromquellen erhält und diese zur weiteren Nutzung transformiert, aggregiert und kombiniert. Die Implementierung erfolgte unter Einsatz der Technologien Apache Spark, Apache Kafka sowie Apache Cassandra. Bei der Evaluation der entstandenen Architektur und Implementierung zeigte sich eine hohe Wiederverwendbarkeit der rohen und vorverarbeiteten Daten sowie eine gute Skalierbarkeit der Komponenten. Zudem wurde deutlich, dass die Datenverarbeitung über mehrere Zonen hinweg zwar erheblich langsamer geschieht als mithilfe einer einzelnen Applikation, sich aber dennoch im Echtzeitbereich bewegt. Für äußerst zeitkritische Anwendungsfälle ist die entstandene Implementierung allerdings ungeeignet.

Volltext und
andere Links
Volltext
Abteilung(en)Universität Stuttgart, Institut für Parallele und Verteilte Systeme, Anwendersoftware
BetreuerMitschang, Prof. Bernhard; Giebler, Corinna
Eingabedatum9. April 2021
   Publ. Informatik