Master Thesis MSTR-2023-25

BibliographyFill, Kerstin: Modellierung von Daten-Pipelines in Lakehouses.
University of Stuttgart, Faculty of Computer Science, Electrical Engineering, and Information Technology, Master Thesis No. 25 (2023).
118 pages, german.
Abstract

Das Aufkommen von Lakehouses hat neue Möglichkeiten für die Speicherung, Verarbeitung und Analyse großer Datenmengen eröffnet. Ein Lakehouse ist eine Datenplattform, die auf einem kostengünstigen Objektspeicher basiert und ACID-Eigenschaften bei Datenzugriffen unterstützt. Dieser Aufbau befähigt Lakehouses, Anwendungsfälle zu bedienen, die typischerweise von Data Lakes, Data Warehouses oder einer Kombination dieser Plattformen abgedeckt werden. Die sogenannte Delta-Architektur schlägt ein fortschrittliches Architekturmuster für die Verarbeitung von Daten innerhalb eines Lakehouses vor. Ein zentrales Konzept dabei bilden Daten-Pipelines, die sich über mehrere Tabellen eines Lakehouses hinweg aufspannen und eine Reihe von Verarbeitungsschritten ausführen. Ein einzelner Verarbeitungsschritt konsumiert und verarbeitet Daten einer Tabelle als Batch oder Stream, um sie in einer anderen Tabelle erneut zu persistieren. Verglichen mit den bisher gängigen Architekturen Lambda und Kappa für Data Lakes ist die Delta-Architektur weniger komplex, da die Koordination und Synchronisation mehrerer Systeme entfällt. Jedoch ist der Entwurf, die Ausführung und Wartung von Daten-Pipelines auch bei der Delta-Architektur weiterhin erforderlich. Im Rahmen dieser Arbeit wird ein plattformunabhängiges Metamodell für Daten-Pipelines in Lakehouses entworfen. Es basiert auf Anforderungen, die aus typischen Anwendungsszenarien für Lakehouses abgeleitet werden. Da Lakehouses neuartige Datenplattformen darstellen, nimmt das Metamodell Bezug auf die in der Forschung bereits diskutierten Zonenmodelle von Data Lakes. Darauf aufbauend wird ein Konzept zur Entwicklung eines Modellierungswerkzeugs vorgestellt, das an die Model Driven Architecture (MDA) angelehnt ist. Das Modellierungswerkzeug soll den Nutzern die Möglichkeit bieten, Daten-Pipelines mit einem deklarativen Ansatz zu entwerfen und diese bei Bedarf um plattformspezifische Informationen zu erweitern. Darüber hinaus soll es die Ausführung solcher Daten-Pipelines innerhalb eines Lakehouses mithilfe eines Prozessierungsframeworks unterstützen. Auf der Grundlage der vorgeschlagenen Konzepte wird das Modellierungswerkzeug prototypisch implementiert. Abschließend legt eine qualitative Evaluation dar, inwieweit das Metamodell die zuvor aufgestellten Anforderungen erfüllt.

Full text and
other links
Volltext
Department(s)University of Stuttgart, Institute of Parallel and Distributed Systems, Applications of Parallel and Distributed Systems
Superviser(s)Schwarz, Prof. Holger; Schneider, Jan; Hirmer, Dr. Pascal
Entry dateSeptember 19, 2023
   Publ. Computer Science