Masterarbeit MSTR-2023-25

Bibliograph. Daten	Fill, Kerstin: Modellierung von Daten-Pipelines in Lakehouses. Universität Stuttgart, Fakultät Informatik, Elektrotechnik und Informationstechnik, Masterarbeit Nr. 25 (2023). 118 Seiten, deutsch.
Kurzfassung	Das Aufkommen von Lakehouses hat neue Möglichkeiten für die Speicherung, Verarbeitung und Analyse großer Datenmengen eröffnet. Ein Lakehouse ist eine Datenplattform, die auf einem kostengünstigen Objektspeicher basiert und ACID-Eigenschaften bei Datenzugriffen unterstützt. Dieser Aufbau befähigt Lakehouses, Anwendungsfälle zu bedienen, die typischerweise von Data Lakes, Data Warehouses oder einer Kombination dieser Plattformen abgedeckt werden. Die sogenannte Delta-Architektur schlägt ein fortschrittliches Architekturmuster für die Verarbeitung von Daten innerhalb eines Lakehouses vor. Ein zentrales Konzept dabei bilden Daten-Pipelines, die sich über mehrere Tabellen eines Lakehouses hinweg aufspannen und eine Reihe von Verarbeitungsschritten ausführen. Ein einzelner Verarbeitungsschritt konsumiert und verarbeitet Daten einer Tabelle als Batch oder Stream, um sie in einer anderen Tabelle erneut zu persistieren. Verglichen mit den bisher gängigen Architekturen Lambda und Kappa für Data Lakes ist die Delta-Architektur weniger komplex, da die Koordination und Synchronisation mehrerer Systeme entfällt. Jedoch ist der Entwurf, die Ausführung und Wartung von Daten-Pipelines auch bei der Delta-Architektur weiterhin erforderlich. Im Rahmen dieser Arbeit wird ein plattformunabhängiges Metamodell für Daten-Pipelines in Lakehouses entworfen. Es basiert auf Anforderungen, die aus typischen Anwendungsszenarien für Lakehouses abgeleitet werden. Da Lakehouses neuartige Datenplattformen darstellen, nimmt das Metamodell Bezug auf die in der Forschung bereits diskutierten Zonenmodelle von Data Lakes. Darauf aufbauend wird ein Konzept zur Entwicklung eines Modellierungswerkzeugs vorgestellt, das an die Model Driven Architecture (MDA) angelehnt ist. Das Modellierungswerkzeug soll den Nutzern die Möglichkeit bieten, Daten-Pipelines mit einem deklarativen Ansatz zu entwerfen und diese bei Bedarf um plattformspezifische Informationen zu erweitern. Darüber hinaus soll es die Ausführung solcher Daten-Pipelines innerhalb eines Lakehouses mithilfe eines Prozessierungsframeworks unterstützen. Auf der Grundlage der vorgeschlagenen Konzepte wird das Modellierungswerkzeug prototypisch implementiert. Abschließend legt eine qualitative Evaluation dar, inwieweit das Metamodell die zuvor aufgestellten Anforderungen erfüllt.
Volltext und andere Links	Volltext
Abteilung(en)	Universität Stuttgart, Institut für Parallele und Verteilte Systeme, Anwendersoftware
Betreuer	Schwarz, Prof. Holger; Schneider, Jan; Hirmer, Dr. Pascal
Eingabedatum	19. September 2023

Publ. Informatik