Bachelor Thesis BCLR-2023-57

BibliographyJoos, Pascal: Vergleich von Ansätzen zur Speicherung unstrukturierter Daten in Lakehouses.
University of Stuttgart, Faculty of Computer Science, Electrical Engineering, and Information Technology, Bachelor Thesis No. 57 (2023).
87 pages, german.
Abstract

Das Lakehouse ist eine neue Datenplattform für Unternehmen. Sie kam in den letzten Jahren auf und vereint die Vorteile von Data Lakes und Data Warehouses. Ähnlich wie Data Lakes können auch Lakehouses alle Arten von Daten speichern und dabei von offenen Dateiformaten Gebrauch machen. Lakehouses verfügen über eine Metadatenschicht, die wichtige Verwaltungs- und Optimierungsfunktionen ermöglicht, wie sie aus Data Warehouses bekannt sind. Durch diese Kombination aus Vorteilen beider Datenplattformen ist das Lakehouse für die effiziente Ausführung von traditionellen Analysemethoden, wie Reporting und OLAP, sowie Advanced-Analytics-Techniken, wie Machine Learning, gleichermaßen geeignet. Mit der zunehmenden Relevanz von Advanced-Analytics-Techniken, die auch unstrukturierte Daten verarbeiten können, stellt sich die Frage, wie unstrukturierte Daten am besten in einem Lakehouse abgespeichert werden sollten. Diese Arbeit untersucht, welcher Ansatz sich hinsichtlich quantitativer und qualitativer Aspekte am besten für die Speicherung unstrukturierter Daten eignet. Dafür werden zunächst verschiedene Ansätze identifiziert: Grundlegend ist es möglich, die unstrukturierten Daten mit in der erstellten Lakehouse-Tabelle abzuspeichern. Alternativ können die Daten auch separat abgelegt und im Lakehouse nur referenziert werden. Im nächsten Schritt wird betrachtet, wie sich die Ansätze auf konzeptioneller Ebene unterscheiden. Als zentraler Beitrag dieser Arbeit wird anschließend ein Framework entwickelt, mit dem verschiedene Benchmarks für unstrukturierte Daten ausgeführt werden können. Dieses Framework wird LHBench-UnstructuredData genannt und setzt auf einem bereits existierenden Benchmark-Framework für Lakehouses auf. LHBench-UnstructuredData erlaubt eine quantitative Gegenüberstellung der Ansätze. In einer Testumgebung wird die Funktionsweise exemplarisch an drei Lakehouse-Frameworks demonstriert. Mithilfe der dadurch erhaltenen Benchmarkergebnisse und der konzeptionellen Betrachtungen wird eine erste Einschätzung abgegeben, wie unstrukturierte Daten in Lakehouses abgespeichert werden sollten. Diese Analyse legt nahe, dass sich der beste Kompromiss zwischen Performanz und qualitativen Eigenschaften ergibt, wenn die unstrukturierten Daten direkt, zusammen mit den zugeordneten Metadaten, in einer Tabelle im Lakehouse abgelegt werden.

Full text and
other links
Volltext
Department(s)University of Stuttgart, Institute of Parallel and Distributed Systems, Applications of Parallel and Distributed Systems
Superviser(s)Mitschang, Prof. Bernhard; Schneider, Jan
Entry dateFebruary 23, 2024
New Report   New Article   New Monograph   Computer Science