Bachelorarbeit BCLR-2020-07

Bibliograph. Daten	Winckler, Magdalena: Umsetzung anwendungsspezifischer ETL-Prozesse im Data Lake. Universität Stuttgart, Fakultät Informatik, Elektrotechnik und Informationstechnik, Bachelorarbeit Nr. 7 (2020). 57 Seiten, deutsch.
Kurzfassung	In der heutigen Zeit entstehen tagtäglich immer mehr Daten. Um diese nutzen zu können, müssen sie gespeichert, verarbeitet und analysiert werden. Da dies bei immer größer werdenden Datensätzen, welche gleichzeitig heterogen sein können, viele neue Anforderungen mit sich bringt, entstehen auch immer wieder neue Technologien. So wird es immer schwerer relevante Daten herauszufiltern oder diese zu bereinigen. Eine dieser Technologien ist der Data Lake. Ein Data Lake ist ein System in dem jegliche Arten von Daten gespeichert und zu einem späteren Zeitpunkt bei Verwendung bereitgestellt werden können. Oft wird jedoch ein Data Lake mit einem Hadoop-Cluster gleichgesetzt. Um einen Data Lake effizienter zu konzeptionieren, wird in der Literatur deshalb oft darauf hingewiesen, dass auch auf andere Technologien innerhalb eines Data Lakes zurückgegriffen werden soll. Gleichzeitig kann ein Data Lake in unterschiedliche Zonen aufgeteilt werden, um diesen effizienter zu nutzen. Die Aufteilung eines Data Lakes in Zonen, wird allgemein als Zonenmodell bezeichnet. Bisher gibt es jedoch nur wenige wissenschaftliche Arbeiten, welche sich sowohl mit der Konzeptionierung als auch mit der Implementierung eines Data Lakes mit mehreren Technologien beschäftigt. In dieser Arbeit wird ein Konzept eines Data Lakes mit mehreren Technologien entworfen und dieses prototypisch umgesetzt. Um dies zu erreichen werden unterschiedliche Zonenmodelle und bereits in der Literatur vorhandene Anwendungen dieser auf einen Data Lake betrachtet. Anschließend wird ein Beispieldatensatz vorgestellt, anhand dessen unterschiedliche Anwendungsfälle entworfen werden. Um den Data Lake mit anderen Technologien zu erweitern, werden zudem unterschiedliche Datenbankarten vorgestellt. Darauf folgt in einer prototypischen Umsetzung die Übertragung der Daten von einem Hadoop-Cluster in die unterschiedlichen Datenbanken. Abschließend folgt eine Evaluation und eine Zusammenfassung der Arbeit.
Volltext und andere Links	Volltext
Abteilung(en)	Universität Stuttgart, Institut für Parallele und Verteilte Systeme, Anwendersoftware
Betreuer	Schwarz, PD Dr. Holger; Giebler, Corinna
Eingabedatum	9. Juni 2020

Publ. Informatik