Master Thesis MSTR-2020-37

Bibliography	Frank, Alex: Nutzung von Provenance-Daten zur Analyse personenbezogener Daten gemäß DSGVO-Richtlinien. University of Stuttgart, Faculty of Computer Science, Electrical Engineering, and Information Technology, Master Thesis No. 37 (2020). 112 pages, german.
Abstract	Durch die voranschreitende Digitalisierung der Gesellschaft sind Unternehmen mehr denn je zuvor in der Lage personenbezogene Daten im Internet zu erfassen, ohne dass Verbraucher dies mitbekommen. Es reicht schon das Besuchen einer Webseite mit angemeldeten Kundenkonto aus, um seine Daten preiszugeben. Personenbezogene Daten sind dabei mannigfaltig und reichen von Name und Anschrift bis zur IP-Adresse des Endgerätes. Diese Daten können für eine Vielzahl von personenbezogenen Analysen verwendet werden, wie etwa das Kaufverhalten eines Verbrauchers. Die Ergebnisse solcher Anfragen können für Zwecke, wie Werbung und Neukundenakquise genutzt werden. Zum Schutz der persönlichen Daten der Verbraucher ist seit dem 25. Mai 2018 die Datenschutz-Grundverordnung in Kraft getreten. Diese Verordnung regelt den Datenschutz der EU-Bürger und gibt ihnen eine Vielzahl an Rechte im Bezug auf ihre personenbezogenen Daten, wie etwa das Recht auf Vergessenwerden. EU-Bürger können jederzeit von diesen Rechten Gebrauch machen. Dies führt zu einigen Herausforderungen bei Unternehmen, die nun zu jederzeit nachweisen müssen, für welchen Zweck die personenbezogenen Daten verarbeitet werden und sie müssen sicherstellen, dass Verbraucher in der Lage sind jederzeit die Einwilligung für die Verarbeitung ihrer personenbezogenen Daten zu entziehen. Bei Nichteinhaltung der Einwilligung drohen Strafen in der Höhe von 4\% des Jahresumsatzes. Personenbezogene Analysen und ihre Ergebnisse können dabei unterschiedlich komplex sein. Dies hängt auch maßgeblich von der Größe der Daten ab, die in die Terabytes gehen können. Diese Daten lassen sich unter dem Begriff Big Data zusammenfassen. Um die Berechnung dieser Big Data effizient zu ermöglichen, wurden verteilte Systeme für datengetriebene Berechnungen entwickelt, die in der Lage sind diese Daten in einem Rechnerverbund effizient zu berechnen. Bei einem Entzug einer Einwilligung müssen Ergebnisse von personenbezogenen Analysen neu berechnet werden, da sonst ein Rechtsverstoß vorliegt. In dieser Arbeit wird ein Verfahren entwickelt, um Neuberechnungen unter Einhaltung der Datenschutz-Grundverordnung effizienter durchzuführen. Dazu wird zunächst ein Datenmodell vorgestellt, welches es ermöglicht personenbezogenen Analysen Datenschutz-Grundverordnung konform zu berechnen. Dieses Datenmodell erlaubt die Zuweisung von Einwilligungen für die Verarbeitung der Daten. Zusätzlich dazu wird eine Indexstruktur vorgestellt, die die effiziente Identifikation von geänderten Daten ermöglicht, so dass nur ein kleiner Anteil der Daten neu berechnet werden muss. Dadurch sollen Anfragen potentiell effizienter durchgeführt werden. Die Indexstruktur und das Datenmodell werden dabei in Apache Spark implementiert und evaluiert. Die Evaluation hat gezeigt, dass die Neuberechnung mittels der Indexstruktur für manche Anfragen schneller sein kann.
Full text and other links	Volltext
Department(s)	University of Stuttgart, Institute of Parallel and Distributed Systems, Applications of Parallel and Distributed Systems
Superviser(s)	Schwarz, PD Dr. Holger; Behringer, Michael; Diestelkämper, Ralf
Entry date	December 17, 2020

Publ. Computer Science