Master Thesis MSTR-2017-86

BibliographyOppold, Sarah: Datenherkunft für Dublettenerkennung.
University of Stuttgart, Faculty of Computer Science, Electrical Engineering, and Information Technology, Master Thesis No. 86 (2017).
79 pages, german.
Abstract

In vielen Szenarien wird die Datenintegration verwendet, um heterogene Datenquellen zu vereinheitlichen und so eine globale Sicht auf die Daten geschaffen wird. Ein Teilproblem der Datenintegration ist die Dublettenerkennung. Das Ziel der Dublettenerkennung ist es alle Datensätze identifiziert werden, die das selbe reale Objekt beschreiben. Die Spezifikation für eine Dublettenerkennung kann man mit Anfragesprachen umsetzen, wobei komplexe Anfragen entstehen, deren Ergebnisse schwer nachvollziehbar sind. Um Nachvollziehbarkeit von Dublettenerkennungsanfragen zu vereinfachen, wird in dieser Arbeit ein Framework zur Erfassung von Herkunftsdaten für Dublettenerkennung entwickelt. Hierfür wird die Anfrage zunächst in einen allgemeinen Operatorbaum übersetzt, der unabhängig von der Anfragesprache die Spezifikation modelliert. Anschließend können Datenherkunftsmodelle gewählt werden, um mit Hilfe von diesem Operatorbaum die Herkunftsdaten abzuleiten. Dieses Framework wurde anschließend für die Anfragesprache High-Level Integration Language (HIL) umgesetzt, eine von IBM entwickelte Sprache, die die Dublettenerkennung unterstützt. Es wurden Inferenzregeln definiert, die in HIL geschriebene Spezifikationen für Dublettenerkennung in einen Operatorbaum übersetzen. Außerdem wurde das Herkunftsmodell How-Provenance definiert, das abhängig von einem Operatorbaum den Kontrollfluss der Ergebnisdatensätze erfasst. Anschließend wurden HIL Anfragen definiert, die für eine in HIL geschriebene Spezifikation für Dublettenerkennung die zugehörige How-Provenance erfasst. Zur Evaluation wurde ein Java Prototyp entwickelt, der die nötigen HIL Anfragen generiert. Durch die Leistungsanalyse wurde die Anwendbarkeit des Prototypen bestätigt.

Department(s)University of Stuttgart, Institute of Parallel and Distributed Systems, Data Engineering
Superviser(s)Herschel, Prof. Melanie; Diestelkämper, Ralf
Entry dateJune 5, 2019
   Publ. Computer Science