Masterarbeit MSTR-2017-86

Bibliograph.
Daten
Oppold, Sarah: Datenherkunft für Dublettenerkennung.
Universität Stuttgart, Fakultät Informatik, Elektrotechnik und Informationstechnik, Masterarbeit Nr. 86 (2017).
79 Seiten, deutsch.
Kurzfassung

In vielen Szenarien wird die Datenintegration verwendet, um heterogene Datenquellen zu vereinheitlichen und so eine globale Sicht auf die Daten geschaffen wird. Ein Teilproblem der Datenintegration ist die Dublettenerkennung. Das Ziel der Dublettenerkennung ist es alle Datensätze identifiziert werden, die das selbe reale Objekt beschreiben. Die Spezifikation für eine Dublettenerkennung kann man mit Anfragesprachen umsetzen, wobei komplexe Anfragen entstehen, deren Ergebnisse schwer nachvollziehbar sind. Um Nachvollziehbarkeit von Dublettenerkennungsanfragen zu vereinfachen, wird in dieser Arbeit ein Framework zur Erfassung von Herkunftsdaten für Dublettenerkennung entwickelt. Hierfür wird die Anfrage zunächst in einen allgemeinen Operatorbaum übersetzt, der unabhängig von der Anfragesprache die Spezifikation modelliert. Anschließend können Datenherkunftsmodelle gewählt werden, um mit Hilfe von diesem Operatorbaum die Herkunftsdaten abzuleiten. Dieses Framework wurde anschließend für die Anfragesprache High-Level Integration Language (HIL) umgesetzt, eine von IBM entwickelte Sprache, die die Dublettenerkennung unterstützt. Es wurden Inferenzregeln definiert, die in HIL geschriebene Spezifikationen für Dublettenerkennung in einen Operatorbaum übersetzen. Außerdem wurde das Herkunftsmodell How-Provenance definiert, das abhängig von einem Operatorbaum den Kontrollfluss der Ergebnisdatensätze erfasst. Anschließend wurden HIL Anfragen definiert, die für eine in HIL geschriebene Spezifikation für Dublettenerkennung die zugehörige How-Provenance erfasst. Zur Evaluation wurde ein Java Prototyp entwickelt, der die nötigen HIL Anfragen generiert. Durch die Leistungsanalyse wurde die Anwendbarkeit des Prototypen bestätigt.

Abteilung(en)Universität Stuttgart, Institut für Parallele und Verteilte Systeme, Data Engineering
BetreuerHerschel, Prof. Melanie; Diestelkämper, Ralf
Eingabedatum5. Juni 2019
   Publ. Institut   Publ. Informatik