Student Thesis STUD-1811

BibliographyStadler, Björn: Austauschformate für Data Mining und OLAP.
University of Stuttgart, Faculty of Computer Science, Student Thesis No. 1811 (2001).
100 pages, german.
CR-SchemaH.2.7 (Database Administration)
H.4.2 (Information Systems Applications Types of Systems)
Abstract

Beim Decision Support ergeben sich häufig Fragestellungen, die nicht durch den alleinigen Einsatz von Data-Mining-Systemen beziehungsweise von OLAP-Werkzeugen ausreichend beantwortet werden können. Daher muss eine integrierte Anwendung beider Techniken bei der Bearbeitung komplexer Aufgaben in Betracht gezogen werden. Dafür ist es aber notwendig, dass die verschiedenen Tools Zwischenergebnisse untereinander austauschen können. Beim Austauschvorgang ist von Interesse, welche Informationen ausgetauscht werden müssen, insbesondere wo der Austausch von Metadaten ausreichend ist und an welchen Stellen Basisdaten ausgetauscht werden müssen.

In dieser Arbeit hat sich gezeigt, dass es viele Szenarien für die integrierte Anwendung von Data-Mining- und OLAP-Methoden gibt. Die Szenarien belegen, dass alle Data-Mining-Techniken als Grundlage weiterer OLAP-Analysen geeignet sind, ebenso können sie alle auf der Basis einer OLAP-Analyse angewandt werden.

Für einen erfolgreichen Austausch von Informationen zwischen den Tools ist es notwendig, die bestehenden Anforderungen an den Informationsaustausch zu ermitteln. Im Rahmen dieser Arbeit wurde ein Katalog der Informationsanforderungen erstellt, in dem die Anforderungen systematisch gesammelt und klassifiziert wurden. Ein Punkt, der bei der Untersuchung berücksichtigt werden musste, waren die unterschiedlichen Schemata, auf denen Data-Mining- beziehungsweise OLAP-Anwendungen arbeiten. Bei der Analyse hat sich herausgestellt, dass der Austausch von Metadaten ausreichend ist, sofern das Ergebnis einer Analyse in einer Datenbank gespeichert vorliegt. Basisdaten dagegen sind immer dann zusätzlich notwendig, wenn es nicht möglich oder nicht erwünscht ist, das Ergebnis permanent zu speichern.

Anhand des entstandenen Katalogs wurden im folgenden Schritt bereits bestehende Formate für den Austausch von Ergebnissen analysiert und bewertet. Dabei hat sich gezeigt, dass keines der betrachteten Formate die bestehenden Anforderungen ausreichend erfüllt. Außerdem wurde festgestellt, dass die vorhandenen Formate oft Produkte bestimmter Hersteller voraussetzen und sich schon daher nicht als Austauschformat zwischen beliebigen Anwendungen eignen.

Aus diesen Gründen wurde zum Abschluss der Arbeit ein erweitertes Austauschformat erarbeitet, das die im Katalog festgehaltenen Anforderungen erfüllt. Die Herstellerunabhängigkeit wurde die Definition auf XML-Basis erreicht. Das Format wurde als Erweiterung zu PMML realisiert. So konnten Definitionen aus PMML, die geforderte Informationen in ausreichendem Maß darstellen, weiter genutzt werden. Erweiterungen ergaben sich vor allem am Data Dictionary und bei der Repräsentation materialisierter Ergebnisse. Es musste ermöglicht werden, mit Hilfe des Data Dictionary ein Star- oder Snowflake Schema darzustellen, um die Struktur eines Data Cube zu repräsentieren. Außerdem wurden Voraussetzungen geschaffen, um OLAP-Ergebnisse zu beschreiben.

Department(s)University of Stuttgart, Institute of Parallel and Distributed High-Performance Systems, Applications of Parallel and Distributed Systems
Project(s)ORBIT
Entry dateMay 17, 2001
   Publ. Computer Science