Master Thesis MSTR-2022-104

BibliographyZeller, Sascha: Extraktion von hierarchischem Domänenwissen für komplexe Mehrklassenprobleme.
University of Stuttgart, Faculty of Computer Science, Electrical Engineering, and Information Technology, Master Thesis No. 104 (2022).
71 pages, german.
Abstract

Daten und das darin enthaltene Wissen bilden einen wichtigen Grundbaustein bei der Visualisierung von Situationen und bei der Bewältigung von Problemen. Mit neuen Forschungen und Technologien im Bereich des Internet of Things (IoT) oder Industrie 4.0 steigt das Wachstum von Daten und deren Stellenwert wird unverzichtbar bei der Bewältigung der Aufgaben von heute. Eine riesige Menge an Daten steht in nahezu allen Bereichen der Forschung und der Industrie zur Verfügung. Dabei lassen sich innerhalb der Daten Zustände und Zusammenhänge untersuchen, um daraus Schlüsse für weitere Vorgehensweisen und Entwicklungen abzuleiten. Beispielsweise können Daten im Bereich des Qualitätsmanagements genutzt werden, um die Ursache für fehlerhafte Produkte effizient zu bestimmen. Dadurch lassen sich diese schneller finden und reparieren. Solch eine Aufgabe wird meist als ein komplexes Mehrklassenproblem aufgefasst, wobei typischerweise 100 oder sogar mehr Klassen vorliegen. Aufgrund der verschiedenen Charakteristika, die Daten besitzen, steigert sich die Komplexität beim Evaluieren dieser. Grund dafür sind bspw. eine starke Klassenungleichverteilung oder einer Vielzahl an komplexen Mustern pro Klasse.

Jüngste Forschung hat gezeigt, dass durch eine geeignete Partitionierung der Daten unter Be- rücksichtigung von Domänenwissen sowohl die Vielzahl an komplexen Mustern als auch die Klassenungleichverteilung gemeinsam adressiert werden können. Dadurch wird auch eine deutlich höhere Vorhersagegenauigkeit ermöglicht, indem auf jeder Datenpartition einzeln ein Klassifikations- modell gebildet wird. Für die Partitionierung wird eine Segmentierung nach der Produkthierarchie (SPH) vorgeschlagen, d.h., dass die Daten entsprechend der Hierarchie partitioniert werden und ggfs. Elternknoten genutzt werden, falls die Knoten zu wenige Informationen enthalten. Allerdings funktioniert der SPH-Ansatz nur, wenn im gegebenen Anwendungsfall eine geeignete Hierarchie als Domänenwissen vorliegt. Solche Hierarchien können in vielen Domänen in einem Datensatz vorhanden sein. Jedoch lassen sich diese nicht direkt ableiten. Dazu braucht es Domänenexperten, die den Datensatz evaluieren können. Der Aufwand und die Kosten für die Definition der Relationen und die Einteilung in eine Hierarchie ist erheblich.

Das Ziel dieser Arbeit ist es, Konzepte und Ansätze für die Generierung von Hierarchien basierend auf strukturierten Datensätzen zu finden und zu evaluieren. Dabei sollen die Ansätze ohne zusätzliches Wissen über die Domäne, in der sie sich befinden und völlig unüberwacht die zur Verfügung gestellten Daten untersuchen und eine Hierarchie erzeugen. Die automatisch konstruierten Hierarchien werden mithilfe von Hierarchien, welche aus Taxonomien und Domänenwissen erstellt und geprüft sind, verglichen und die Genauigkeit sowie die Tauglichkeit hinsichtlich der Nutzung im SPH-Ansatz untersucht.

Department(s)University of Stuttgart, Institute of Parallel and Distributed Systems, Applications of Parallel and Distributed Systems
Superviser(s)Mitschang, Prof. Bernhard; Tschechlov, Dennis
Entry dateApril 18, 2023
   Publ. Computer Science