Bibliography | Bonnet, Gabriel: Analyse von datengetriebenen Verfahren zur Erkennung falsch dokumentierter Klassenlabel. University of Stuttgart, Faculty of Computer Science, Electrical Engineering, and Information Technology, Bachelor Thesis No. 74 (2021). 654 pages, german.
|
Abstract | Über die letzten Jahrzehnte hinweg lässt sich eine stetige Zunahme gesammelter Daten verschiedenster Herkunft beobachten. Diese sind beispielsweise durch technologische Entwicklungen im Zusammenhang mit dem IoT entstanden. Damit diese Daten genutzt werden können, werden sie mithilfe datengetriebener Verfahren des Maschinellen Lernens ausgewertet. Solche Daten sind für eine große Anzahl industrieller Wertschöpfungen relevant, denn mithilfe von Datenanalysen lassen sich beispielsweise im Bereich des Qualitätsmanagements Ursachen für fehlerhafte Vor-gänge und die daraus resultierenden fehlerhaften Produkte bestimmen. Die gesammelten Daten bringen jedoch zahlreiche Herausforderungen mit sich. Zu diesen zählen zum Beispiel eine Klassenungleichverteilung, Label Noise und wenige Datenpunkte je Klasse, welche zu einer mäßigen Vorhersagegenauigkeit herkömmlicher Klassifikatoren führen. Wie schon das Ergebnis der Arbeit von Hirsch et. al. [HRM19] zeigt, schneidet der Random Forest Klassifikator unter den gegebenen Herausforderungen und somit auch im Hinblick auf Label Noise am besten ab. Ziel dieser Arbeit ist es demnach unterschiedliche datengetriebene Verfahren zur Erkennung von Label Noise in Kombination mit den genannten Herausforderungen zu untersuchen. Dabei wird speziell die Datenvorbereitung betrachtet und es wird untersucht, ob diese Verfahren gut mit den Herausforderungen umgehen können. Methoden zur Erkennung von Label Noise, auch Detektoren genannt, berechnen für jeden Datenpunkt aus einem Datensatz einen Konfidenzwert oder eine Wahrscheinlichkeit, ob dieser Datenpunkt richtig gelabelt wurde. Dafür nutzen die Detektoren unterschiedliche Algorithmen, wobei der Fokus dieser Arbeit auf fünf Detektoren, KDN, Instance-Hardness, Partitioning-Detektor, Random Forest Detektor und MCS, liegt. Um die Detektoren zu vergleichen, werden unterschiedliche Szenarien genutzt, da es nach dem Anwenden der Detektoren zwei Möglichkeiten gibt: Entweder können Datenpunkte gelöscht oder nach dem Konfidenzwert gewichtet werden. Zur Evaluation der Ansätze werden eine Reihe an Versuchen durchgeführt, die verschiedene Datensätze mit einer Vielzahl an unterschiedlichen Eigenschaften berücksichtigen. Dabei müssen fehlende Attributwerte abgeschätzt werden, damit der Random Forest angewandt werden kann. In der ersten Versuchsreihe werden iterativ Datensätze erstellt, mit denen die Herausforderungen isoliert betrachtet werden können. In dieser wird deutlich, dass der Random Forest mithilfe des Instance-Hardness Detektors durchschnittlich besser abschneidet als der Random Forest ohne Detektoren. In der zweiten Versuchsreihe dagegen wird der ImbalanceDataGenerator von Dennis Tschechlov verwendet, um Datensätze zu generieren, die alle Herausforderungen abdecken. Dabei stellt sich heraus, dass die Szenarien sehr ähnlich abschneiden. Generell erzielen der Instance-Hardness Detektor und der KDN unter den Detektoren die beste Genauigkeit. Dagegen schneidet der Partitioning-Detektor am schlechtesten ab. Der MCS-Detektor ist nicht für Mehrklassenprobleme geeignet.
|