Diploma Thesis DIP-1500

BibliographyWalker, Tilman Patrick: Einsatzmoeglichkeiten Evolutionaerer Algorithmen im Data Mining.
University of Stuttgart, Faculty of Computer Science, Diploma Thesis No. 1500 (1997).
166 pages, german.
CR-SchemaH.3.3 (Information Search and Retrieval)
I.2.6 (Artificial Intelligence Learning)
J.1 (Administration Data Processing)
KeywordsEvolutionaere Algorithmen; Data Mining; KDD; Regellernverfahren
Abstract

Evolutionaere Algorithmen arbeiten nach Prinzipien der biologischen Evolution. Sie werden ueberwiegend fuer numerische Optimierungsaufgaben eingesetzt. In der Literatur unterscheidet man zwischen mehreren Unterarten Evolutionärer Algorithmen. Die vorliegende Arbeit beschreibt die Grundprinzipien Evolutionaerer Algorithmen. Die am weitesten verbreiteten Unterklassen werden dargestellt. Mit der Vergroeßerung vorhandener Datenbestaende nimmt auch die Menge der implizit in den Daten vorhandenen Informationen zu. Methoden zur Aufarbeitung und zur Ausbeutung von Datenbanken gewinnen daher an Bedeutung. Der Prozeß zur Extraktion von Information aus Datenbestaenden wird Knowledge Discovery in Databases (KDD) Prozeß genannt. Der Begriff Data Mining steht fuer den Teil des Gesamtprozesses, der aus der Anwendung von Algorithmen zur Informationsextraktion besteht. Es werden ueberwiegend symbolische Verfahren aus dem Bereich des Maschinellen Lernens beim Data Mining eingesetzt. Die vorliegende Arbeit untersucht inwieweit und in welcher Form ein Einsatz Evolutionaerer Algorithmen im Data Mining sinnvoll ist. Einsatzmoeglichkeiten werden aufgezeigt und die erforderlichen Evolutionaeren Algorithmen skizziert. Anhand eines Einsatzes zur Erzeugung bzw. Verbesserung von Regelmengen zur Klassifikation wird ein Algorithmus detailliert entworfen. Der Algorithmus kombiniert Methoden verschiedener evolutionaerer Ansaetze. Er kann sowohl unabhaengig als auch als hybrides System in Zusammenarbeit mit Regellernsystemen (z.B. C4.5) eingesetzt werden. Der Algorithmus wurde implementiert und in das kommerzielle Data Mining System "Clementine" integriert. Es wurden umfangreiche Experimente zur Beschreibung des Algorithmusverhaltens durchgefuehrt. Der Algorithmus verbessert die von C4.5 (Quinlan) erzeugten Regelmengen in bezug auf Klassifikationsgenauigkeit. Mit zufaelliger Initialisierung (ohne Zusammenarbeit mit C4.5) erreicht der Algorithmus zu C4.5 vergleichbare Klassifikationsergebnisse. Die Wirksamkeit der eingesetzten Operatoren und die Auswirkungen verschiedener Selektionsarten wurden untersucht.

Full text and
other links
PostScript (3494247 Bytes)
Access to students' publications restricted to the faculty due to current privacy regulations
Department(s)University of Stuttgart, Institute of Computer Science, Formal Concepts
Entry dateJuly 31, 1997
   Publ. Computer Science