Ein Teilbereich des {\em Knowledge Discovery in Databases} ist die Suche nach auffälligen Abhängigkeiten zwischen Einträgen in einer Datenbank. Großes Interesse hat in den vergangenen Jahren die Suche nach Assoziationsregeln erregt. Die dabei zum Einsatz kommenden Algorithmen wurden von Agrawal und Srikant verwendet, um eine neue Klasse von interessanten Informationen zu definieren: sequentielle Muster (Sequential Patterns).
Auf einer Menge von Sequenzen, die ihrerseits aus je einer Menge von zeitlich geordneten Ereignissen bestehen, werden häufig auftretende Muster gesucht. Solche Muster könnten zum Beispiel die Erkenntnis beschreiben, daß ein Kunde, der einen Computer kauft, häufig binnen kurzer Zeit auch dazu passende Speichererweiterungen erwirbt.
Ausgehend von dem Verfahren von Agrawal und Srikant werden in dieser Arbeit Erweiterungen erwogen, die hauptsächlich die Aussagekraft der gefundenen Lösungen steigern. Unter anderem wird ein Maß zur Bestimmung der Fortsetzungswahrscheinlichkeit für Muster aus dem Bereich der Assoziationsregeln übertragen. Damit können Abhängigkeiten zwischen Ereignissen, die zeitlich versetzt auftreten, untersucht werden. Desweiteren wird das neue Maß der Reihenfolgensicherheit definiert, mit dem die Wahrscheinlichkeit beschrieben ist, daß die im Muster enthaltenen Ereignisse in der implizierten Reihenfolge auftreten.
Die nichttrivialen Aspekte der Implementierung werden ausführlich besprochen. Die Evaluation der prototypischen Implementierung des erweiterten Verfahrens (eGSP) wird unter anderem mit realen Daten aus dem Qualitätsinformationssystem der Mercedes-Benz AG durchgeführt.
Ein Vergleich mit verwandten Ansätzen und ein Ausblick auf zukünftige Entwicklungsmöglichkeiten runden diese Arbeit ab.
|