Dissertation DIS-2007-05

Bibliograph.
Daten
Mangold, Christoph: Konzepte und Realisierung einer kontextbasierten Intranet-Suchmaschine.
Universität Stuttgart, Fakultät Informatik, Elektrotechnik und Informationstechnik, Dissertation (2007).
193 Seiten, deutsch.
CR-Klassif.H.3.4 (Information Storage and Retrieval Systems and Software)
H.3.1 (Content Analysis and Indexing)
H.3.3 (Information Search and Retrieval)
Kurzfassung

Suchmaschinen sind ein wichtiges Werkzeug zur Recherche von Dokumenten - nicht nur im World Wide Web, sondern gleichermaßen im Intranet von Unternehmen. Herkömmliche Dokumentensuchmaschinen werten zur Beantwortung von Suchanfragen lediglich den Inhalt, d.h. den Text der Dokumente aus. Der Ansatz der vorliegenden Arbeit basiert darauf, dass nicht nur der Text sondern ebenfalls der Kontext der Dokumente in die Auswertung miteinbezogen wird. Die Kontextinformation der Dokumente wird dazu aus den Datenbanken des Unternehmens extrahiert. Die kontextbasierte Suche ist dabei nicht als Alternative zu herkömmlicher, textbasierter Suche zu sehen, sondern als eine Erweiterung. Wie bei vielen Suchmaschinen üblich, spezifiziert der Benutzer den jeweiligen Informationsbedarf nicht als Ausdruck einer formalen Sprache, sondern als Schlüsselwortanfrage.

Zur Bestimmung der Dokumentenkontexte und als Abstraktion von Unternehmensdatenbanken wird ein graphenbasiertes Modell eingeführt, der ContextGraph. Die Knoten des ContextGraph repräsentieren einerseits Datenbankdaten und andererseits die vom System erfassten Dokumente. Die Kanten des ContextGraph modellieren Fremdschlüsselbeziehungen bzw. Beziehungen zwischen Tupeln und Attributwerten in der Datenbank. Jede Kante ist gewichtet mit einem Maß für den inhaltlichen bzw. semantischen Abstand der beiden Knoten die durch sie verbunden sind. Der ContextGraph bildet die Basis zur Berechnung des Kontexts von Dokumenten, welcher durch eine inkrementelle Kürzeste-Wege-Suche im ContextGraph bestimmt wird.

Bei der Bearbeitung von Suchanfragen und bei der Bewertung der Resultate wird nicht nur der Text sondern zusätzlich der Kontext von Dokumenten, d.h. die im Kontext der Dokumente enthaltenenen Begriffe berücksichtigt. Um dies zu ermöglichen werden Bewertungsmaße für die kontextbasierte Relevanz von Dokumenten bzgl. Suchbegriffen, für die kontextbasierte Wichtigkeit von Dokumenten und für die kontextbasierte Ähnlichkeit von Dokumenten entworfen. Diese Bewertungsmaße werden umgesetzt als eine Erweiterung des im Suchmaschinenbereich bewährten tf.idf-Bewertungsmaßes zur Bestimmung der Begriffsgewichte im Vektorraummodell.

Um den Ansatz praktisch zu erproben wird eine Architektur entworfen und darauf aufbauend ein prototypisches System zur kontextbasierten Suche implementiert. Damit Skalierbarkeit erreicht werden kann, verfolgt die Suchmaschine den indexbasierten Ansatz. Zur Indexierungszeit wird der Datenbestand erhoben und in Datenstrukturen, sog. Indexen, abgelegt, die eine effiziente Verarbeitung von Suchanfragen zur Anfragezeit unterstützen.

Das implementierte System wird anhand zweier Szenarien analysiert. Dafür werden jeweils alternative Implementierungen der kontextbasierten Suche mit einer Implementierung der rein textbasierten Suche verglichen. Besonderes Augenmerk gilt dabei der Skalierbarkeit des Systems und einem Parameter zur Einstellung der vom System beachteten Kontextgröße. Die Messergebnisse quantifizieren einerseits den durch die Betrachtung des Kontexts nötigen Mehraufwand gegenüber der Textsuche. Andererseits wird die Qualität der Suchergebnisse analysiert. Die Auswertung der Messergebnisse belegen einen moderaten durch die Beachtung des Kontexts hervorgerufenen Mehraufwand, der sich - je nach Implementierung der Indexstrukturen - mehr im Aufwand zur Bearbeitung von Suchanfragen oder mehr im Aufwand bei der Erstellung des Index niederschlägt. In beiden analysierten Szenarien ergibt sich demgegenüber jedoch eine durch die Beachtung von Kontextinformation deutliche Verbesserung der Qualität der Suchresultate.

Volltext und
andere Links
Elektronische Veröffentlichung
Abteilung(en)Universität Stuttgart, Institut für Parallele und Verteilte Systeme, Anwendersoftware
Eingabedatum3. Dezember 2007
   Publ. Informatik